[Paper Review] 링크드인 사례 - Detecting interference: An A/B test of A/B tests

  • 플랫폼사 A/B 테스트 케이스 스터디 정리 중 네트워크 효과 관련 사례
    직장인 소셜 플랫폼 링크드인의 실험 Detecting interference: An A/B test of A/B tests 에서 `Interference`가 존재할 때의 실험 설계, 결과 해석에 대한 내용을 확인할 수 있었다.
  • 새로운 프로덕트/서비스의 효과를 평가하기 위해 활용하는 A/B 테스트 (Randomized experiments)
    • 테스트시 기반이 되는 가정 “Stable Treatment Value Assumption” (SUTVA) : Treatment only affects treated users and does not spill over to their friends.
      • 예를 들어, A, B feature를 두고 실험을 하는 상황에서, A유저의 행동은 B 유저의 행동에 영향을 받지 않는다는 가정 하에 실험을 수행하고 결과를 해석한다. 이 가정을 소셜 네트워킹 플랫폼인 링크드인에도 적용할 수 있을까?

Example

Better Messaging Experience 실험 상황을 가정해보자.

  • H0 : Better Messaging Experience는 유저의 체류(이용) 시간에 영향을 미친다.
  • H1 : Better Messaging Experience는 유저의 체류(이용) 시간에 영향을 미치지 않는다.

  • 내 친구가 실험의 대상(Treatment Group B)이고, 내가 통제 집단 (Control Group A)에 속할 경우를 가정한다. 내 친구가 Better Messaging Experience로 인해 서비스를 이용하는 시간이 길어지고, 나를 포함한 유저들에게 더 많은 메세지를 보내게 된다면 ?
  • 친구의 Messages를 받은 나를 비롯한 Control Group에 속한 유저들의 이용시간도 길어질 수 있다.
    ⇨ 실험집단이 통제집단에 영향을 주기 때문에, 두 그룹의 평균차로 새로운 Feature의 효과를 설명하기 어렵다.
Violation of SUTVA : 실험집단이 아닌 유저들에게도 실험이 영향을 미치는 케이스
  • 통제집단, 실험집단 간의 'Network Effect' / 'Interference' 가 존재

링크드인에서 어떻게 이 문제를 해결했을까?

  • Detection mechanism for the network effect : 2개의 실험을 동시에 진행(two parallel experiments)

( A )

LinkedIn Graph 를 10000개의 cluster군집으로 나눔

(유저와 군집은 1:1 :a member belongs to one cluster only)

( B )

- 군집들을 두 가지 실험으로 나눔

1) CR (Completely Randomized, Individual based)

2) CBR (Cluster-based Randomized)

( C )

- CR 랜덤하게 실험집단,통제집단으로 나눔

- CBR 실험집단, 통제집단 나눌 시 군집간 영향을 받을 수 있는 proportion을 고려하여 나눔

:: If I am part of the control group, a significant proportion of my connections are also under control)

( D, E )

- 두 실험에서 effect, variance 각각 구해서 비교


Source/Reference : Detecting interference: An A/B test of A/B tests At LinkedIn, most decisions are made using experiments. When we want to decide between two features, we test them against each other in the real world: we give feature A to a random set of members, feature B to another set, and we compare the results. Are engineering.linkedin.com