[A/B test] 관측 인과 연구

관측 인과 연구에 대해 알아보자 :)

Aug 25, 2025

1. 종합 대조 실험이 불가능한 경우

💡
A/B 테스트는 특정 변화에 의한 인과 효과를 측정해야 하며, 이는 변화의영향을 받는 집단과 그렇지 않은 집단을 비교해야 한다.

1-1. 예시

  • 테스트할 인과적 행동이 조직을 통제할 수 없는 경우
    • ex) 사용자가 아이폰에서 삼성 갤럭시 휴대폰으로 변경할 때 사용자의 행동이 어떻게 변하는지 이해하고 싶음. → 사용자의 선택을 제어하는 것은 불가능 한 것.
  • 사건의 수가 너무 적은 경우
    • ex) 인수 합병 시나리오에서 발생하는 일회적 현상에서 그 반대의 경우를 추정하는 것은 어려움.
  • 실험이 실행되지 않는 대조군을 설정하는데 너무 많은 기회비용이 드는 경우
    • ex) 희소하게 밖에 발생하지 않는 이벤트를 위해 시간과 비용을 너무 많이 쏟음.

2. 관측 인과 연구를 위한 설계

💡
관측 인과 연구에서 고려해야 하는 문제
  • 비교를 위해 대조군 및 실험군을 어떻게 구성할 것인가
  • 대조군과 실험군에 미치는 영향을 어떻게 모델링할 것인가

2-1. 관측 인과 연구를 위한 설계 방법

단절적 시계열
단절적 시계열
회귀 불연속 설계
회귀 불연속 설계
  • 단절적 시계열 : 적절한 실험군과 대조군을 할당하기 위한 실험군의 랜덤화는 불가능하지만, 시스템 내의 실험 변화 여부를 제어할 수 있는 준실험설계
    • → 실험군과 대조군에 동일한 모집단을 사용해 모집단이 시간이 경과함에 따라 무엇을 경험하는가를 변화시키는 실험 계획
  • 교차배치 실섬 설계 : 검색 엔진 또는 웹사이트 검색과 같은 순위 알고리듬 변경을 평가하는 데 사용되는 일반적인 설계
    • → 교차배치 실험은 X1, Yi. X2. Y2 • ... Xn, Yn 와 같이 결과를 함께 섞고, 중복된 결과는 제거
  • 회귀 불연속 설계 : 실험을 적용하는 모집단을 식별하는 명확한 임계값이 있을 때 사용할 수 있는 방법
    • → 해당 임계값을 기준으로 임계값 바로 밑에 있는 모집단을 대조군으로 식별하고 임계값 바로 위에 있는 모집단을 실험군으로 비교해 선택 편향 줄임
  • 도구 변수 및 자연 실험 : 무작위 할당을 근사화할 수 있는 도구 변수를 찾아내는 것
  • 성향 점수 매칭 : 사용자를 공통의 교란변수로 분류해서 유사한 대조 및 실험 집단을 구성하는 것
    • → 대조군과 실험군의 차이가 두 집단의 기본적 특성 차이로부터 오지 않도록 구성하는 것이 중요

3. 차이들의 차이

💡
식별 후 변수의 효과를 측정하는 방법은, 일반적인 추세를 가정해서 차이들의 차이를 보는 것이다.
변화에 영향을 받지 않은 그룹은 변화에 영향을 받은 그룹과 다르기는 하지만 전체적으로는 같은 방향으로 움직인다.
notion image

4. 함정

💡
예상치 못한 교란 요인* 을 조심해야 한다.
*교란 요인 : 측정된 효과, 인과관계의 관심이 있는 변화로의 귀속에도 영향을 미칠 수 있는 요인 총칭

4-1. 흔한 유형의 교란 요인

공통 원인
공통 원인
기만적인 상관관계
기만적인 상관관계
  • 인식하지 못한 공통 원인
    • ex) 인간의 손바닥 크기는 기대 수명과 강한 상관관계.
      → 평균적으로 손바닥이 작을수록 더 오래 사나, 손바닥이 작은 것과 수명이 긴 것의 공통 원인은 성별.
      → 여성은 손바닥이 작고 평균적으로 수명이 길다. (공통 원인)
      ex) 마이크로소프틑 오피스 365를 포함한 많은 제품의 경우, 더 많은 오류를 경험하는 사용자는 일반적으로 이탈이 적다고, 이탙을 줄일 목적으로 더 많은 오류를 발생시키면 안됨.
      → 해당 사례에서, 이탈률과 상관관계는 사용량에 기인하기 때문. (공통 원인)
  • 기만적인 상관관계
    • ex) 마케팅 회사가, 에너지 음료가 운동 성과가 높은 상관관계가 있고 인과관계가 의미한다고 주장할 수 있다.
      → 우리는 많은 가설을 테스트 할 때, 인과관계의 주장을 기각할 직관이 없을 때 믿어버리는 경향 존재. (기만 상관관계)