[A/B test] 종합 대조 실험에 대한 보완 기법들

종합 대조 실험에 대한 보완 기법들에 대해 알아보자 :)

Dec 29, 2025

1. 보완 기법의 사용 범위

1-1. 성공적인 A/B 실험을 위한 추가 사항

  • 실험을 위한 아이디어인 아이디어 퍼널
  • 우리가 관심 있는 효과를 측정하기 위한 검증된 지표
  • 온라인 종합 대조 실험이 불가능하거나 불충분할 때 가설을 뒷받침하거나 반박하는 근거
  • 종합 대조 실험에서 계산된 지표를 보완하는 지표

2. 신뢰할 수 있는 A/B 실험을 실행하기 위한 선행 조건

💡
로그 기반 분석(소급 분석)
  • 사용자 뷰
  • 행동 및 상호작용을 적절하게 측정하는 도구 확보
→ 이것은, 종합 대조 실험 평가를 위한 지표를 계산하기 위한 것들이다.

2-1. 로그 기반 분석의 역할

  • 직관 확립 : 지표를 정의하고 직관을 확립하기 위해 다음과 같은 질문에 대답할 수 있다.
    • 세션 당 사용자 또는 클릭률의 분포는 어떻게 되는가?
    • 국가나 플랫폼과 같은 분류 기준에 따른 차이는 어떠한가?
    • 이러한 분포는 시간이 지남에 따라 어떻게 변화되는가?
    • 시간이 지남에 따라 사용자는 변화하는가?
  • 잠재적 지표의 구체화 : 직관을 확립한 후 이를 기반으로 잠재적 지표를 구체화할 수 있다.
    • 구체화 과정을 통해 새로운 지표가 기존 지표와 어떤 관계를 가지는지 파악하고 분산과 분포를 이해할 수 있다.
    • 예) 잠재적 지표들이 의사결정에 도움을 줬는지?
  • 탐색한 데이터를 기반으로 A/B 실험 아이디어의 창출 : 구매 퍼널의 각 단계에서 전환율을 검토해 전환율이 크게 떨어지는 단계를 찾아낼 수 있다.
    • 세션화된 데이터를 분석하면 특정 작업 순서가 예상보다 오래 걸렸다는 것을 밝혀낼 수 있다.

3. 사람의 평가

💡
회사가 평가자를 활용해서 업무를 수행하는 것이다.
→ 그 결과를 후속 분석에 사용하고, 검색/추천 시스템에서의 일반적인 평가 방법

3-1. 질문 예시

  • ‘A와 B 중 어떤 것을 더 선호하는가?’
  • ‘이 결과가 이 질의와 얼마나 관련성이 있는가?’

3-2. 한계

  • 평가자가 사람이 아님에 따라 발생하는 오류가 존재
    • ‘5/3’이라는 검색어는 산술적인 질문으로 받아들여져 1.667의 결과를 내놓음
    • 로고가 ‘5/3’인 Fifth Third Bank 근처에 사는 사용자들은 은행 정보를 찾고 있음
따라서, A/B 실험을 평가하기 위한 추가 지표로, 사람의 평가에 기반한 지표를 사용할 수 있다.

4. 사용자 경험 연구(UER)

💡
사용자 수가 최대 수십명 정도로 심층적이고 집약적이며, 직접적인 관찰과 시기 적절한 질문으로부터 아이디어를 창출하고 문제를 발견하며 통찰력을 얻는 데 유용하다.

4-1. 예시

  • 웹사이트가 무언가를 판매하려고 하는 경우, 구매를 완료하려는 사용자를 관찰
  • 사용자가 어려움을 겪는 위치를 관찰해 지표에 대한 아이디어를 얻음

4-2. 포함 가능 사항

  • 계측기에서 수집할 수 없는 시선 추적 데이터를 수집하기 위한 특수 장비
  • 사용자의 의도나 오프라인 활동과 같이 계측을 통해 수집할 수 없는 데이터가 더해짐

5. 포커스 그룹

💡
실험자의 지침에 따른 모집된 사용자 또는 잠재적 사용자들 간의 그룹 논의

5-1. 예시

  • 자유로운 질문 : 동료들 사이에서는 보통 무엇이 이야기되고 행해지고 있는가?
  • 구체적인 질문 : 스크린샷이나 데모 버전을 통해 바로 피드백을 끌어낼 수 있는가?

5-2. 한계

  • 사용자 경험 연구(UER)에서보다 더 적은 영역을 다루며 집단의 편견이나 소수 의견에 빠질 가능성 존재
  • 고객이 포커스 그룹이나 설문 조사에서 하는 말은 그들의 진짜 생각과 다를 가능성 존재
포커스 그룹은 추후 실험을 위한 설계 초기 단계의 잘못 설정된 가설에 대한 피드백을 얻거나, 종종 브랜딩이나 마케팅 변화를 위해 근본적인 감정 반응을 이해하려고 노력하는데 유용하다.

6. 설문 조사

💡
일반적인 설문 조사 방법 뿐만 아니라, 제품 내에서 설문 조사를 실행할 수 있으며, 잠재적으로 종합 대조 실험과 결합 가능

6-1. 특징

  • 질문이 잘못 해석되거나 의도치 않게 응답자가 특정 답변을 선택하도록 하거나 다듬어지지 않은 답변을 만들어 질 수 있음
  • 사용자는 익명의 설문조사일지라도 완전히 진실된 답변을 하지 않을 수 있음
  • 모집단은 쉽게 편향될 수 있으며 실제 사용자집단을 대표하지 못할 수 있음

6-2. 한계

  • 사용자 경험 연구(UER) 또는 포커스 그룹보다 더 많은 수의 사용자에게 도달하기 위해 사용할 순 있으나, 주로 사용자의 오프라인 활동 또는 신뢰와 만족도 수준과 같이 계측된 데이터에서 관찰할 수 없는 질문에 대한 답변을 얻는 데서만 유용

7. 외부 데이터

💡
회사의 외부에서 수집되고 분석된 데이터

7-1. 외부 데이터 출처

  • 모든 온라인 행동 추적에 동의한 대규모 사용자 패널을 모집해서 수집한 데이터를 바탕으로 사이트별 세분화된 데이터를 제공하는 기업
  • 로그 기반 데이터와 결합이 가능한 사용자 세그먼트와 같이 사용자별 세분화된 데이터를 제공하는 기업
  • 직접 공표하거나 맞춤형 설문으로 쓸 수 있게 만든 설문조사와 설문지를 운영하는 기업
  • 공개된 학술지 논문

7-2. 특징

  • 간단한 비즈니스 지표를 검증하는데 도움이 될 수 있음
  • 내부 및 외부 데이터의 시계열을 검토해, 시계열이 추세 또는 계절 변동성 측면에서 일관성이 있는지 확인해야 함