Search
🧪

⟪A/B 테스트⟫ Ch 1. Introduction and Motivation

Created at
2025/03/06
Updated at
2025/03/06
Tags
Keywords
AB Test
3 more properties
<A/B 테스트 - 신뢰할 수 있는 온라인 종합 대조 실험>, 일명 ‘하마책’으로 불리며 출간 후 AB test의 바이블로 여겨지고 있는 책이다.
국내 번역본
원서
책 소개
신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세계인을 대상으로 실행해온 수많은 실험의 노하우를 책에 담았다.
전반부는 온라인 실험에 대한 이론적인 내용을 담고 있으며, 후반부는 이를 실제로 적용할 때 발생할 수 있는 다양한 상황을 다루는 법을 알려준다.
그야말로 업계의 네임드, 아주 빵빵한 저자들이 저술한 훌륭한 내용의 책이라고 하는데… 국내에 나온 번역본을 조금 읽어본 결과 (+ 들리는 이야기로 봐도) 번역 품질이 좀 떨어지는 편인 것 같다. 그래서 원서와 번역본을 같이 참고하면서 쭉 읽어보고 요약 정리를 해두려 한다.
챕터별로 요약한 내용을 하나씩 올려볼 예정으로, AB test란 무엇이며 왜 중요한지를 설명하는 Ch. 1부터 시작한다.
Ch.1 주요 내용
1.
온라인 종합 대조 실험이란 무엇인가
2.
직관 대신 실제 데이터를 기반으로 의사결정하는 것의 중요성

너무나 성공적이었던 bing 실험 사례

실험 내용
빙 검색 결과의 타이틀 라인을 길게 만들었더니 광고 매출이 대폭 증가했다.
광고 매출 12% 증가 → 미국에서만 연간 1억 달러
다른 주요 사용자 경험 지표를 저해하지도 않음
이 예시는 온라인 종합 대조 실험의 핵심 주제를 보여줌
아이디어의 가치는 평가하기 힘들다. (이 실험은 몇달간 미뤄졌다)
작은 변화도 큰 영향을 줄 수 있다. (개발자 한명이 단 며칠 작업함. 최고의 ROI)
하지만 큰 영향을 발생시키는 실험은 드물다.
실험을 실행하는 오버헤드는 적어야 한다. (인프라 필요)
OEC(전체 평가 기준)이 분명해야 한다. (bing은 사용자 경험 지표를 비교해 매출을 판단하는 OEC 사용)

ABT의 주요 용어

종합 대조 실험은 많은 용어로 불린다. (A/B 테스트, A/B/n 테스트, 필드 테스트, 무작위 종합대조 실험, 분할 테스트, 버킷 테스트, 플라이트)
→ 이 책에서는 종합 대조 실험, A/B 테스트를 섞어 사용 (요약 정리 할때는 짧게 ABT라고도 사용하자)
가장 단순한 ABT 구조
OEC(Overall Evaluation Criterion): Response, Dependent variable …
단기적으로 실험 기간 내에도 측정이 가능해야 하지만, 장기적인 전략적 목표를 드라이브해야 한다
예시로 검색 엔진은 usage, relevance, ad revenue의 조합을 사용할 수 있다고 함
성공지표를 여러 개 놓고 결과를 해석하기보다는 이런 식으로 여러 지표의 조합을 사용하면 실험 후 의사 결정을 내리는데 도움이 되겠다고 생각됨
OEC는 단일 지표가 권장되지만, 여러 개일수도 있고 이 때는 balanced scorecard 방식을 이용할 수 있다고 이야기함
OEC에 대해서는 Ch. 7에서 자세히 다룬다는데 좀 헷갈려서 거기서 보고 다시 정리하는 것으로.
Parameter: Factors, Variables …
OEC와 다른 관심 지표에 영향을 주는 통제 가능한 변수
단일 변수 실험(univariable tests)
두 개의 값을 갖는 단순 A/B 테스트, 여러 값을 가진 단일 변수 테스트 가능
다변수 실험(multivariable or multivariate tests, MVTs)
글꼴 색상과 글꼴 크기와 같은 다중 변수를 함께 평가 → 변수들이 상호작용시 global optimum을 발견하는 목표
Variant: 변형군. 실험군과 대조군(=실험 그룹). 엄밀히는 대조군을 제외하고 실험군만 의미할 때도 있음
Randomization Unit
User가 randomization unit이 되는 경우가 일반적
무작위 추출의 중요성: 각 변형군에 할당된 유저들이 통계적으로 유사 → 인과관계를 높은 확률로 판별
유저를 지속적이고 독립적인 방식으로 variant에 할당해야 함

왜 실험인가? 상관관계, 인과관계, 신뢰성

온라인 종합 대조실험은
높은 확률로 인과관계를 확립할 수 있는 최선의 과학적인 방법
시간에 따른 변화와 같이 다른 기법으로 탐지하기 어려운 작은 변화 감지 가능 (민감도)
예상치 못한 변화도 감지 가능
온라인 종합 대조실험은 신뢰할 수 있는 데이터를 대규모로 수집하고, 적절하게 무작위 추출하며, 함정을 피하거나 탐지하는데 있어 최고의 능력을 제공한다
여건이 가능하다면, AB테스트를 해라!

유용한 종합 대조 실험 실행을 위한 필수 재료

1.
서로 간의 간섭 효과 없이 변형군에 할당될 수 있는 실험 단위(유저)
ex. 대조군의 유저가 실험군 유저에게 영향을 미치면 안됨
2.
충분한 실험 단위(유저)
3.
평가 가능하며, 동의가 이루어진 핵심 지표(OEC)
4.
변경 용이성

A/B 테스트를 실행하려는 조직에게 도움이 될 원칙

1.
조직은 데이터 중심 결정을 내리고 OEC를 공식화한다.
2.
조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 실험에 기꺼이 투자한다.
3.
조직은 아이디어의 가치를 평가하는 데 서툴다는 것을 인지한다

실험은 기업의 전략과 전술 모두에 효과적이다

전략(strategy)에서 전술(tactics)에 이르기까지, 종합 대조 실험은 효과적이다. 전략에 대한 훌륭한 피드백 루프를 제공하고, 운영 효율성을 향상시킬 수 있다.
시나리오 1: 비즈니스 전략이 있고, 실험 대상 유저가 충분한 제품이 있는 상황
현재의 전략과 제품에 기반해 local optimum을 달성하는 데 실험이 도움이 된다 (언덕 등반, exploitation)
ROI가 높은 분야를 식별 (MVP 활용)
디자이너에게 명백하지 않지만 큰 차이를 낼 수 있는 최적화
완전한 재설계보다는 지속적으로 재설계
백엔드 알고리즘, 인프라 구조 최적화
자원을 낭비하지 않기 위해서는 좋은 OEC가 필요함
저자들의 회사에는 지표를 전담하는 팀이 있다는 것이 인상적
시나리오 2: 제품과 전략을 갖고 있지만, 피봇을 검토해야한다는 결과가 나온 상황
다른 더 큰 언덕(global optimum)을 찾기 위한 pivot(exploration) 아이디어를 테스트할 때에는 다음을 고려해야 한다
실험 기간: 초두효과, 변화 회피를 고려해서 설계가 필요
테스트한 아이디어의 수
각 실험은 특정 ‘전술’만 테스트하기 때문에 여러가지 아이디어로 실험이 필요할 수 있다
종합 대조 실험은 전략을 수정하거나 비효과적인 부분을 보여주고, pivot을 장려하는 것을 돕는다.
실험을 통해 평가한 많은 전술이 실패한다면 전략을 포기하는 결정도 필요하다. (매몰 비용을 이해)
종합 대조 실험은 MVP를 시도하고, 데이터를 얻고, 반복함으로써 불확실성(uncertainty)를 줄일 수 있게 해준다.

마무리

챕터 1의 내용은 AB 테스트에 대한 소개 정도였지만, AB테스트는 기업이 감이 아닌 데이터에 기반한 의사 결정을 할 수 있게 해주는 최선의 방법이라는 점을 재확인할 수 있었다.
읽으면서 자연스럽게 우리 회사의 상황를 생각하게 될 수 밖에 없었는데, 책 전체를 읽으면서 아무래도 계속 우리 회사의 상황에 대입하고 비교하면서 보게될 것 같다. 끝까지 열심히 읽어봐야지!