<A/B 테스트 - 신뢰할 수 있는 온라인 종합 대조 실험>,
일명 ‘하마책’으로 불리며 출간 후 AB test의 바이블로 여겨지고 있는 책이다.
국내 번역본
원서
책 소개
신뢰도 높은 실험을 설계하는 가이드를 제공한다. 특히 각각 과정이 더욱 정확하게 측정가능한 온라인을 대상으로 한다. 구글, 링크드인과 마이크로소프트의 빅테크 기업에서 전 세계인을 대상으로 실행해온 수많은 실험의 노하우를 책에 담았다.
전반부는 온라인 실험에 대한 이론적인 내용을 담고 있으며, 후반부는 이를 실제로 적용할 때 발생할 수 있는 다양한 상황을 다루는 법을 알려준다.
그야말로 업계의 네임드, 아주 빵빵한 저자들이 저술한 훌륭한 내용의 책이라고 하는데… 국내에 나온 번역본을 조금 읽어본 결과 (+ 들리는 이야기로 봐도) 번역 품질이 좀 떨어지는 편인 것 같다. 그래서 원서와 번역본을 같이 참고하면서 쭉 읽어보고 요약 정리를 해두려 한다.
챕터별로 요약한 내용을 하나씩 올려볼 예정으로, AB test란 무엇이며 왜 중요한지를 설명하는 Ch. 1부터 시작한다.
Ch.1 주요 내용
1.
온라인 종합 대조 실험이란 무엇인가
2.
직관 대신 실제 데이터를 기반으로 의사결정하는 것의 중요성
너무나 성공적이었던 bing 실험 사례
•
실험 내용
◦
빙 검색 결과의 타이틀 라인을 길게 만들었더니 광고 매출이 대폭 증가했다.
◦
광고 매출 12% 증가 → 미국에서만 연간 1억 달러 
◦
다른 주요 사용자 경험 지표를 저해하지도 않음
•
이 예시는 온라인 종합 대조 실험의 핵심 주제를 보여줌
◦
아이디어의 가치는 평가하기 힘들다. (이 실험은 몇달간 미뤄졌다)
◦
작은 변화도 큰 영향을 줄 수 있다. (개발자 한명이 단 며칠 작업함. 최고의 ROI)
◦
하지만 큰 영향을 발생시키는 실험은 드물다.
◦
실험을 실행하는 오버헤드는 적어야 한다. (인프라 필요)
◦
OEC(전체 평가 기준)이 분명해야 한다. (bing은 사용자 경험 지표를 비교해 매출을 판단하는 OEC 사용)
ABT의 주요 용어
•
종합 대조 실험은 많은 용어로 불린다. (A/B 테스트, A/B/n 테스트, 필드 테스트, 무작위 종합대조 실험, 분할 테스트, 버킷 테스트, 플라이트)
→ 이 책에서는 종합 대조 실험, A/B 테스트를 섞어 사용
(요약 정리 할때는 짧게 ABT라고도 사용하자)
•
가장 단순한 ABT 구조
•
OEC(Overall Evaluation Criterion): Response, Dependent variable …
◦
단기적으로 실험 기간 내에도 측정이 가능해야 하지만, 장기적인 전략적 목표를 드라이브해야 한다
◦
예시로 검색 엔진은 usage, relevance, ad revenue의 조합을 사용할 수 있다고 함
▪
성공지표를 여러 개 놓고 결과를 해석하기보다는 이런 식으로 여러 지표의 조합을 사용하면 실험 후 의사 결정을 내리는데 도움이 되겠다고 생각됨
◦
OEC는 단일 지표가 권장되지만, 여러 개일수도 있고 이 때는 balanced scorecard 방식을 이용할 수 있다고 이야기함
▪
OEC에 대해서는 Ch. 7에서 자세히 다룬다는데 좀 헷갈려서 거기서 보고 다시 정리하는 것으로.
•
Parameter: Factors, Variables …
◦
OEC와 다른 관심 지표에 영향을 주는 통제 가능한 변수
◦
단일 변수 실험(univariable tests)
▪
두 개의 값을 갖는 단순 A/B 테스트, 여러 값을 가진 단일 변수 테스트 가능
◦
다변수 실험(multivariable or multivariate tests, MVTs)
▪
글꼴 색상과 글꼴 크기와 같은 다중 변수를 함께 평가 → 변수들이 상호작용시 global optimum을 발견하는 목표
•
Variant: 변형군. 실험군과 대조군(=실험 그룹). 엄밀히는 대조군을 제외하고 실험군만 의미할 때도 있음
•
Randomization Unit
◦
User가 randomization unit이 되는 경우가 일반적
◦
무작위 추출의 중요성: 각 변형군에 할당된 유저들이 통계적으로 유사 → 인과관계를 높은 확률로 판별
◦
유저를 지속적이고 독립적인 방식으로 variant에 할당해야 함
왜 실험인가? 상관관계, 인과관계, 신뢰성
•
온라인 종합 대조실험은
◦
높은 확률로 인과관계를 확립할 수 있는 최선의 과학적인 방법
◦
시간에 따른 변화와 같이 다른 기법으로 탐지하기 어려운 작은 변화 감지 가능 (민감도)
◦
예상치 못한 변화도 감지 가능
•
온라인 종합 대조실험은 신뢰할 수 있는 데이터를 대규모로 수집하고, 적절하게 무작위 추출하며, 함정을 피하거나 탐지하는데 있어 최고의 능력을 제공한다
•
여건이 가능하다면, AB테스트를 해라!
유용한 종합 대조 실험 실행을 위한 필수 재료
1.
서로 간의 간섭 효과 없이 변형군에 할당될 수 있는 실험 단위(유저)
•
ex. 대조군의 유저가 실험군 유저에게 영향을 미치면 안됨
2.
충분한 실험 단위(유저)
3.
평가 가능하며, 동의가 이루어진 핵심 지표(OEC)
4.
변경 용이성
A/B 테스트를 실행하려는 조직에게 도움이 될 원칙
1.
조직은 데이터 중심 결정을 내리고 OEC를 공식화한다.
2.
조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 실험에 기꺼이 투자한다.
3.
조직은 아이디어의 가치를 평가하는 데 서툴다는 것을 인지한다
실험은 기업의 전략과 전술 모두에 효과적이다
•
전략(strategy)에서 전술(tactics)에 이르기까지, 종합 대조 실험은 효과적이다. 전략에 대한 훌륭한 피드백 루프를 제공하고, 운영 효율성을 향상시킬 수 있다.
•
시나리오 1: 비즈니스 전략이 있고, 실험 대상 유저가 충분한 제품이 있는 상황
◦
현재의 전략과 제품에 기반해 local optimum을 달성하는 데 실험이 도움이 된다 (언덕 등반, exploitation)
▪
ROI가 높은 분야를 식별 (MVP 활용)
▪
디자이너에게 명백하지 않지만 큰 차이를 낼 수 있는 최적화
▪
완전한 재설계보다는 지속적으로 재설계
▪
백엔드 알고리즘, 인프라 구조 최적화
◦
자원을 낭비하지 않기 위해서는 좋은 OEC가 필요함
▪
저자들의 회사에는 지표를 전담하는 팀이 있다는 것이 인상적
•
시나리오 2: 제품과 전략을 갖고 있지만, 피봇을 검토해야한다는 결과가 나온 상황
◦
다른 더 큰 언덕(global optimum)을 찾기 위한 pivot(exploration) 아이디어를 테스트할 때에는 다음을 고려해야 한다
▪
실험 기간: 초두효과, 변화 회피를 고려해서 설계가 필요
▪
테스트한 아이디어의 수
•
각 실험은 특정 ‘전술’만 테스트하기 때문에 여러가지 아이디어로 실험이 필요할 수 있다
•
종합 대조 실험은 전략을 수정하거나 비효과적인 부분을 보여주고, pivot을 장려하는 것을 돕는다.
•
실험을 통해 평가한 많은 전술이 실패한다면 전략을 포기하는 결정도 필요하다. (매몰 비용을 이해)
◦
종합 대조 실험은 MVP를 시도하고, 데이터를 얻고, 반복함으로써 불확실성(uncertainty)를 줄일 수 있게 해준다.
마무리
챕터 1의 내용은 AB 테스트에 대한 소개 정도였지만, AB테스트는 기업이 감이 아닌 데이터에 기반한 의사 결정을 할 수 있게 해주는 최선의 방법이라는 점을 재확인할 수 있었다.
읽으면서 자연스럽게 우리 회사의 상황를 생각하게 될 수 밖에 없었는데, 책 전체를 읽으면서 아무래도 계속 우리 회사의 상황에 대입하고 비교하면서 보게될 것 같다. 끝까지 열심히 읽어봐야지!