АБ-тестирование | Антон Рожков

Как сформулировать гипотезу и её проверить

В прошлый раз я рассказал как считать доверительные интервалы и показал как это происходит на практике. Но одна из сложных (для меня) тем была: как сформировать гипотезу с точки зрения науки. Разберём эту тему на примере.

Допустим, вы прослушиваете звонки в колл-центре. И постоянно слышите вопрос от клиента сколько будет стоить услуга. А когда клиент узнает цену, то сразу же сбрасывает звонок.

На основе этой информации мы можем сформулировать гипотезу как можно улучшить этот процесс и повысить конверсию: «А давайте сразу же на сайте писать цену!». Первый вопрос, а для чего мы это делаем?

Чтоб повысить конверсию! Когда мы будем подводить итог, мы будем считать эффективность старой версии сайта, по сравнению с новой версией сайта.

Нулевая гипотеза

Сначала определяем нулевую гипотезу. Фактически это гипотеза, которая говорит нам о том, что всё должно быть так, как обычно. То есть мы отвергаем, что появление точной стоимости на сайте увеличит конверсию. Для нас нулевая гипотеза: «Когда мы начали показывать стоимость услуги, конверсия не увеличилась».

Альтернативная гипотеза

Второй шаг, определить альтернативную гипотезу. Это гипотеза, ради чего мы все это затеяли. В нашем случае: «Когда мы начали показывать стоимость услуг, конверсия увеличилась».

Стартуем эксперимент

После определения двух гипотез, мы должны начать эксперимент. Попыткой в нашем случае будет заход пользователя на сайт с рекламы. Удачной попыткой — запись в колл-центре. В идеале, нужно разделить трафик поровну. Половина отправляется на старую версию сайта, вторая половина — на новую версию сайта.

В идеале, стоит провести еще и AA тестирование. То есть трафик разделять не на 2 части, а на 3 части. Первая часть идёт на исходную страницу, вторая часть снова на исходную страницу, а третья часть на новую страницу. Это нужно, чтоб понять, что с трафик однороден. Но в реальности AAB-тестирование могут себе позволить только огромные проекты с большим количеством трафика.

Подведение итогов

И вот тут мы считаем доверительные интервалы. Нам нужно определить уровень статистической значимости. Если бы мы были учеными, то скорее всего мы бы взяли 95% значимость, чтоб уменьшить вероятность ошибочного эксперимента. Если эксперимент критичный (если ошиблись, получим смерти людей), тогда берут 99% значимости.

Для маркетинга достаточно брать уровень статистической значимости 80% (Сигма=1.28). Как считать доверительные интервалы, я уже писал. Если попыток мало, то лучше использовать формулу x², если попыток много (больше 5000), то я использую бета-распределение.

Если доверительные интервалы (ДИ) пересекаются (первый исход ДИ от 5% до 5,5%; второй исход 5,4% до 5,7% → пересечение между 5,4% (начало 2 ДИ) и 5,5% (конец 1 ДИ)), тогда мы не можем сказать что первая и вторая гипотезы отличаются.

Если доверительные интервалы расходятся, тогда победитель будет тот, у кого цифры в ДИ выше. Если выше цифры у нулевой гипотезы, значит эксперимент провалился. Если выше цифры у альтернативной гипотезы, значит эксперимент был успешен.

blog_links_near

2 года 4 месяца назад

Если реклама по CPM, то работаем с креативами в первую очередь

Как сформулировать гипотезу и её проверить