Что такое статистическая мощность

1192

Определение статистической мощности или «чувствительности» теста — важная часть планирования перед запуском A/B-тестирования. Вы сможете внести на сайт больше положительных изменений и увеличить свой доход.

Определение статистической мощности

Статистическая мощность — это способность критерия обнаружить различия там, где они на самом деле существуют. Чувствительность теста покажет значимый результат и отклонит неверную нулевую гипотезу.

Прежде чем разбираться в элементах статистической мощности, нужно понять, какие ошибки могут возникнуть в тестах и как их предотвратить.

Два типа ошибок

Ошибка первого типа

Ошибка первого типа — это ложноположительный результат: отклонение нулевой гипотезы, которая на самом деле верна.

Нулевая гипотеза говорит, что между парой событий или явлений нет различий.

Ложноположительный тест показывает, что между сравниваемыми вариантами есть разница, хотя на самом деле её нет. Такая ситуация может возникнуть, когда в тесте возникла ошибка или закралась случайность.

Вероятность ошибки типа I обозначается греческой буквой альфа (α) и указывает на предельный уровень, при котором A/B-тесту стоит доверять. Если тест достоверен на 95%, то оставшиеся 5% — это вероятность ошибки первого типа.

Если бизнес не может допустить 5% вероятности ошибки, для него это слишком много, то вероятность ложноположительных результатов можно снизить, увеличив уровень достоверности теста. Если увеличить достоверность до 99%, вероятность ошибки типа I снизится с 5% до 1%. Однако в данном расчёте есть «подводные камни».

Дело в том, что уменьшение вероятности ошибок первого типа увеличивает вероятность получения ошибок второго типа, так как между этими величинами обратно пропоциональная корреляционная зависимость. Поэтому снижение уровня альфа-ошибки (например, с 5% до 1%) в конечном итоге уменьшает общую статистическую мощность теста.

Иногда требуется сознательно увеличить риск возникновения ошибок I типа (например, с 5% до 10%), чтобы получить высокую чувствительность теста.

Ошибка второго типа

Ошибка II типа — это ложноотрицательный результат, то есть неспособность отвергнуть ложную нулевую гипотезу. Такой тест не покажет преимущество ни одного из вариантов, несмотря на то, что есть варианты, эффективнее других.

Вероятность возникновения ошибки второго типа (β-ошибка) обратно пропорциональна статистической мощности (1 - β). Если риск ошибки второго типа составляет 20%, то чувствительность теста равна 80%.

Поскольку альфа- и бета-ошибки имеют обратно пропорциональную зависимость, если тест имеет крайне низкое значение альфа-ошибки (например, 0,001%), риск ошибки второго типа очень высок.

Найти баланс — задача не из лёгких. С помощью А/В-тестирования бизнес стремится определить наилучшее сочетание элементов, выявить самый эффективный вариант среди многих. Если же тесты не обладают достаточной чувствительностью, то велик риск не заметить действительно хороший вариант.

Какие переменные влияют на стратегическую мощность теста

Далее мы рассмотрим четыре переменные, оказывающие влияние на статистическую мощность теста. Изучая эти переменные, важно помнить, что главная задача тестировщика — контролировать вероятность возникновения ошибки. Это можно сделать с помощью:

размера выборки
минимального обнаруживаемого эффекта (MDE)
уровня значимости (α)
желаемого уровня мощности (подразумеваемый коэффициент ошибок типа II)

Размер выборки

Выборка должна быть достаточно большой, иначе невозможно провести хороший сплит-тест. Важно рассчитать размер выборки так, чтобы она была необходимого и достаточного размера. Маленькая выборка не обеспечит достаточную мощность теста, а слишком большая — увеличит время проведения теста (длинные тесты стоят дороже и занимают много времени).

Каждый анализируемый вариант или сегмент должен иметь значительное количество пользователей. По этой причине размер выборки следует планировать заранее, чтобы тест всегда обладал хорошей статистической мощностью. В противном случае на выходе из теста может оказаться, что вариантов или сегментов слишком много. Если вы обнаружите это слишком поздно, тест пройдёт впустую.

Ожидайте статистически значимых результатов в течение разумного периода времени (например, не менее недели или бизнес-цикла). В большинстве случаев рекомендуется проводить тестирование в течение 2-4 недель. Любой срок, превышающий этот, может привести к загрязнению выборки и проблемам с удалением файлов cookie.

Итак, размер выборки и продолжительность тестирования должны быть определены заранее. Это позволит избежать распространённой ошибки, когда А/В-тестирование проводится «вслепую» и заканчивается до получения статистически значимых результатов.

Минимальный обнаружимый эффект (MDE)

MDE — это разница между вариантами, которую необходимо подтвердить. Небольшие различия трудно обнаружить, для этих целей требуются очень масштабные выборки. Сильные различия видны и на примере небольшой выборки.

Однако существует парадокс, при котором маленькие выборки могут быть ненадёжны, а тесты ошибочны. Всегда существует риск ошибки, есть небольшая числовая вилка, в пределах которой результат можно считать достоверным. А так как единого правила по формированию размера выборки нет, все номинальные уровни недостоверны на 100%.

Уровень значимости

Результаты тестирования считаются статистически значимыми при условии, что нулевая гипотеза неверна.

Простыми словами, если при проведении сплит-теста можно с уверенностью предпочесть один лендинг другому (степень доверия тесту 95%), то существует лишь 5% вероятность того, что наблюдаемое улучшение является результатом случайности или ошибки. С другой стороны, 95% вероятность того, что наблюдаемая разница не обусловлена случайностью.

5% — это наиболее часто употребимый начальный уровень значимости в онлайн-тестировании, который представляет собой 5% вероятность наступления ошибки типа I, о котором шла речь выше. Альфа 5% означает, что существует 5% вероятность неверно отвергнуть нулевую гипотезу.

При прочих равных условиях снижение альфы с 5 % до 1 % одновременно увеличит вероятность ошибки типа II. А повышенный риск ошибки второго типа снижает валидность теста.

Желаемый уровень мощности

Если статистическая мощность теста составляет 80%, существует 20% вероятность того, что реальная разница между вариантами не будет обнаружена. Если 20% вероятность слишком рискованна, её можно уменьшить до 10%, 5% или 1%, чтобы мощность составила 90%, 95% или 99% соответственно.

Прежде чем вы решите, что мощность анализа 95% или 99% решит все ваши проблемы, знайте, что каждое увеличение мощности анализа увеличивает размер выборки и время проведения анализа многократно.

Так какая чувствительность теста вам действительно нужна? Приемлемый уровень ложноотрицательного риска для оптимизации конверсии обычно считается равным 20%, что соответствует уровню мощности анализа 80%.

Общепризнанного стандарта для 80% мощности не существует, но это разумный баланс между альфа и бета ошибками. Обратите внимание на следующие моменты:

Каков для вас допустимый уровень риска пропустить качественное улучшение?
Какой минимальный размер выборки требуется для теста, чтобы достичь желаемой чувствительности?

Как рассчитать статистическую мощность теста

Можно использовать калькулятор A/B-тестов. Введите известные значения переменных для определения, например, объёма выборки, необходимого для получения достаточной чувствительности теста.

Например, вы посчитали, что для тестирования каждого варианта требуется выборка 681 человек. Вы основывали свои расчёты на следующих исходных значениях: мощность теста 80%, альфа 5% (95% статистической значимости). Вы также знали, что коэффициент конверсии для контрольной группы составляет 14%, и предположили ожидаемый коэффициент конверсии для лучшего варианта - 19%.

Оперируя этими же исходными данными, зная размер выборки, значение альфа и желаемый уровень статистической мощности (например, 80%), можно определить MDE.

Как мы видим, калькулятор для А/В-тестирования достаточно удобен, если знать значения трёх переменных и искать четвёртую.

Что делать, если размер выборки нельзя увеличить?

В некоторых случаях требуется проведение более высокочувствительного теста, но размер выборки увеличить нельзя: например, если трафик страницы слишком мал.

Рассмотрим ситуацию: вы ввели свои данные в А/В калькулятор, и он показал, что требуется выборка размером 8000 или более.

Но у вас нет возможности собрать такую выборку: это займёт несколько месяцев или даже больше. В этом случае вам нужно увеличить MDE. В примере ниже увеличение MDE с 10% до 25% уменьшает размер выборки до 1356.

Действительно ли всегда возможно увеличить MDE до 25%? Ведь при этом снизится качество теста.

Второй вариант имеет место быть, если вы готовы принять 10-процентный риск ошибки типа I. Тогда оптимальным вариантом будет снижение уровня значимости теста до 90%.

Перебирать данные в надежде получить удовлетворяющие цифры не самая надёжная стратегия. Аналитики рекомендуют начать с того, что определиться с размером выборки, а затем произвольно изменяют другие значения, пока не будут удовлетворены результатами.

Заключение

Статистическая мощность позволяет избегать ошибок при тестировании и выявлять действительно важные факторы производительности ваших площадок.

Придерживайтесь следующих простых правил:

Правильно выбирайте длительность теста: оптимально 2-4 недели
Используйте тестовый калькулятор, чтобы рассчитать приемлемую мощность теста
Соблюдайте требования к минимальному размеру выборки
При необходимости укрупняйте сегменты и тестируйте их
Требования к чувствительности теста предъявляйте только после выполнения требований к минимальному объему выборки.

Источник: CXL

Подписывайтесь на наш Telegram-канал. Там вы найдёте актуальные новости в области digital-маркетинга, полезные статьи и интересные исследования. Будьте в теме вместе с нами!