A/B тестирование
Проблемы A/B тестирования в мобильном маркетинге
Пока тестирование фич и стилистических элементов приложений скомпрометировано потенциальной бесполезностью и неправильными интерпретациями, A/B тестирование для мобильного маркетинга и привлечения пользователей — еще более ненадежное поле.
Эрик Сеуферт в своем блоге поделился интересными проблемами тестирования маркетинговых материалов для мобильных приложений.
A/B тестирование в разработке приложений (и вообще) — противоречивая вещь. Несмотря на то, что разработка приложений ориентирована на данные, самая распространенная критика постоянных тестов на функционал и эстетику, которые проходят приложения, это то, что творческая часть процесса дизайна откладывается на потом.
Но со статистической и аналитической точки зрения A/B тестирование проблематично по другим причинам. Глава анализа данных в King недавно в своем интервью сформулировал четыре причины A/B тестирования в бесплатных играх:
- Распределение Парето характеристик монетизации в бесплатных играх приводит к смещению результатов из-за малого количества активных игроков (противоположное тоже важно: разработчики оптимизируются свои игры на основе игроков с наибольшим энтузиазмом, а тесты нужно проводить на большом количестве игроков, чтобы уловить поведение на всем распределении);
- A/B тесты тяжело администрировать в играх, где впечатления пользователей должны быть собраны с разных устройств (например, если игра идет на Facebook, iPhone и iPad);
- факторы A/B тестов тяжело верифицировать, что ведет к длинным периодам тестирования;
- результаты A/B тестирование часто слишком специфичны для того, чтобы их можно было применить универсальным образом (по всем играм в портфолио), что снижает ценность каждого теста.
Это самые явные точки, выделяющие концептуальные проблемы A/B тестирования (особенно в контексте фримиум), которые идут дальше обычных вопросов, которые задают на практике, например, о тенденции тестировщиков останавливать тесты сразу после того, как достигаются какие-то значительные результаты (в этой статье можно почитать о самых распространенных ловушках при проведении тестов).
Но пока тестирование фич и стилистических элементов приложений скомпрометировано потенциальной бесполезностью и неправильными интерпретациями, A/B тестирование для мобильного маркетинга и привлечения пользователей — еще более ненадежное поле.
Одна из проблем с A/B тестированием маркетинговых материалов — рекламы, иконок, скриншотов в магазине и т.д. — то, что сложно запустить рекламную кампанию, которая не оптимизируется автоматически рекламными сетями, что опять же смещает результаты. Многие мобильные рекламные сети используют версии байесовского алгоритма (Bayesian bandits algorithm), который приоритезирует лучше всего работающую (в терминах цены привлечения) рекламу. Если два маркетинговых варианта проходят A/B тестирование против друг друга, а трафик оптимизируется для каждой альтернативы, то результаты несравнимы: на каждый вариант подавался тот трафик, который лучше всего подходит именно ему, что значит, что пулы впечатлений от них совершенно разные. Некоторые рекламные сети (например, Facebook) позволяют запускать кампании без автоматической оптимизации, но большинство сетей не имеют такой опции.
Однако вторая и еще более фундаментальная проблема A/B тестирования маркетинга приложений еще тоньше. A/B тестирование аспектов дизайна приложения требует рассмотрения полного изменения пользовательского поведения на всей жизни пользователя в приложении (т.е. не сократит ли долгосрочную метрику рост краткосрочной?). A/B тестирование маркетинговых элементов вызывает те же опасения, а еще должно учитывать таргетирование и всю адресуемую аудиторию.
В таргетировании в маркетинге приложений очень сложно достичь баланса: каков оптимальный уровень глубины маркетинговой кампании по отношению к оптимизационным метрикам? Когда маркетологи тестируют свои рекламные объявления, они часто хотят оптимизировать эффективность своих рекламных материалов: показатели конверсии (кликабельность) против цены приобретения пользователей (цена за инсталл). Это можно понять, но локальная оптимизация игнорирует конечную метрику успеха разработчика приложения: доходы. Будет ли гипероптимизированная кампания с супердешевыми пользователями приносить больше прибыли приложению, чем кампания с более дорогими пользователями? Совершенно не обязательно.
Это парадокс кликов-на-показ: при слишком оптимизированных только на клики объявлениях конверсия рекламы (клики) может сдвигать в обратном направлении конверсию платформы (установки со страницы в сторе). По этой причине реальной метрикой успеха рекламы являются клики-к-инсталлам (CTR * установок со страницы стора), но даже это не лучшая метрика для оценки рекламных материалов. Что важнее всего для разработчика приложений, так это чистая выручка (хотя могут играть роль и другие стратегические инициативы, т.е. рост базы пользователей приложений перед новым раундом инвестиций или выходом), и именно через нее необходимо определять таргетирование.
Таким образом, A/B тестирование маркетинговых материалов не обязательно вскрывает, какие объявления снижают цены на приобретение пользователей или приносят наиболее вовлеченных или монетизируемых пользователей, а больше показательно для изучения того, какие материалы приносят наиболее оптимизированный трафик, который в масштабе принесет наибольший доход. Это не всегда будет самая широкая, дешевая и кликабельная кампания и не всегда это будет кампания с мощными показателями вовлеченности или монетизации по когортам. Оптимальный маркетинговый вариант — это тот, который приносит наибольший доход приложению: размер пользовательской базы против экономики пользователей (цена приобретения и доход за жизнь пользователя).
А как вы тестируете свои материалы?