A/B тестирование
Duolingo: улучшение на 1% каждую неделю
Конечно, все это уникально для компании Duolingo, но стратегический подход компании может помочь разработчикам с совершенно разными задачами.
Когда пользователи Duolingo, популярного приложения для изучения иностранных языков, слишком долго пренебрегают своими уроками русской грамматики или пониманием слов корейского, Duo the Owl плачет. Пухлый анимированный пернатый талисман появляется в почтовом ящике пользователя и плачет — в надежде заставить его вернуться в приложение.
Однако пользователи не видят всей той работы, которую Duolingo вкладывает в эти слезы. Duolingo постоянное самосовершенствуется посредством небольших улучшений, которые все основаны на данных. С момента своего основания Duolingo провел более 3,000 A/B-тестов, оценивая реакцию пользователя на большие и малые функции приложения. Компания может работать одновременно над 200 экспериментами. Все они приводят к появлению огромного количества данных, которые и определяют решения компании.
И да — когда в 2018 году были запущены эти электронные письма, Duolingo провел A/B-тест, чтобы выяснить, насколько большими должны быть слезы Duo, чтобы ученики возвращались к своим урокам.
В то время как команды разработчиков приложений обычно используют A/B-тестирование для улучшения монетизации или удержания пользователей, Duolingo также проводит свои эксперименты, чтобы выяснить, как лучше всего учить людей — в США, где базируется Duolingo, сейчас через приложение изучает языки больше людей, чем в государственных школах.
Члены команды Duolingo полагают, что они улучшают свое приложение на 1% каждую неделю. Для этого они поощряют эксперименты, анализ и обязательное использование данных для принятия решений.
Конечно, все это уникально для компании Duolingo, но стратегический подход компании может помочь разработчикам с совершенно разными задачами. Фактически, весь процесс разделен на три этапа, и все они направлены на то, чтобы включить эксперимент в философию и практику развития компании.
Шаг 1: создайте культуру
Duolingo проверил свою экспериментальную культуру на себе — удержание приложения в День 1 выросло с 13% в 2011 году до 55% сегодня.
Конечно, внутренняя мотивация помогает подпитывать эту культуру — команда Duolingo придерживается миссии компании, которая проявляется в одном из 10 основных принципов работы: «Сначала учащиеся. Наша миссия и основная причина существования — обеспечить всем в мире доступ к качественному языковому образованию». Они действительно хотят знать, как приложение может помочь людям в учебе.
Но у них также есть другой принцип, «Тестируйте все», который призывает коллег принимать обоснованные решения на основе данных. Другими словами, используйте данные, чтобы контролировать свою интуицию.
Одно из стандартных упражнений Duolingo предлагает пользователям переводить предложения с их родного языка на язык, который они изучают, нажимая слова, которые расположены не по порядку.
Может показаться, что если одно из этих слов написано с большой буквы, то это ошибка, но это не так, поскольку заглавная буква показывает, какое слово должно стоять первым в приведенном предложении. Это такая специальная подсказка учащимся.
Когда в Duolingo протестировали версии упражнения без прописной буквы, то компания столкнулась с падением возвратов и стало понятно, что удалять подсказку не стоит. Другими словами, эксперимент обнаружил, что пользователи Duolingo предпочитали небольшую помощь в процессе обучения.
Вывод: даже если что-то кажется правильным, вы не поймете это, пока не протестируете. И чтобы эти тесты действительно имели значение, вы должны правильно их построить. Что подводит нас к следующему шагу.
Шаг 2: отточите процесс
Другой принцип работы Duolingo говорит о том, что сотрудники должны «Безжалостно расставлять приоритеты». Несмотря на то, что компания проводит сотни тестов, она старается сосредоточиться на идеях с наивысшей рентабельностью.
Во время разговора с Duolingo можно видеть, как работники компании «ценят на свое время», выполняя эти две вещи:
Остаются последовательными
Каждый A/B-тест Duolingo начинается с одностраничного предложения. Выполненный в кратком, ясном шаблоне, этот одностраничный документ описывает ключевую информацию, необходимую для оценки потенциального эксперимента. Чтобы получить одобрение, этот документ должен доказать, что есть проблема, которую нужно решить, и предложить бизнес и UX-решения для работы с ней. A/B-тестирование может потребовать значительных ресурсов. Этот документ не только гарантирует участие нужных людей, прежде чем что-либо будет сделано, но также делает процесс разработки эксперимента доступным для всей команды.
Загрузите шаблон на основе одностраничного приложения Duolingo здесь!
Уважают процессы
Компания придерживается определенного набора шагов для каждого A/B-теста, сохраняя процесс обоснованным и обеспечивая прозрачность результатов. Вот как это выглядит:
Даже если эксперименты сулит очевидные выгоды, он все равно проходит по этому пути до принятия какие-либо изменений. Duolingo использует метрики ограждения (guardrail metrics), чтобы убедиться, что изменения не осуществляются слишком быстро, без четкого понимания их последствий.
Например, компания недавно протестировала кнопку загрузки, чтобы позволить пользователям загружать уроки в автономном режиме с Duolingo Plus для обучения без подключения к интернету. Когда пользователи нажимают кнопку загрузки, они попадают на экран, предлагающий Duolingo Plus.
Экспериментальная группа пользователей получила на 20% более высокую конверсию по сравнению с контрольной группой. Но эксперимент также привел к 1% снижению DAU. Дальнейшее исследование показало, что некоторые пользователи вообще не понимают, что означает кнопки загрузки, поэтому изменение не было реализовано.
В этом эксперимента краткосрочный выигрыш не стоил долгосрочного, устойчивого проигрыша в вовлеченности и удержании. Не будь такого процесса проведения экспериментов в Duolingo, компания, возможно, и не пришла бы к такому выводу. Подобные решения являются сложными, но в компания поняли, что обычно они могут найти способы внедрения изменений в приложениях без ущерба для критических показателей.
Вывод: независимо от того, насколько разными могут быть ваши эксперименты, следуйте одной и той же схеме — и всегда тщательно изучайте результаты с учетом вашей долгосрочной цели.
Шаг 3: вовлеките всех
В Duolingo есть несколько ключевых практик, которые действительно демонстрируют степень, с которой компания воплощает внутри себя культуру тестирования всего для получения правильных выводов.
Каждый является A/B-тестером
Duolingo обучает всех в организации проводить A/B-тесты. Всех! В первые дни компании только два члена команды могли проводить эксперименты, что привело к появлению узких мест. В сентябре 2017 года Duolingo запустил внутренний онлайн-курс, в котором учит сотрудников создавать эксперименты, а заканчивает его викториной.
Подход компании к экспериментам уравновешивает процессы и автономию. После обучения любой, от менеджера до младшего инженера, может погрузиться в процесс, начиная с того самого одностраничного документа, чтобы предложить эксперимент.
Общее количество A/B-тестов с тех пор значительно увеличилось:
Создание лучших тестов
В Duolingo много сделал для того, чтобы их эксперименты имели значение. Они начинаются с тщательного проектирования, поэтому результаты дают реальные ответы на точные вопросы.
Вот недооцененная истина: многие A/B-тесты обычно не приводят к улучшениям. Если вы неправильно настроили свои экспериментальные группы, смысл ваших результатов будет совсем не тем, что вы думаете.
Представьте, что вы настроили A/B-тест, в котором 50% пользователей вашего приложения составляют контрольную группу, а 50% пользователей видят экспериментальную функцию, которую вы исследуете. Проблема с такими большими группами заключается в том, что некоторые пользователи в экспериментальной группе в своем обычном опыте обычно не сталкиваются с функцией, которую вы тестируете.
Например, изучающие язык в Duolingo продвигаются по курсу со все более сложными уроками — как и все учащиеся чего-либо. Для Duolingo не имеет смысла тестировать функцию продвинутого курса в группе, включающей начинающих — их поведение исказит результаты.
Чтобы избежать этой ловушки, Duolingo разработал свою практику и теперь использует контрфактическое A/B-тестирование. Команды создают когорты пользователей по определенным критериям, и разрабатывают эксперименты для проверки поведения групп, относящихся к конкретному вопросу, на который надеется ответить A/B-тест.
Например, приложение недавно запустило функцию под названием «Рассказы», которая помогает учащимся развить навыки чтения и понимания с помощью рассказов на нескольких языках. Определив когорту, которая взаимодействует с историями — вообще говоря, более «серьезных» и преданных пользователей — Duolingo может спроектировать эксперименты для конкретного тестирования функций с этой группой.
Этот более детальный подход часто может означать небольшие эксперименты, которые занимают много времени для разработки, реализации и понимания результатов. Но с учетом более точных результатов уверенность в показателях возрастает. В Duolingo также разработали множество аналитических инструментов, которые облегчают просмотр и понимание этих результатов для членов команды. Анализ результатов экспериментов теперь является неотъемлемой частью жизни в Duolingo.
Говорите об этом
Сотрудники Duolingo гордятся тестами, которые они создают. После того, как эксперимент дает результаты, приходит время рассказать о нем. Члены команды делятся результатами A/B-тестов на общих собраниях под названием «Парламент» и через список рассылки. Им предлагается обмениваться результатами непосредственно с учащимися на форумах Duolingo и публиковать истории о процессах и связанных с ними изменениях в публичном блоге Making Duolingo. С культурной точки зрения в неудачном эксперименте нет ничего постыдного, поскольку это просто еще одна возможность научиться чему-то новому.
Признавая, что они не одиноки в своем стремлении привнести инновации в обучение, работники компании даже публикуют инструменты и данные для продвижения в этой области.
Вывод: как только процесс будет правильным, убедитесь, что все могут быть вовлечены — как в формирование, так и в совместное использование тестов, которые вы запускаете.
В заключение: думайте, а не живите в комфорте
Последний принцип работы компании гласит: «Мы еще не победили. До тех пор, пока каждый, кто хочет изучать язык, не будет заниматься этим с Duolingo, мы должны продолжать внедрять инновации, расширять возможности и изучать способы стать лучше».
Duolingo поддерживает конвейер идей для тестирования, больших и малых. Некоторые A/B-эксперименты проверяют, могут ли незначительные изменения в формулировках перевести пользователей с бесплатного тарифа на платный. Другие исследуют серьезные изменения в дизайне, которые могут увеличить удержание, такие как создание списка лидеров или пересмотр того, как пользователи продвигаются к более сложным урокам.
Независимо от того, проводите ли вы A/B-тестирование, A/B/C/D-тестирование, многовариантное тестирование или контрфактическое A/B-тестирование, три правила, описанные в этой статье, обеспечивают основу для построения компании, которая любит эксперименты и выстраивает свои решения на данных:
- Формируйте культуру опоры на данные, чтобы лучше соответствовать своей миссии. Делайте маленькие шаги для больших улучшений.
- Отточите процесс, чтобы избежать спагетти-тестирования (когда вы просто видите идеи, а не результаты). И затем уважайте этот процесс.
- Поощряйте всю вашу команду участвовать и вкладывайте средства в инструменты, которые позволят вам расширить возможности по настройке тестирования.