Разработка

Железная логика: как алгоритмы принимают решения

Как машины познают мир и отвечают на человеческие вопросы, рассказывает Альфия Бабий, аналитик текстовых данных в Redmadrobot.

Опубликовано

8 лет назад

10.04.2018

Автор:

red_mad_robot

Умные машины

Алгоритмы машинного обучения отличаются от остальных тем, что условия и правила принятия решений заданы не программистом в коде, а выучены самой системой из данных.

Система машинного обучения — это математическая модель, на вход которой поступают данные и которая в этих данных находит закономерности. Например, если Х и Y в прямой пропорции, она выучит эту зависимость и в следующий раз, получив множество Х, предскажет множество Y. В этом вся магия.

Чтобы машинное обучение работало, нужны данные. В работе аналитика 80 процентов — это очистка и предобработка данных. Все алгоритмы изучены, библиотеки работают, но лимитирующий ресурс — именно данные. Однослойный персептрон — модель, на которой основаны нейросети, самый популярный алгоритм машинного обучения, была придумана несколько десятков лет назад, но только недавно появилось достаточно данных и мощностей, чтобы ее использовать.

Алгоритмические способности

Машинное обучение — это любой алгоритм, который позволяет переложить человеческую экспертизу в принятии решений.

Важно не завышать ожидания — и если задача решается простым алгоритмом, нужно его использовать. Все сошли с ума по нейросетям, но значение имеет не тип алгоритма, а его эффективность в решении задачи.

Существует 4 основные задачи машинного обучения: классификация, кластеризация, регрессия и понижение размерности. Но есть и более специфические: оценка плотности и детектирование аномалий, обучение с подкреплением.

Наша предметная область — обработка обращений пользователей службой поддержки. В чате мы решаем задачу классификации: предсказываем класс обращения пользователя. Для этого чаще всего используем алгоритм Support Vector Machine.

Допустим, у нас есть внутренняя экспертиза операторов службы поддержки по теме обращений пользователей. Операторы знают, что чаще всего задают вопросы, связанные с продуктом или обслуживанием. Мы ищем обозначенные темы в обращениях пользователей и чаще всего находим (или нет). Изначально кластеризацию делаем мы сами и сопоставляем полученные результаты с предложенными экспертами темами. В ходе этого сопоставления мы видим, что часть предсказанных экспертами классов отсутствует в данных, а часть подходит.

Например, мы анализируем обращения в службу поддержки авиакомпании. Мы делаем разметку и обозначаем, что сообщение «как мне перевезти кота?» относится к классу «Перевозка животных», а «как мне перевезти сноуборд» — «Перевоз сложного багажа», и ставим метки классов. Так появляется разметка.

Все обращения мы описываем в виде числовых векторов — последовательностей чисел, которые представляют текст обращения. Все векторы распределены по группам, например, сообщения о перевозке животных: собак, кошек, попугаев, питонов. Для каждой группы обращений мы находим векторы границ — они становятся опорными для группы. Когда приходит новое обращение: «как мне получить мили?», оно также переводится в векторный вид и кладется в наше пространство признаков, где алгоритм сравнивает расстояние от каждого опорного вектора до нового. Так система понимает, что новое сообщение ближе всего к группе «Бонусы и скидки», и пользователю нужно выдать автоматический ответ, который был заложен разработчиками для этого класса.

Классов может быть достаточно много, но чем больше групп ответов и вопросов, тем выше вероятность того, что модель ошибется, поскольку одни и те же вещи можно объяснить разными словами. Поэтому, когда система выдает автоматический ответ, мы спрашиваем пользователя: «Был ли вам полезен этот ответ?», и если нет — сразу переводим его на оператора.

Если на первом этапе алгоритм не смог отнести вопрос ни к одной из категорий, мы также переводим его на оператора, потому что пользователя не надо мучать. Всех достали боты, которые не приносят пользы, в этом смысле кредит доверия исчерпан, и нужно быть очень аккуратным, чтобы лишний раз не бесить.

Так же алгоритм может давать подсказки оператору на основе истории обращений и ответов. У нас есть пары вопрос-ответ, и при появлении нового обращения система сопоставит его с имеющимися векторами и предложит оператору возможные ответы с некоторой долей вероятности. Модель говорит: «на похожий вопрос ваши коллеги отвечали вот так» — и показывает текст. Соответственно оператор не вводит одно и то же каждый раз, а просто нажимает на кнопку, и текст отправляется.

Пользователи чаще всего не говорят напрямую: «как мне перевезти собаку?» Они пишут: «Знаете, моя Мусечка всегда блюет в аэропорту, что мне сделать, чтобы не сдавать ее в багажное отделение?» Но все же люди пишут похоже, и если есть достаточно большая размеченная выборка данных, алгоритм понимает, что в сообщении «что сделать, чтобы Жорик мог лететь в салоне?», Жорик — это собака.

Минимум данных

Важно количество и качество данных. Если у тебя море информации, которая не влияет на принятие решений, все бесполезно. Например, знание о потреблении воды мужчинами и женщинами никак не поможет, если анализируешь продажи авиабилетов.

Одна из задач исследователя — преобразовать признаки, чтобы они могли быть использованы моделью, чтобы она могла принимать правильные решения.

Например, если у нас есть группа людей, которые получают 5 тыс рублей, а есть те, кто получает миллиард рублей, чтобы система могла их сравнить, дата-сайентист берет логарифм от их дохода.

Минимальное количество данных зависит от количества классов, на которые нам нужно разделить объекты, чем их больше, тем больше количество данных нужно на каждый класс. Обычно мы берем данные за 3-5 месяцев и минимум по 50 вхождений в категорию, при этом не должно быть сезонности — она делает выборку не репрезентативной. Нам нужна именно средняя температура по больнице. Если у нас будет информация только про лето, зимой эти данные могут не работать — в этот период у пользователей другие запросы и проблемы.

Данные постоянно обогащаются, и мы автоматически дозагружаем в систему новую информацию. Если в запросах появляется новая категория, алгоритм понимает, что возникла группа обращений, которые он не может отнесли ни к одному вектору или относит ошибочно. В этот момент должен быть дата-сайентист, который расскажет модели, что это за категория, какой класс ей присвоить и какой ответ давать на такие запросы.

У системы нет знания о реальном мире, она просто говорит: вот, я не знаю, что с этим делать. И ты ей помогаешь и рассказываешь, что новый класс — это, например, полеты в Антарктику. В этом задача дата-сайентиста — говорить модели, как устроен реальный мир.

Все почему-то думают, что машинное обучение — это магия, и система сама тебе все расскажет и расставит по местам. На самом деле машинное обучение — это когда ты показываешь модели данные и говоришь, вот это — полеты в Антарктику, а это — перевозки собак.

Система понимает, и узнает в новых данных полеты и собак. Это прикольно, потому что модель, как маленький ребенок, которому ты говоришь: это вот так устроено, а это — так, и она учится. Такие виртуальные дети.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.