Разработка

Эффект Саманты: взгляд в будущее ботов

Мы сможем смотреть на отношения и корреляции и искать что-то новое, что поможет нам сделать мир лучше, а машины смогут подсказать нам, как наши предположения соотносятся с данными. Таким образом, самый многообещающий аспект искусственного интеллекта — это не создание ассистента вроде Саманты, а усиление человеческих способностей. Менеджер GrowthBot Джастин Ли рассказал о настоящем и будущем ботов.

Опубликовано

8 лет назад

07.03.2018

Автор:

Анна Гуляева

В 2013 году Спайк Джонс выпустил фантастическую инди-драму “Она”. Фильм рассказывает про эволюционное развитие первой в мире системы с искусственным интеллектом с именем «Саманта». Саманта — это мечта любого разработчика, идеальный пример настоящего искусственного интеллекта. Она понимает контекст, естественный язык, эмоции, и, кажется, может вполне здраво мыслить.

Очевидно, что современные боты пока не могут достичь уровня Саманты. В лучшем случае они способны предлагать конкретные результаты через диалоговый интерфейс. В худшем — раздражают так, что захочется бросить телефон в стену.

Так как технология развивается со скоростью молнии, можем ли мы представить эпоху, в которой будет существовать бот, похожий на Саманту?

Эмоциональные интеллектуальные данные

Современный искусственный интеллект сочетает обработку символьной информации (явные правила и логику) с машинным обучением, усиливая их достоинства и устраняя недостатки. Например, обработка символов позволяет нам конкретизировать знания и поведение, которые нельзя узнать из данных. Машинное обучение помогает системе адаптироваться к неожиданным ситуациям и новым концепциям.

Эта комбинация ускоряет процесс обучения. В будущем она даст нам возможность взаимодействовать с ботами более человечно. Сейчас машинное обучение — это статистический процесс, который отражает качество данных, от которых он зависит. Это благословение и проклятие. Чувствительность машинного обучения к характеристикам входных данных означает, что оно может легко обучиться неправильным вещам, как произошло в случае с Tay, роботом-расистом от Microsoft. Более того, выбранные для обучения данные часто отражают подсознательные предрассудки разработчиков и исследователей.

Чтобы подойти к способности Саманты к самоанализу и рассуждениям, нам нужно создать искусственный эмоциональный интеллект для наших ботов, который позволит им ответить на вопрос: “Почему ты принял такое решение?”. Даже существующие простые системы уже делают шаги навстречу синтезу индивидуальных ответов на вопросы. Пока же мы можем только убедиться, что применяем алгоритмы обучения на качественных данных в тщательно отслеживаемой среде.

Семантический веб

Создатель World Wide Web Тим Бернерс-Ли смотрел в будущее, когда в 2001 предложил идею семантического веба:

системы, которая позволит компьютерам делать выводы из взаимоотношений между ресурсами в вебе.

В итоге машины научатся связывать вместе идеи, концепции и факты, а не документы и страницы. Это позволит подобным Саманте ассистентам считываться информацию о нас и действовать от нашего имени: автономно назначать встречи, организовывать путешествия и бронировать столы в ресторанах.

Видение Бернерса-Ли уже в какой-то степени реализовано в Knowledge Graph от Google, который потребовал от компании нанять тысячи людей, чтобы ввести подробные правила репрезентации общих знаний. Зато он позволяет Google отвечать на вопросы с помощью структурированных данных, а не списком веб-страниц.

Технологии распознавания изображений могут быть предшественниками семантического веба, этот искусственный интеллект может распознавать ключевые слова, демографические данные, цвета и лица на изображениях.

Распознавание естественной речи

Способность распознавать естественный язык является главной для успешного бота — как текстового, так и голосового. В идеале бот должен достигать цели, заполняя пробелы в разговоре автономно.

Siri, Cortana и Alexa пока не достигли стандартов Саманты. Но её способности в распознавании не кажутся отдаленным будущим. Ошибки в распознавании речи уменьшаются на 20% каждый год, а в Google недавно достигли показателя ошибок в 4.1%, который почти соответствует способностям человека.

Эти улучшения могли произойти благодаря нескольким инновациям: мультимикрофонным массивам, направленным лучам, сложной обработке звука и применению биометрических данных для голоса. Анализ звуковой сцены — это ещё одна многообещающая техника, которая предназначена для разделения источников звука.

Распознавание голоса также улучшается при помощи огромного пула данных для обучения статистических моделей при помощи методов машинного обучения: один из них — это глубокие нейронные сети. Они состоят из множества слоев обработки и основаны на нейронной структуре человеческого мозга. Нейронные сети могут классифицировать разные данные: изображения, последовательности слов, локации и высказывания.

Настоящее и будущее машинного обучения на устройствах

Контекст и абстракция

Люди могут понимать контекст и делать выводы. Иногда они следуют из логики, но чаще всего основаны на нашем общем знании мира. В случае искусственного интеллекта виртуальный ассистент должен уметь предлагать альтернативы, рассматривать разные возможности и понимать их ценность:

Я: “Я бы хотел сегодня купить обувь в Melissa.”

Бот: “Извините, Melissa закрыт. Почему бы вам не попробовать Office, который похож на Melissa и находится неподалеку?”

Бот мог бы изучать эти ассоциации через попытки и ошибки, но это заняло бы годы, так как для каждого взаимодействия существует миллион разных вариаций. Некоторые исследователи считают, что компьютеры должны учиться на аналогиях. Именно эта способность позволяет людям делать выводы из разных ситуаций и обобщать на основе контекста, достигая высшего уровня понимания.

Звучащие по человечески боты

Эмоциональный диапазон и интонации голоса Саманты находятся за пределами наших возможностей, но новые модели генерирования речи, например, Google WaveNet, могут создавать убедительные искусственные голоса. Естественный голос улучшает наши впечатления от искусственного интеллекта. Недостатком этого подхода является то, что ожидания пользователя повышаются, что, вероятно, приведет к ошибкам в разговоре и раздражению. И все мы знаем, насколько меньше у нас терпения при общении с машиной, чем с человеком.

Независимо от того, может ли бот соответствовать нашим ожиданиям, мы склонны доверять ботам с человеческим поведением — игрой слов, шутками, цитатами и эмоциями. С этим связан и тест Тьюринга, где человек участвует в разговоре с другим человеком и с машиной. Если человек не может отличить машину от живого собеседника, машина проходит тест.

Инсайты

Может ли искусственный интеллект помочь нам находить инсайты? Это не только что-то новое и ценное, но и факты, которые помогут управлять будущими решениями и действиями, что довольно трудно понять программе. Мы узнаем инсайт, когда видим его, но сложные границы вокруг этого понятия сложно провести, а поиск инсайта требует узнавания шаблонов, отношений и корреляций.

Некоторые проекты машинного обучения уже погружаются в эту область. Например, Deep Mind от Google хорош в распознавании новых моделей на уровне сложности, который в случае игры Го превосходит возможности людей. Но эти методы работают, только если машина знает, в чем ее цель.

Только люди могут идентифицировать интересные модели, не зная первоначальной цели. С другой стороны, люди не могут справляться с большими объемами информации, и здесь преимущество есть у машин. Они могут сотрудничать с нами в областях, в которых мы сталкиваемся с трудностями. На текущий момент большая часть цифровой информации существует в форме текста, то есть, данные не имеют структуры, в отличие от организации традиционных баз данных.

Текстовые данные

Автоматические методы понимания текстов развиваются достаточно быстро, хотя они ещё далеки от идеала.

Вот пример. Пациент входит в офис доктора с редким заболеванием, о котором врач не слышал. Доктор консультируется с цифровым ассистентом, который сканирует все медицинские журналы и всю когда-либо написанную информацию о заболевании в течение нескольких секунд. Затем он обобщает эту информацию и представляет её врачу небольшими частями. Подобную “грамотную машину” пытается разработать стартап Maluuba, который недавно приобрела Microsoft. В итоге компьютеры смогут собирать, курировать и обобщать огромное количество текста такими способами, о которых мы не могли и мечтать.

И нам не придется использовать сложные технические языки программирования или запросы в базы данных, чтобы объяснить, что мы ищем: недавно созданные системы могут использовать естественный язык, чтобы получать вопросы насчет текста. Мы уже в какой-то степени знакомы с этой функцией благодаря запросам в Google. Боты будут естественными преемниками этой традиции.

Финальным фактором является то, что уже существуют приложения, которые учатся на взаимодействии. Например, Replika разрабатывает идиосинкратические модели языка на основе сканирования предыдущих разговоров в чате и узнает о предпочтениях и приоритетах пользователей.

Это делает нас ближе к созданию Саманты.

Усиление человеческого интеллекта

Во время первой индустриальной революции машины начали выполнять задачи, связанные с ручным трудом. Сейчас индустрия 4.0 начинает выполнять и умственные задачи. Почти любое рутинное задание можно автоматизировать. Мы бы могли отдать алгоритмам ручное заполнение данных, поиск тем и идей для статей, сортировку писем. Отдав эти задачи искусственному интеллекту, мы сможем сфокусироваться на областях, в которых мы сильны и которые отличают нас от машин.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.