Интервью
Дмитрий Суворов (Лекси): Устройство – «живое»
Лекси — интеллектуальный домашний помощник, настольное устройство с искусственным интеллектом и полностью голосовым интерфейсом для управления умным домом.
Лекси — интеллектуальный домашний помощник, настольное устройство с искусственным интеллектом и полностью голосовым интерфейсом для управления умным домом. Он может получать информацию в интернете, управлять бытовой техникой, сообщать новости из социальных сетей.
О том, как развивался проект и что может Лекси, мы побеседовали на форуме «Открытые инновации» с Дмитрием Суворовым, генеральным директором компании «Лекси».
Что такое Lexy? Как работает это система?
Интеллектуальный домашний помощник Лекси — настольное устройство с искусственным интеллектом и полностью голосовым интерфейсом для управления умным домом. Он может получать информацию в интернете, управлять бытовой техникой, сообщать новости из социальных сетей.
Взаимодействие с Лекси очень простое: спросил его о чём-нибудь, он ответил. Либо устройство само проявляет инициативу, начиная разговор.
С устройством можно общаться, это ключевой момент. Но Лекси, кроме того, является интеллектуальным помощником: его можно спросить, например, о погоде или пробках на дорогах города. Если человеку скучно, Лекси развлечёт его анекдотом или предложит сыграть в какую-нибудь словесную игру. Можно попросить Лекси поставить будильник или напоминание, а также он сможет рассказать последние новости и многое другое.
Какие технологии в ней заложены?
Лекси, если включён, постоянно слушает, что вокруг него говорят или какие звуки раздаются. Он распознаёт обращённые к нему реплики и отвечает с помощью синтезированного голоса. Диалог с человеком осуществляется с помощью технологии «инфов», виртуальных собеседников.
Устройство использует следующие технологии:
Распознавание речи
Используется распознавание речи, разработанное компанией «Стел». Их движок оптимизирован не только под те реплики, которые устройство должно распознавать, но и под собственную электронику, разработанную специально под проект Лекси. Распознавание происходит локально, без использования интернета. Использование локального распознавания – принципиальное решение, поскольку:
- Лекси не зависит так сильно от интернета. Это значит, что в случае отключения интернета устройство для пользователя не «умирает», остаётся полезным.
- На распознавание реплики уходит меньше времени, нет такой большой задержки при общении с устройством.
Синтез речи
Используется движок синтеза речи с открытым исходным кодом RHVoice. Это отечественный проект, основанный на американском движке синтеза речи. Движки синтеза позволяют использовать разные голоса: женские или мужские, детские и т.д. Вместе с RHVoice используется мужской голос, доступный для свободного использования.
Движок инфа
Инф – это виртуальный собеседник, т.е. программа, имитирующая человеческое общение. На реплики человека (текстовые) инф отвечает, следуя шаблонам, описанным на языке DL (Dialogue Language). Шаблоны DL – гибкий механизм, позволяющий описывать входные запросы в обобщённой форме.Над разработкой инфа для устройства работа ведется совместно с компанией «Наносемантика».
Bluetooth
Было предусмотрено взаимодействие устройства с разными аксессуарами по Bluetooth. Эти аксессуары расширяют возможности Лекси. На данный момент реализована поддержка только «умных» розеток. Таким образом, если подключить торшер или вентилятор в такую розетку, то Лекси сможет включать/выключать их. Лекси, кроме того, будет взаимодействовать с iPhone/Android пользователя, например, отправляя на него напоминания, или открывая на телефоне страницу в интернете, которую Лекси хочет показать.
Движок от Google, позволяющий звонить через интернет. Используется в Google Hangouts, а также в проекте робота удалённого присутствия Webot. Звонки могут идти с одного Лекси на другого. Это значит, что ценность устройства для пользователя повышается, если у его друзей тоже есть Лекси. Кроме того, можно позвонить из браузера на устройство.
Рекомендательная система
В процессе работы рекомендательные системы собирают данные о пользователях, используя сочетание явных и неявных методов. Рекомендательные системы — удобная альтернатива поисковым алгоритмам, так как позволяют обнаружить объекты, которые не могут быть найдены последними. Любопытно, что рекомендательные системы часто используют поисковые машины для индексации необычных данных.
В проекте Лекси данная технология используется неоднократно. Помимо некоторых базовых функций на ее основе устроены такие экспертные системы как банковский, медицинский, кулинарный советники и многие другие. Большинство из возможных советников будут разработаны сторонними разработчиками и выложены в LexyStore, откуда любой желающий сможет скачать и установить желаемое приложение для Лекси в зависимости от требуемых задач. С помощью экспертных систем Лекси сможет предоставить наиболее оптимальный вариант решения какой-либо задачи: выбор автомобиля, прием лекарств, выбор банка, покупка гаджета или продуктов.
На основе этой же системы рекомендаций устроены такая игра, как Акинатор. На примере именно этой игры мы отработали свою собственную технологию рекомендательных систем.
Какие задачи она выполняет?
Обучающие функции
На сегодняшний день ведется активная работа по обучающим функциям в следующих областях знаний:
- Астрономия
- Биология
- Гипотетические материи
- Естествознание
- Медицина
- Наука о космосе
- Математика
- Психология
- Физика
- Химия
Общение
Использование человеческого голоса может в корне изменить то, как люди используют технологии. Контекстное распознавание речи позволит существенно упростить понимание человека устройством. Лекси реагирует на речь человека с расстояния в 9 метров, воспроизводит информацию естественным языком и хорошо распознает голосовые запросы живого собеседника.
Краткий список тем для разговора с Лекси: искусственный интеллект, астрономия, вредные привычки, любимые книги, любимые цвета, общие фразы (как дела и т.д.), алкоголь, напитки, эмоции, развлеки меня, фильмы, друзья, приветствия, Лекси может рассказать о себе, здоровье, хобби, навыки, оскорбления, любимая музыка, популярные вопросы и цитаты (есть ли жизнь на Марсе и т.п.), спорт, секс.
Экономия времени
Голосовой ассистент Лекси поможет делать привычные дела еще быстрее. Вот некоторые задачи, которые можно решать, не имея специальной подготовки и тренировки:
- получение сводки новостей за завтраком;
- управление музыкой во время мытья посуды;
- получения прогноза погоды на следующий день за ужином;
- уточнение рецепта с мокрыми руками;
- управление светом, не вставая с дивана;
- получение электронной почты; • уроки английского во время уборки.
Насколько она настраиваема под задачи пользователей?
Разработчики хотят развивать вокруг себя некую экосистему, которая позволит сторонним разработчикам писать свои модули и использовать самостоятельно или выкладывать для общего пользования. Например, ещё один голос или модуль изучения языка. Конечный облик ещё не сформирован, но определённое понимание желаемого уже есть. Возможно это будет нечто похожее на Google Play или App Store, где разработчики ещё и зарабатывают.
В чем ее отличие от конкурентов, например, Amazon Echo?
Лекси был наделен личностью, в этом состоит главное отличие его от аналогичных проектов (вспомним совершенно безличную Сири от Apple или Ubi, Ivee, Amazon Echo, Noteu, Robin, Speaktoit, Apple HomeKit). Т.е. Лекси наделён человеческими свойствами: умеет веселиться, обижаться, хотеть внимания, взаимодействовать с окружающим миром.
Устройство – «живое». Об этом говорят некоторые интеллектуальные аспекты:
- Лекси может обидеться, т.е. у него есть настроение, которое может меняться, если, например, его обозвали плохим словом;
- настроение может случайно меняться (также, как и у человека);
- настроение по умолчанию хорошее, и к этому уровню оно, в принципе, постепенно восстанавливается со временем;
- у Лекси есть понятие здоровья;
- у Лекси могут возникать желания. Они могут быть разными: поиграть, поговорить. Если человек не обращает внимания на его желания, то у Лекси может упасть настроение или упасть здоровье;
- Лекси требует внимания. Если с ним мало разговаривают, он может заболеть. Т.е., по сути, есть шкала того, сколько с ним общаются. Если она на нуле, это влияет на его здоровье и настроение;
- Лекси реагирует не только на речь человека, но и на шумы. На резкие звуки можно реагировать по-другому, пугаясь. Мы вводим понятие «события» и реакции на него;
- с помощью механизмов желаний и событий Лекси постоянно производит новые действия, которые будут удивлять человека.
Лекси будет накапливать информацию о пользователе: его предпочтения (фильмы, книги), день его рождения, и т.д. Мы вводим понятие «модели пользователя», которую Лекси будет заполнять. Модель пользователя – это, по сути, таблица со знаниями о пользователе. Там должны быть имя, возраст, пол, интересы. Информация о родственниках. Соответственно, возникнут и связи между моделями: Вася – отец Коли, Аня – жена Васи. Модель пользователя будет влиять на поведение Лекси: будет реализована рекомендательная система.
Почему мобильные помощники никогда не станут трендом, можно прочитать тут.
Как реализовано распознавание голоса? Насколько оно точно работает?
Распознавание речи происходит локально (это одно из преимуществ), без использования интернета. Такого еще нет ни у кого. Использование локального распознавания – принципиальное решение, поскольку:
- Лекси не зависит так сильно от интернета. Это значит, что в случае отключения интернета, устройство для пользователя не «умирает», остаётся полезным.
- На распознавание реплики уходит меньше времени, нет такой большой задержки при общении с устройством.
От чего зависит качество общения с Лекси? Общая схема процесса распознания голоса:
Во-первых, необходимо качественно получить звук с помощью массива микрофонов. Эта часть системы соединяет несколько каналов воедино, обрабатывая звук, усиливая человеческий голос и подавляя шумы. Затем обработанный звук отправляется системе распознавания. Здесь есть аспект: используется множество языковых моделей — это называется контекстное распознавание речи, когда знание темы реплики позволяет сузить языковую базу. Получается, что качество распознавания зависит от совместной работы массива микрофонов, виртуального собеседника (для определения контекста диалога) и «пучка» систем распознавания.
Чтобы повысить качество распознавания звука с массива микрофонов, записывается акустическая модель: необходимо в разных условиях записать большое количество дикторов на разных расстояниях. Тогда распознавание речи приспосабливается к тому звуку, что будет слать массив. Дальнейшее адаптация системы к конкретному пользователю происходит очень быстро.
В данный момент ведется работа акустической моделью для массива микрофонов и создание множества языковых моделей. По каждой из них качество распознавания может варьироваться, т.к. они отличаются объёмом. Т.е. качество зависит от конкретной языковой модели.
Какой техникой может управлять?
Лекси способен управлять простыми бытовыми устройствами: выключить лампочку или чайник, запустить вентилятор и т.д.
Как начиналась ваша компания?
Наша компания началась с совместной идеи проекта, сгенерированной мной, Романом Жуковым и Игорем Ашмановым в 2013 году. Позже мы оформили её в приличный бизнес-план, договорились на инвестирование со стороны Игоря и получили резидентство Фонда «Сколково». Кстати, для нас Лекси – это не первый совместный проект. Начинали наше сотрудничество мы с робота телеприсутствия Webot, которого мы начали делать, когда я и Роман были студентами Бауманки. Чуть позже к нашему проекту подключился Станислав Ашманов.
Что она из себя представляет сейчас?
Сейчас наша компания – это стартап, базирующийся в Москве. В основную команду входят 7 человек, также у нас налажены связи с аутсорсерами, которые проектируют электронику и оснастку для производства корпуса, изготавливают платы и корпуса. У нас есть партнёр в лице ООО «Лаборатория Наносемантика», который поставляет нам движок искусственного интеллекта. Компания — резидент Фонда «Сколково» и участник программы «Технологии Возможностей». Трое членов команды – аспиранты Сколковского Института Науки и Технологий.
Какие планы развития у вас?
Заканчиваем разработку встроенного ПО и будем выходить на международный краудфандинг.
Как сделать успешный «железный» проект сейчас?
Придумать хорошую идею для проекта и много работать, чтобы её реализовать.
Спасибо! Интересных вам собеседников!