Разработка
Как Apple наконец удалось сделать Siri человечнее
Технология пока не настолько хороша, чтобы вы могли влюбиться в своего виртуального ассистента. Но Эйсеро и его команда считают, что сделали огромный шаг вперед.
Дэвид Пирс из Wired пообщался с директорами Apple, отвечающими за разработку Siri, и рассказал о том, как компания создавала новый голос для виртуального ассистента.
В первый раз Алекс Эйсеро смотрел фильм “Она” как нормальный человек. Во второй раз он не смотрел на фильм. Эйсеро, директор по разработке Siri, сидел с закрытыми глазами и слушал, как Скарлетт Йоханссон озвучила своего персонажа — AI-помощника Саманту. Он обращал внимание на то, как она говорила с персонажем Хоакина Феникса Теодором Туомбли, и как Туобмли отвечал ей. Эйсеро пытался понять, как персонаж мог влюбиться в Саманту даже не видя её.
Когда я спросил Эйсеро, почему голос Саманты работал так хорошо, он рассмеялся, потому что ответ оказался очевидным. “Он не похож на голос робота, он естественный!”, — сказал Алекс. Это не стало для него откровением. Напротив, последние годы он убеждал команду в том, что нужно сделать голос Siri более человечным.
Этой осенью в iOS 11 Siri получит новый голос. Вы заметите разницу, хотя там и не будет новых функций или лучших шуток. Siri теперь делает больше пауз в предложениях, растягивает слоги перед паузой, а её интонация меняется по ходу речи. Siri теперь знает больше языков, и её стало приятнее слушать.
Apple потратили годы на перестройку архитектуры Siri, превращая её из виртуального ассистента в многофункциональный искусственный интеллект на смартфоне. Технология распространена на множество новых стран и рынков, сейчас Siri самый развитый голосовой помощник на рынке. Apple работает над тем, чтобы сделать Siri доступной во всех точках мира. Эта технология теперь находится под контролем Крейга Федериги, главы разработки программного обеспечения в Apple, и это показывает, что Siri так же важна для компании, как и iOS.
Технология пока не настолько хороша, чтобы вы могли влюбиться в своего виртуального ассистента. Но Эйсеро и его команда считают, что сделали огромный шаг вперед. И они верят, что если у них получится сделать Siri менее роботизированной и более кем-то, кому вы можете доверять, то у них получится сделать Siri отличной функцией, даже если в остальном возникнут неудачи. И в эти ранние дни для искусственного интеллекта и голосовых технологий их план может сработать лучше всего.
Siri взрослеет
Если вы хотите узнать, почему Apple хочет контролировать все, что касается их продуктов, просто взгляните на Siri. Спустя шесть лет после запуска Siri в самом центре гонки виртуальных ассистентов. Alexa от Amazon теперь имеет большую поддержку разработчиков, Google Assistant знает больше, и оба этих помощника доступны на многих устройствах от многих компаний.
В Apple говорят, что это не их вина. После запуска Siri другая компания обеспечивала бэкенд-технологию голосового распознавания. Все знаки указывают на компанию Nuance, хотя ни они, ни Apple не подтверждали сотрудничества. Кто бы это ни был, Apple винит их в первых проблемах Siri. “Это было похоже на гонку, в которой нас кто-то держал сзади”, — говорит глава продуктового маркетинга компании Герг Джосвиак. Он рассказал, что у Apple всегда были большие планы в отношении Siri, но до определенного момента технология просто была недостаточно развита.
Несколько лет назад группа людей в Apple под управлением Эйсеро взяла в свои руки контроль над бэкендом Siri и модернизировала его. Теперь он основан на глубоком обучении и ИИ, что значительно улучшило технологию. Siri распознает голос лучше своих конкурентов, идентифицируя 95% речи пользователя. Искусственный интеллект работает в двух частях системы: перевод речи в текст, когда Siri пытается понять, что вы сказали, и перевод текста в речь, когда Siri вам отвечает.
Одна из основных задач Siri — отличать ваш голос от голоса другого человека, особенно по мере персонализации систем. Чем больше данных собирает Siri, тем лучше становятся модели Apple и тем лучше Siri может различать людей и распознавать разные акценты. Эта проблема также касается безопасности: недавно исследователи обнаружили, что могут общаться с Siri на высоких частотах, которые не слышат люди, тем самым Siri можно незаметно взломать. Её ещё предстоит научиться отличать речь человека от синтезированной речи, а также ваш голос от голоса других людей.
Научиться говорить
Один из способов понять работу этих систем — научить Siri новому языку. При выводе Siri на новый рынок, например, в Шанхай, команда сначала ищет существующие базы данных речи местных жителей. Они нанимают одного из местных жителей, чтобы тот читал вслух книги, статьи, газеты и так далее.
Команда Apple делает записи, сопоставляет слова и звуки и идентифицирует фонемы, индивидуальные звуки, определяющие речь. Они пытаются уловить эти фонемы во всех ситуациях в речи: затихание в конце слова, выраженное звучание в начале, протяженность перед паузой и повышение интонации в вопросе. Каждое произношение имеет немного разные звуковые волны, которые алгоритмы Apple анализируют, чтобы подобрать лучший вариант для любого предложения. Каждое предложение, сказанное Siri, содержит десятки или сотни фонем, которые расположены в нем, как вырезанные из журналов буквы в письме с угрозами. Вероятно, ни одно слово, которое вы услышите от Siri, не было записано целиком.
Эйсеро предлагает два примера: You want to watch this? — I like your watch. Слово watch будет звучать в этих предложениях по-разному, и для них нельзя использовать одну и ту же запись.
Всего несколько лет назад компьютеры и серверы не обладали достаточной вычислительной мощностью для того, чтобы найти в огромной базе данных идеальную комбинацию звуков для каждого ответа. Теперь это возможно, и Эйсеро и его команда хотят как можно больше данных. Поэтому при создании первоначальной модели они выпускают Siri в режиме “диктовки”. Вы не можете разговаривать с ней, но можете нажать кнопку микрофона и продиктовать сообщение или поисковый запрос. Это дает Apple множество записей с разными акцентами, с разным качеством записи и во многих ситуациях — всё это позволяет Siri лучше работать для разных людей. Apple анонимно собирает и транскрибирует эти данные, улучшая алгоритмы и тренируя сети. Данные дополняются сведениями о местоположении и особенностях диалекта.
В это время Apple запускает эпический поиск правильного голоса для Siri. Они общаются с сотнями людей, записывая примеры отрывков речи Siri. Эйсеро затем работает с дизайнерами Apple, чтобы выбрать понравившийся голос. Эта часть больше связана с искусством, чем с наукой — они ищут невыразимое чувство любезности и товарищества, смелый, но не дерзкий голос, счастливый, но не мультяшный.
Следующая часть — за наукой. Эйсеро говорит: “Существует множество хороших голосов и талантливых людей, но это не значит, что все они подойдут для перевода текста в речь.” Они пропускают речь через созданные модели и ищут то, что называется вариабельностью фонем, то есть, различия между произношением одних и тех же звуков. Большая вариабельность мешает соединить звуки так, чтобы речь звучала естественно, но вы бы никогда не услышали разницы. Только компьютер видит её. Как говорит Эйсеро, “это похоже на наклеивание обоев, когда вы пытаетесь соединить швы, чтобы всё совпадало”.
Когда они находят подходящего человека, Apple начинает записывать его речь на протяжении недель, а затем создает голос для Siri. Этот процесс уже реализовали для 21 языка, локализовали для 36 стран. В целом, Siri ежемесячно пользуются 375 миллионов человек.
Это большое число, но оно меркнет на фоне более миллиарда используемых устройств от Apple. Почти каждое из них включает функцию Siri. Это популярная и важная функция, но она пока не распространена повсюду. Для многих людей она не является необходимостью. Но теперь у Apple есть ассистент, которому доверяет компания, и им нужно научить людей им пользоваться.
Спросите меня о чем угодно
Всё, что вам нужно знать о намерениях Apple насчет Siri, можно получить из одной рекламы. Вместе с Дуэйном Джонсоном мы переживаем день из его жизни, в котором ему помогает Siri. Джонсон использует Siri, чтобы проверить календарь, напоминания, он вызывает такси, которое сам ведет, проверяет почту, разрисовывая Сикстинскую капеллу, и делает селфи в космосе.
Джосвиак говорит, что изначально Apple хотели сделать Siri помощницей для всего. Его сводит с ума, что люди сравнивают виртуальных ассистентов, задавая им глупые вопросы.
Вместо этого, цель команды — помочь людям выполнять больше задач при помощи автоматизированного друга. Джосвиак указывает на способность Siri к сложному поиску файлов на Mac и глубокое знание музыки помощником HomePod. Другой пример появился спустя несколько дней после нашей встречи, когда Siri выиграла техническую премию за голосовой поиск и управление.
Siri может делать не всё, но она полезна для выполнения определенных задач, а не для ответа на викторину или дискуссий о том, живем ли мы в симуляции. Siri не знает границ — вы можете спросить её о чем угодно — поэтому пользователи спрашивают её обо всем. Одна из задач Эйсеро — помочь Siri лучше выполнять свои навыки и знать, чего она не может. Реклама и сайт Apple призваны помочь людям понять, что может и что не может Siri.
Ещё одна задача — напомнить пользователям, что Siri существует. “У людей есть свои привычки. Если они привыкли печатать, то потребуется время, чтобы изменить это”. Поэтому Apple пытается подтолкнуть пользователей в нужном направлении. В iOS 11 Siri становится более активной и более заметной. Она будет предлагать вам статьи для чтения или помогать добавить в календарь мероприятие, на которое вы только что зарегистрировались.
Apple не торопились предоставлять разработчикам интеграцию с Siri. Пока Alexa и Google Assistant побуждали других встраивать помощников в свои приложения, система Siri оставалась закрытой. В прошлом году компания для Siri открыла несколько функций: звонки в WhatsApp, заказ такси в Uber или денежный перевод в Venmo.
Такой подход лишил Apple звания лидера в глазах многих людей. По словам Джосвиака, главное здесь — качество. Пока Amazon и Google требуют от пользователей сложных предложений, вроде “Алекса, прочитай дневной гороскоп для Тельца”, Apple предпочитает поработать над Siri и не делать ничего, чем делать что-то наполовину.
-
Интегрированные среды разработки3 недели назад
Лучшая работа с Android Studio: 5 советов
-
Исследования2 недели назад
Поможет ли новая архитектура React Native отобрать лидерство у Flutter в кроссплатформенной разработке?
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2024.44
-
Новости2 недели назад
Видео и подкасты о мобильной разработке 2024.45