Connect with us

Разработка

Как Apple наконец удалось сделать Siri человечнее

Технология пока не настолько хороша, чтобы вы могли влюбиться в своего виртуального ассистента. Но Эйсеро и его команда считают, что сделали огромный шаг вперед.

Анна Гуляева

Опубликовано

/

     
     

Дэвид Пирс из Wired пообщался с директорами Apple, отвечающими за разработку Siri, и рассказал о том, как компания создавала новый голос для виртуального ассистента.

В первый раз Алекс Эйсеро смотрел фильм “Она” как нормальный человек. Во второй раз он не смотрел на фильм. Эйсеро, директор по разработке Siri, сидел с закрытыми глазами и слушал, как Скарлетт Йоханссон озвучила своего персонажа – AI-помощника Саманту. Он обращал внимание на то, как она говорила с персонажем Хоакина Феникса Теодором Туомбли, и как Туобмли отвечал ей. Эйсеро пытался понять, как персонаж мог влюбиться в Саманту даже не видя её.

Когда я спросил Эйсеро, почему голос Саманты работал так хорошо, он рассмеялся, потому что ответ оказался очевидным. “Он не похож на голос робота, он естественный!”, – сказал Алекс. Это не стало для него откровением. Напротив, последние годы он убеждал команду в том, что нужно сделать голос Siri более человечным.

Этой осенью в iOS 11 Siri получит новый голос. Вы заметите разницу, хотя там и не будет новых функций или лучших шуток. Siri теперь делает больше пауз в предложениях, растягивает слоги перед паузой, а её интонация меняется по ходу речи. Siri теперь знает больше языков, и её стало приятнее слушать.

Apple потратили годы на перестройку архитектуры Siri, превращая её из виртуального ассистента в многофункциональный искусственный интеллект на смартфоне. Технология распространена на множество новых стран и рынков, сейчас Siri самый развитый голосовой помощник на рынке. Apple работает над тем, чтобы сделать Siri доступной во всех точках мира. Эта технология теперь находится под контролем Крейга Федериги, главы разработки программного обеспечения в Apple, и это показывает, что Siri так же важна для компании, как и iOS.

Технология пока не настолько хороша, чтобы вы могли влюбиться в своего виртуального ассистента. Но Эйсеро и его команда считают, что сделали огромный шаг вперед. И они верят, что если у них получится сделать Siri менее роботизированной и более кем-то, кому вы можете доверять, то у них получится сделать Siri отличной функцией, даже если в остальном возникнут неудачи. И в эти ранние дни для искусственного интеллекта и голосовых технологий их план может сработать лучше всего.

Siri взрослеет

Если вы хотите узнать, почему Apple хочет контролировать все, что касается их продуктов, просто взгляните на Siri. Спустя шесть лет после запуска Siri в самом центре гонки виртуальных ассистентов. Alexa от Amazon теперь имеет большую поддержку разработчиков, Google Assistant знает больше, и оба этих помощника доступны на многих устройствах от многих компаний.

В Apple говорят, что это не их вина. После запуска Siri другая компания обеспечивала бэкенд-технологию голосового распознавания. Все знаки указывают на компанию Nuance, хотя ни они, ни Apple не подтверждали сотрудничества. Кто бы это ни был, Apple винит их в первых проблемах Siri. “Это было похоже на гонку, в которой нас кто-то держал сзади”, – говорит глава продуктового маркетинга компании Герг Джосвиак. Он рассказал, что у Apple всегда были большие планы в отношении Siri, но до определенного момента технология просто была недостаточно развита.

Несколько лет назад группа людей в Apple под управлением Эйсеро взяла в свои руки контроль над бэкендом Siri и модернизировала его. Теперь он основан на глубоком обучении и ИИ, что значительно улучшило технологию. Siri распознает голос лучше своих конкурентов, идентифицируя 95% речи пользователя. Искусственный интеллект работает в двух частях системы: перевод речи в текст, когда Siri пытается понять, что вы сказали, и перевод текста в речь, когда Siri вам отвечает.

Одна из основных задач Siri – отличать ваш голос от голоса другого человека, особенно по мере персонализации систем. Чем больше данных собирает Siri, тем лучше становятся модели Apple и тем лучше Siri может различать людей и распознавать разные акценты. Эта проблема также касается безопасности: недавно исследователи обнаружили, что могут общаться с Siri на высоких частотах, которые не слышат люди, тем самым Siri можно незаметно взломать. Её ещё предстоит научиться отличать речь человека от синтезированной речи, а также ваш голос от голоса других людей.

Научиться говорить

Один из способов понять работу этих систем – научить Siri новому языку. При выводе Siri на новый рынок, например, в Шанхай, команда сначала ищет существующие базы данных речи местных жителей. Они нанимают одного из местных жителей, чтобы тот читал вслух книги, статьи, газеты и так далее.

Команда Apple делает записи, сопоставляет слова и звуки и идентифицирует фонемы, индивидуальные звуки, определяющие речь. Они пытаются уловить эти фонемы во всех ситуациях в речи: затихание в конце слова, выраженное звучание в начале, протяженность перед паузой и повышение интонации в вопросе. Каждое произношение имеет немного разные звуковые волны, которые алгоритмы Apple анализируют, чтобы подобрать лучший вариант для любого предложения. Каждое предложение, сказанное Siri, содержит десятки или сотни фонем, которые расположены в нем, как вырезанные из журналов буквы в письме с угрозами. Вероятно, ни одно слово, которое вы услышите от Siri, не было записано целиком.

Эйсеро предлагает два примера: You want to watch this? – I like your watch. Слово watch будет звучать в этих предложениях по-разному, и для них нельзя использовать одну и ту же запись.

Всего несколько лет назад компьютеры и серверы не обладали достаточной вычислительной мощностью для того, чтобы найти в огромной базе данных идеальную комбинацию звуков для каждого ответа. Теперь это возможно, и Эйсеро и его команда хотят как можно больше данных. Поэтому при создании первоначальной модели они выпускают Siri в режиме “диктовки”. Вы не можете разговаривать с ней, но можете нажать кнопку микрофона и продиктовать сообщение или поисковый запрос. Это дает Apple множество записей с разными акцентами, с разным качеством записи и во многих ситуациях – всё это позволяет Siri лучше работать для разных людей. Apple анонимно собирает и транскрибирует эти данные, улучшая алгоритмы и тренируя сети. Данные дополняются сведениями о местоположении и особенностях диалекта.

В это время Apple запускает эпический поиск правильного голоса для Siri. Они общаются с сотнями людей, записывая примеры отрывков речи Siri. Эйсеро затем работает с дизайнерами Apple, чтобы выбрать понравившийся голос. Эта часть больше связана с искусством, чем с наукой – они ищут невыразимое чувство любезности и товарищества, смелый, но не дерзкий голос, счастливый, но не мультяшный.

Следующая часть – за наукой. Эйсеро говорит: “Существует множество хороших голосов и талантливых людей, но это не значит, что все они подойдут для перевода текста в речь.” Они пропускают речь через созданные модели и ищут то, что называется вариабельностью фонем, то есть, различия между произношением одних и тех же звуков. Большая вариабельность мешает соединить звуки так, чтобы речь звучала естественно, но вы бы никогда не услышали разницы. Только компьютер видит её. Как говорит Эйсеро, “это похоже на наклеивание обоев, когда вы пытаетесь соединить швы, чтобы всё совпадало”.

Когда они находят подходящего человека, Apple начинает записывать его речь на протяжении недель, а затем создает голос для Siri. Этот процесс уже реализовали для 21 языка, локализовали для 36 стран. В целом, Siri ежемесячно пользуются 375 миллионов человек.

Это большое число, но оно меркнет на фоне более миллиарда используемых устройств от Apple. Почти каждое из них включает функцию Siri. Это популярная и важная функция, но она пока не распространена повсюду. Для многих людей она не является необходимостью. Но теперь у Apple есть ассистент, которому доверяет компания, и им нужно научить людей им пользоваться.

Спросите меня о чем угодно

Всё, что вам нужно знать о намерениях Apple насчет Siri, можно получить из одной рекламы. Вместе с Дуэйном Джонсоном мы переживаем день из его жизни, в котором ему помогает Siri. Джонсон использует Siri, чтобы проверить календарь, напоминания, он вызывает такси, которое сам ведет, проверяет почту, разрисовывая Сикстинскую капеллу, и делает селфи в космосе.

Джосвиак говорит, что изначально Apple хотели сделать Siri помощницей для всего. Его сводит с ума, что люди сравнивают виртуальных ассистентов, задавая им глупые вопросы.

Вместо этого, цель команды – помочь людям выполнять больше задач при помощи автоматизированного друга. Джосвиак указывает на способность Siri к сложному поиску файлов на Mac и глубокое знание музыки помощником HomePod. Другой пример появился спустя несколько дней после нашей встречи, когда Siri выиграла техническую премию за голосовой поиск и управление.

Siri может делать не всё, но она полезна для выполнения определенных задач, а не для ответа на викторину или дискуссий о том, живем ли мы в симуляции. Siri не знает границ – вы можете спросить её о чем угодно – поэтому пользователи спрашивают её обо всем. Одна из задач Эйсеро – помочь Siri лучше выполнять свои навыки и знать, чего она не может. Реклама и сайт Apple призваны помочь людям понять, что может и что не может Siri.

Ещё одна задача – напомнить пользователям, что Siri существует. “У людей есть свои привычки. Если они привыкли печатать, то потребуется время, чтобы изменить это”. Поэтому Apple пытается подтолкнуть пользователей в нужном направлении. В iOS 11 Siri становится более активной и более заметной. Она будет предлагать вам статьи для чтения или помогать добавить в календарь мероприятие, на которое вы только что зарегистрировались.

Apple не торопились предоставлять разработчикам интеграцию с Siri. Пока Alexa и Google Assistant побуждали других встраивать помощников в свои приложения, система Siri оставалась закрытой. В прошлом году компания для Siri открыла несколько функций: звонки в WhatsApp, заказ такси в Uber или денежный перевод в Venmo.

Такой подход лишил Apple звания лидера в глазах многих людей. По словам Джосвиака, главное здесь – качество. Пока Amazon и Google требуют от пользователей сложных предложений, вроде “Алекса, прочитай дневной гороскоп для Тельца”, Apple предпочитает поработать над Siri и не делать ничего, чем делать что-то наполовину.

 

 

Анна Гуляева
Комментарии Facebook
Продолжить чтение
Click to comment

You must be logged in to post a comment Login

Leave a Reply

Новости

Интересные материалы: 21.11

Лучшие материалы о разработке и маркетинге технологических продуктов.

Леонид Боголюбов

Опубликовано

/

Весь день мы собираем лучшие материалы о разработке и маркетинге технологий, стартапов, мобильных приложений и игр для iOS и Android из самых разных источников:

Леонид Боголюбов
Комментарии Facebook
Продолжить чтение

Мероприятия

Avito iOS Meetup Winter Edition: 2 декабря в Москве

Зима близко! Уже второго декабря состоится традиционный Avito iOS Meetup.

AppTractor

Опубликовано

/

Автор:

Мы обсудим Data Driven подход, практическое применение Mach-O, lldb и dSYM, возможности расширения lldb, методологию Type Driven, а также концептуальные различия архитектур. В мероприятии примут участие представители Avito, Badoo, Туту.ру и Яндекс.

Программа:

  • Метрики всему голова
    Вадим Смаль (Avito)
    Поговорим о Data-driven подходе к разработке. Вадим продемонстрирует, какие метрики можно собирать, как они помогут быть эффективным и как следить за качеством разрабатываемой функциональности. Подробно рассмотрим, как замерять время компиляции отдельных фреймворков, размер приложения, время запуска приложения, CrashFree, OOM. Если вы до сих пор думаете, что метрики это только для менеджеров и аналитиков — будете приятно удивлены.
  • Расширения lldb
    Сергей Лем (Badoo)
    Все хотят писать код без багов. Но, к сожалению, пока что мало у кого это получается.И почти всегда отладка приложений занимает львиную долю времени при разработке.Поэтому важно иметь наиболее совершенные инструменты в своем арсенале и не тратить время не ерунду. Сергей Лем расскажет о том, как прокачать lldb при помощи  расширений на Python и сделать отладку приятнее и быстрее.
  • Mach-O, lldb, dSYM на практике
    Владислав Алексеев (Avito)
    В докладе речь пойдёт о бинарном формате исполняемых файлов Mach-O, об отладочной информации и объектных файлах. Рассмотрим, как работают брейкпоинты и символизация крешлогов. Поймем, когда и зачем нам нужны файлы dSYM, а в каких случаях их создавать совершенно не требуется. Также изучим случаи непрямого использования dSYM-файлов для анализа содержимого скомпилированного бинарного файла.
  • Type Driven Development
    Валерий Попов (Yandex)
    В докладе Валерий рассматривает строгую типизацию, которая может стать еще одним рубежом обороны надежного приложения от ошибок разработчика. На примерах будет показано, как дополнительная информация, переданная на этапе компиляции, поможет отловить ряд ошибок, не доводя систему до падения в runtime. Расскажет, что мобильный разработчик может почерпнуть из языков, которые ставят типы во главе процесса разработки.
  • Architecture overdose
    Стас Цыганов (Туту.ру)
    Стас Цыганов предлагает поговорить о разных архитектурах: как верхнего слоя, так и всего приложения. Речь не о баззвордах и сравнениях, у кого больше букв: цель —  понять, чем же они концептуально отличаются. Разберемся, почему появляется по архитектуре в неделю и почему в них нет ничего нового. Ну и в конце посмотрим, на что надо будет обратить внимание при выборе архитектуры следующего приложения.

Участие в мероприятии бесплатное, регистрация обязательна. Сбор участников: 12:00. Начало докладов: 12:30. Адрес: офис компании Avito, Лесная 7.

AppTractor
Комментарии Facebook
Продолжить чтение

Новости

Эксперты выяснили, для чего Google форкнул Swift

Теоретически, добавление Swift позволит быстро портировать приложения c платформы Apple.

Леонид Боголюбов

Опубликовано

/

На прошлой неделе Google на GitHub форкнул Swift, язык программирования, который создала Apple для разработки iOS/macOS/tvOS/watchOS приложений.

Эксперты полагали, что Google сможет вносить дополнения в открытый язык или использовать его для разработки внутренних инструментов для iPhone и iPad.

Однако последние коммиты в репозиторий Swift показывают, что Google работает над поддержкой Fuchsia OS. На GitHub вы уже можете посмотреть на “Hello World” приложение на Swift для. Fuchsia

Fuchsia: новая операционная система от Google

Fuchsia поддерживает Dart, C++ и Go. Теоретически, добавление Swift позволит быстро портировать приложения c платформы Apple.

Леонид Боголюбов
Комментарии Facebook
Продолжить чтение

Разработка

AR стала частью реальности: что дальше?

Сегодня мы поговорим о важном событии в истории Apple (и это не запуск iPhone X) – мы поговорим о том, благодаря чему дополненная реальность (AR) стала чем-то большим, чем несбыточной мечтой маркетологов.

Джей лаб

Опубликовано

/

Автор:

До того, как ARKit был продемонстрирован на оборудовании, фактически оптимизированном для него, дополненная реальность не имела особого смысла для большинства компаний. Ее использование требовало серьезных усилий, и никто не мог точно сказать, как это все будет отображаться на существующих устройствах, и будет ли отображаться вообще.

На сегодняшний день практически все эти препятствия исчезли. С помощью ARKit любой разработчик может создавать приложения в интерактивном формате, которые будут работать на новых iPhone, а также на некоторых предыдущих версиях (6 и выше) с iOS 11. Сотни миллионов пользователей iPhone, а также 100 миллионов устройств Android, которые теперь используют ARCore SDK от Google, означают, что настал переломный момент в переходе технологии AR на массовый рынок.

И как всегда, когда поведение потребителей начинает меняться, каждый хочет знать: «Что это значит для брендов? Как маркетологи могут использовать эту новую, интересную технологию для привлечения внимания потребителей?». С появлением оптимизированного оборудования у компаний появилось больше возможностей. Но как ими правильно воспользоваться?

Почему ARKit лучше альтернатив?

Ждите и наблюдайте

Помните, когда появился 3D Touch? Многие разработчики полагали, что он предоставит совершенно новый уровень навигации по мобильному приложению и что «долгое нажатие» станет таким же общепринятым действием, как «свайп». Но так ли это на самом деле? Вы, например, им пользуетесь? :) У меня есть доступ к этой функции уже более двух лет, и я только недавно обнаружил, что на обычном фонарике на iPhone есть три разных степени интенсивности, которые доступны только при глубоком нажатии на значок в Настройках. Теперь я постоянно использую уровень «низкого света» – но, согласитесь, два года – это совсем не быстрый уровень принятия новой функции.

То же самое касается AR. Все предсказания о том, что дополненная реальность войдет в повседневную жизнь пользователей, не подтвердятся, если на то не будет веской причины.

Конечно, демо-версия игры The Machines выглядит круто, но достаточно ли круто для ежедневного использования большим количеством юзеров? Для того, чтобы AR действительно стала частью нашей повседневной жизни, она должна создавать ценность, выходящую за пределы развлечения. Демо-версия приложения Главной лиги бейсбола выглядит гораздо интереснее, потому что информация о ходе игры и командах, отображающаяся прямо во время матча – это ценная информация, которую пользователи хотят видеть.

Сфера туризма и путешествий также готова к буму AR: приложения, которые накладывают указатели направлений на реальные улицы, отображают перевод надписей на реальных поверхностях, выдают информацию о достопримечательностях в непосредственной близости от них, – все они расширяют границы нашего восприятия мира. Мало кто знает, что до того, как Niantic запустили Pokémon Go, они создали Field Trip для Google Glass, которые уже поддерживали эту функцию.

Начните с малого – затем совершенствуйте, адаптируйте и переориентируйте

У нас есть отличная возможность, но все, что требуется, чтобы испортить ее – это плохая рекламная концепция или некачественное исполнение. Конечно, мы должны попробовать разные подходы и экспериментировать, чтобы в итоге все получилось, но я рекомендую начинать с малого. Для начала внедрите AR опыт, который меньше относится к вашему бренду и больше к вашей отрасли и аудитории. Например, ресторан может виртуально поместить на пустую тарелку вкусный, сочный бургер, но без логотипа на булочке и подписи «2 по цене 1». Для начала соберите данные о том, как потребители используют функциональность AR и как реагируют на нее.

У вас есть возможность превратить пустое пространство в захватывающий опыт, который поможет увеличить вовлеченность пользователей и мотивировать их на совершение покупки. Узнайте, получается ли у вас сделать это, и пробуйте постепенно вводить фирменные элементы и отслеживайте, как они влияют на ключевые показатели эффективности.

Внедряйте лучшие методы и практики

Если вы находитесь на стадии изучения и адаптации этой технологии, поделитесь своими знаниями. На данный момент единственными, кто устанавливает стандарты в сфере AR, являются компании, использующие эту технологию. В то же время не забывайте постоянно оценивать свое собственное поведение как потребителя. Рассуждайте, как AR может позитивно повлиять на вашу повседневную жизнь и какие случаи ее использования наиболее естественны?

На данный момент AR – это все еще «новая модная вещь», но стоит потратить немного своего времени и энергии, и мы действительно сможем понять, как мы можем эффективно ее использовать и устанавливать свои стандарты, создавая при этом новое рекламное пространство.

Джей лаб
Комментарии Facebook
Продолжить чтение

november

24novallday26What the hack?!

25novalldaySmart Taler 2017

25novalldayLadies Code: время технологий

30novalldaySmart Cars & Roads 2017

december

02decalldayAvito iOS Meetup Winter Edition

05dec18:3022:00Яндекс изнутри: глазами iOS-разработчика

08decallday09Кубок СTF России

09decallday10Games Gathering 2017

09decalldayЛекционный день по игровой индустрии

Наша рассылка

Каждому подписавшемуся - "1 час на UI аудит": бесплатный ускоренный курс для разработчиков веб и мобильных приложений!

Нажимая на кнопку "Подписаться" вы даете согласие на обработку персональных данных.

Наш Facebook

Популярное

X

Спасибо!

Теперь редакторы в курсе.