Connect with us

Видео и подкасты для разработчиков

Как работает синтез речи: от робота до живого голоса — синтез речи, TTS

В этом выпуске мы прошлись по четырём поколениям TTS-систем: от простейшего склеивания фрагментов до нейросетевых моделей, способных передавать интонации и эмоции.

Опубликовано

/

     
     

Синтез речи давно вышел за рамки утилитарных задач и стал важной частью взаимодействия человека с технологией: от помощников до медиа и образовательных продуктов. В гости к нам пришел Сергей Дуканов, который разрабатывал голосовые ассистенты Маруси, Алисы и Олега, а сейчас – CTO в международном AI dubbing стартапе Dubformer. В этом выпуске мы прошлись по четырём поколениям TTS-систем: от простейшего склеивания фрагментов до нейросетевых моделей, способных передавать интонации и эмоции. Обсуждаем, зачем синтезированной речи характер, почему интонационные “ошибки” делают голос живым и что важно учитывать при встраивании TTS в продукты.

Содержание:

  • 00:00 О чем выпуск
  • 02:42 Основные задачи синтеза речи
  • 07:45 Применение Zero-shot TTS
  • 12:00 Особенности тембра голоса
  • 15:48 Признаки синтезированного голоса
  • 18:48 Проблемы синтеза эмоций
  • 21:57 История синтеза речи
  • 26:24 Выбор текста для датасета
  • 31:05 Технические детали синтеза речи
  • 41:35 Подходы к обучению моделей
  • 47:13 Латенты и токены
  • 48:57 Преимущества токенизации
  • 51:30 Оценка качества моделей
  • 56:10 Проблемы лидербордов
  • 59:15 Восприятие синтезированной речи
  • 01:01:10 Диалоговые агенты
  • 01:05:05 Готовые решения и будущие перспективы
  • 01:18:04 Заключение

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Telegram

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: