Видео и подкасты для разработчиков
Как работает синтез речи: от робота до живого голоса — синтез речи, TTS
В этом выпуске мы прошлись по четырём поколениям TTS-систем: от простейшего склеивания фрагментов до нейросетевых моделей, способных передавать интонации и эмоции.
Синтез речи давно вышел за рамки утилитарных задач и стал важной частью взаимодействия человека с технологией: от помощников до медиа и образовательных продуктов. В гости к нам пришел Сергей Дуканов, который разрабатывал голосовые ассистенты Маруси, Алисы и Олега, а сейчас – CTO в международном AI dubbing стартапе Dubformer. В этом выпуске мы прошлись по четырём поколениям TTS-систем: от простейшего склеивания фрагментов до нейросетевых моделей, способных передавать интонации и эмоции. Обсуждаем, зачем синтезированной речи характер, почему интонационные “ошибки” делают голос живым и что важно учитывать при встраивании TTS в продукты.
Содержание:
- 00:00 О чем выпуск
- 02:42 Основные задачи синтеза речи
- 07:45 Применение Zero-shot TTS
- 12:00 Особенности тембра голоса
- 15:48 Признаки синтезированного голоса
- 18:48 Проблемы синтеза эмоций
- 21:57 История синтеза речи
- 26:24 Выбор текста для датасета
- 31:05 Технические детали синтеза речи
- 41:35 Подходы к обучению моделей
- 47:13 Латенты и токены
- 48:57 Преимущества токенизации
- 51:30 Оценка качества моделей
- 56:10 Проблемы лидербордов
- 59:15 Восприятие синтезированной речи
- 01:01:10 Диалоговые агенты
- 01:05:05 Готовые решения и будущие перспективы
- 01:18:04 Заключение
-
Аналитика магазинов2 недели назад
Мобильный рынок Ближнего Востока: исследование Bidease и Sensor Tower выявляет драйверы роста
-
Интегрированные среды разработки3 недели назад
Chad: The Brainrot IDE — дикая среда разработки с играми и развлечениями
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2025.45
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2025.46

