Новости
Google опубликовал свою систему разделения спикеров
Диаризация (или разделение дикторов) — процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему.
Диаризация повышает качество текстов при автоматическом транскрибировании, а также может использоваться совместно с системой распознавания речи, значительно её улучшая. Диаризация используется для ответа на вопрос «Кто сейчас говорит?».
Исследователи Google опубликовали работу по диаризации под названием «Полностью обучаемое разделение спикеров» и открыли соответствующий проект на GitHub.
По данным инженеров, их новая AI-система, работающая в реальном времени, может достигать 7.6% ошибок, против 8.8% у предыдущего метода. Основана она на рекуррентных нейронных сетях, причем каждому говорящему выделяется своя, а система объединяет их.
-
Аналитика магазинов4 недели назад
Мобильный рынок Ближнего Востока: исследование Bidease и Sensor Tower выявляет драйверы роста
-
Видео и подкасты для разработчиков3 недели назад
Разбор кода: iOS-приложение для управления личными финансами на Swift. Часть 1
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2025.47
-
Разработка4 недели назад
100 уроков о том, как я довёл своё приложение до продажи за семизначную сумму

