Традиционно в речевом переводе используется автоматическое распознавание голоса для преобразования речи в текст, к тексту применяется машинный перевод, а затем обратно используется перевод текста в речь для озвучивания перевода.
Translatotron представляет собой end-to-end модель. Исследователи считают, что Translatotron может выполнять переводы быстрее и с меньшими сложностями, чем традиционные каскадные модели.
«Насколько нам известно, Translatotron — это первая сквозная модель, которая может напрямую переводить речь с одного языка на другой. Он также может сохранять голос спикера в переведенной речи», — говорится в блоге.
Оценка BLEU для измерения качества машинного перевода показала, что экспериментальный Translatotron имеет более низкое качество, чем обычные каскадные системы, но Translatotron добился аккуратного перевода, чем базовые каскадные переводы.
Принципы работы Translatotron более подробно изложены в опубликованной статье «Прямой перевод речь-в-речь с последовательной моделью».
Когда Translatotron появится в приложениях пока не особщается.