Да, заголовок — не кликбейт.
В Microsoft показли искусственный интеллект VALL-E, который может имитировать любой голос. Для этого ему достаточно послушать живой пример всего 3 секунды.При этом он сохранит и тембр, и эмоциональный окрас сказанного.
Microsoft описывает VALL-E как «языковую модель нейронного кодека».
Расшифровывается это так: есть технология EnCodec, которая в отличие от аналогов, анализирует речь, разбивает её на отдельные «токены» и потом сопоставляет это с тут же смоделированной инфой о том, как этот голос будет звучать, если программа придумает ему другие фразы.
Аналоги работают более топорными методами.
Эта схема работает за счёт 60 000 часов записанной англоязычной речи от более чем 7 000 носителей языка.
На сайте проекта можно посмотреть примеры синтезированной речи.
? Не очень хочется представлять, что из этого может выйти, поэтому предлагаю вместе с нами спрятаться от ужасов мира в подборке самых бесполезных гаджетов.
Источник и картинки: vall-e, ixbt