Нейросеть VALL-E от Microsoft может имитировать любой голос из трехсекундного отрывка
Компания Microsoft выпустила инструмент искусственного интеллекта VALL-E, который может воспроизводить голоса людей. Нейросеть была обучена на 60 000 часах данных английской речи и использует 3-секундные клипы конкретных голосов для создания контента.
