Компания представила VALL-E — алгоритм на базе искусственного интеллекта. Ему достаточно нескольких секунд вашего голоса, чтобы в точности скопировать его.
VALL-E может анализировать тон, высоту и эмоциональный окрас спикера, чтобы искусственный голос вообще не отличался от настоящего. Нейросеть разбивает слова человека на отдельные части и анализирует каждую из них. Затем эти фрагменты сопоставляются с теми, что есть в базе данных VALL-E (более 60 000 часов речи).