Американская технологическая компания Amazon разработала модель искусственного интеллекта (ИИ) для преобразования текста в синтезированную речь. По словам создателей, нейросеть стала крупнейшей из когда-либо созданных систем такого типа.
Как передает Report, результаты исследования размещены на портале научных публикаций arXiv.
Модель под названием Big Adaptive Streamable TTS with Emergent options (BASE TTS) имеет 980 млн параметров и была обучена с использованием 100 тыс. часов образцов записанной речи преимущественно на английском языке.
Команда также предоставила примеры произношения слов и фраз на других языках, чтобы модель могла правильно проговаривать "adios, amigo" и другие известные выражения.
Разработчики протестировала BASE TTS на небольших наборах данных. Оказалось, что ИИ способен использовать сложные существительные, выражать эмоции и применять пунктуацию, а также задавать вопросы с акцентированием на правильных словах.
В Amazon планируют использовать BASE TTS в образовательных целях в качестве обучающего приложения.