NVIDIA представила новую ИИ-модель Fugatto для работы со звуком

Как работает Fugatto от NVIDIA: уникальная модель для работы с аудио

NVIDIA анонсировала экспериментальную генеративную модель искусственного интеллекта Fugatto, которая предназначена для создания и редактирования аудио на основе текстовых команд. Разработчики называют её “универсальным инструментом для работы со звуком”, позволяющим создавать музыкальные композиции, звуковые эффекты и преобразовывать голосовые записи.

Как заявил руководитель отдела прикладных аудиоисследований NVIDIA и один из авторов проекта Рафаэль Валье, модель разработана международной командой специалистов компании, что позволило наделить Fugatto поддержкой множества языков и акцентов.

Мы стремились создать инструмент, который воспринимает и генерирует звуки с пониманием, присущим человеку
Рафаэль Валье

Fugatto открывает широкие возможности для профессионалов. Музыканты смогут экспериментировать с различными стилями и инструментами. Преподаватели языков получат инструмент для создания материалов с индивидуальной настройкой голосов. Разработчики видеоигр смогут генерировать звуковые эффекты, адаптируемые к действиям игроков.

Кроме того, Fugatto способна выполнять задачи, не предусмотренные изначально. Например, модель может комбинировать акценты с эмоциями, генерировать природные звуки или создавать динамическое аудио, вроде шума усиливающегося дождя.

Вопрос о доступности Fugatto для широкой аудитории пока остаётся открытым. Однако это не единственная подобная разработка. Крупные компании также активно продвигают свои ИИ-решения, но ключевой вызов — создание удобного и дружелюбного к пользователю интерфейса.