NVIDIA анонсировала экспериментальную генеративную модель искусственного интеллекта Fugatto, которая предназначена для создания и редактирования аудио на основе текстовых команд. Разработчики называют её “универсальным инструментом для работы со звуком”, позволяющим создавать музыкальные композиции, звуковые эффекты и преобразовывать голосовые записи.
Как заявил руководитель отдела прикладных аудиоисследований NVIDIA и один из авторов проекта Рафаэль Валье, модель разработана международной командой специалистов компании, что позволило наделить Fugatto поддержкой множества языков и акцентов.
Мы стремились создать инструмент, который воспринимает и генерирует звуки с пониманием, присущим человеку
Рафаэль Валье
Fugatto открывает широкие возможности для профессионалов. Музыканты смогут экспериментировать с различными стилями и инструментами. Преподаватели языков получат инструмент для создания материалов с индивидуальной настройкой голосов. Разработчики видеоигр смогут генерировать звуковые эффекты, адаптируемые к действиям игроков.
Кроме того, Fugatto способна выполнять задачи, не предусмотренные изначально. Например, модель может комбинировать акценты с эмоциями, генерировать природные звуки или создавать динамическое аудио, вроде шума усиливающегося дождя.
Вопрос о доступности Fugatto для широкой аудитории пока остаётся открытым. Однако это не единственная подобная разработка. Крупные компании также активно продвигают свои ИИ-решения, но ключевой вызов — создание удобного и дружелюбного к пользователю интерфейса.