Google представили Veo 3 — новый мощный генератор видео на базе искусственного интеллекта, способный создавать не только качественную картинку, но и полноценный звуковой ряд, включая диалоги, эффекты и фоновый шум. Эта технология знаменует собой новый этап в развитии ИИ-видео, когда ролики с компьютерной графикой и озвучкой становятся почти неотличимыми от настоящих.
В отличие от конкурентов, например OpenAI с их генератором Sora, Veo 3 умеет интегрировать аудио непосредственно в создаваемый видеоряд. По словам главы Google DeepMind Демиса Хассабиса, “безмолвная эпоха” ИИ-видео подходит к концу: теперь можно не только задать описание сцены и персонажей, но и прописать для них реплики, а система самостоятельно сымитирует голос и нужную интонацию.
Veo 3 вошел в состав универсального набора инструментов Flow, который объединяет генерацию видео, изображений и управление сценами. Flow позволяет не просто создавать ролики по текстовому описанию, но и гибко редактировать кадры, менять положение камеры и добавлять новые сцены на лету. Такой функционал открывает широкие возможности для блогеров, стримеров и создателей контента — например, легко создавать реалистичные летсплеи или игровые обзоры, которые почти невозможно отличить от настоящих.
Для борьбы с возможным распространением дипфейков Google внедрила технологию SynthID — невидимые водяные знаки, встроенные в видео, помогающие отслеживать и идентифицировать ИИ-контент. При обучении Veo 3 использовались миллиарды видео из открытых источников, включая YouTube.