Компания OpenAI анонсировала флагманскую модель GPT-5.4, которая получила возможность напрямую взаимодействовать с компьютером. Нейросеть анализирует скриншоты экрана и самостоятельно выполняет действия с помощью мыши и клавиатуры.
Презентация GPT-5.4 состоялась 5 марта 2026 года. Вместе с базовой версией представлены модификации GPT-5.4 Thinking и GPT-5.4 Pro. Главным нововведением стала "агентская" функциональность — модель обучалась для выполнения задач, требующих использования мыши и клавиатуры, анализируя происходящее на экране. Это первая универсальная модель OpenAI с подобной возможностью.
Версия GPT-5.4 Thinking уже доступна пользователям подписок ChatGPT Plus, Team и Pro. Она способна показывать ход своих рассуждений в реальном времени. В тесте OSWorld-Verified, оценивающем навигацию в среде рабочего стола, модель показала результат 75%, что превышает показатели предыдущей версии (47,3%) и средний результат человека (72,4%). Разработчики также заявляют о снижении количества фактических ошибок на 18%.
Окно контекста для API теперь составляет 1 миллион токенов, что позволяет загружать целые массивы информации для анализа. Цена на использование API выросла: входные токены стоят $2,5 за миллион, выходные — $15.