Новое исследование учёных из корпорации Apple в области искусственного интеллекта выявило значительные недостатки в способности больших языковых моделей (LLM) к базовому рассуждению. Они предложили новый контрольный тест (бенчмарк) для оценки производительности этих моделей — GSM-Symbolic — который продемонстрировал их уязвимость к изменениям в формулировках вопросов.
Эксперимент, проведённый командой Apple, показал, что языковые модели, включая ChatGPT, разработанный компанией OpenAI, испытывают сложности с математическим рассуждением. Это становится особенно заметно, когда вопросы включают незначительные изменения в контексте.
В ходе тестирования учёные обнаружили, что даже небольшие изменения в числовых значениях или формулировке задач могут значительно повлиять на результат, делая выводы моделей ненадёжными:
Производительность всех моделей падает, когда в вопросе меняются только числовые значения. Более того, хрупкость математических рассуждений в этих моделях демонстрирует, что их производительность значительно ухудшается по мере увеличения количества предложений в вопросе
Исследователи Apple
Одним из ярких примеров стало решение простой математической задачи: “Оливер собирает 44 киви в пятницу, 58 — в субботу, а в воскресенье он собирает вдвое больше киви, чем в пятницу”. Дополнительное условие, что “пять киви в воскресенье оказались меньше среднего размера“, не должно было влиять на решение задачи, однако языковая модель OpenAI неверно вычитала эти пять киви из общего количества. Это указывает на то, что языковые модели не способны к истинному пониманию сути задачи, а лишь полагаются на шаблонное сопоставление данных.
Исследование подчёркивает, что на текущем этапе развития крупные языковые модели лишены навыков формального рассуждения:
Мы не нашли никаких доказательств формального рассуждения в языковых моделях. Поведение LLM, объясняется скорее сложным сопоставлением шаблонов, которое, как показало исследование, настолько хрупко, что простое изменение имен может повлиять на конечный результат
Исследователи Apple
В статье также подтверждаются выводы более ранних исследований, которые показывали, что LLM больше полагаются на паттерны, чем на логику. Это, в свою очередь, ставит под сомнение целесообразность применения этих технологий в задачах, требующих глубокого понимания и рассуждения. Узнайте о других событиях мира технологий на нашем новостном портале.