Мир науки и технологий
← Главная
ИИ сдал экзамен на отлично, не понимая ни слова в вопросах

ИИ сдал экзамен на отлично, не понимая ни слова в вопросах

2026-05-01T12:51:15.951825+00:00

Когда ИИ кажется умным, но на деле — пустышка

Мы все любим оценивать ум по внешним признакам. Тесты, решения задач, толковые объяснения. Если модель справляется с кучей заданий, думаем: вот оно, настоящее понимание! А с ИИ всё иначе. Он мастерски имитирует уверенность, хотя внутри — сплошной обман.

Учёные из Университета Чжэцзян как раз это и доказали. Они разобрались с хайповой моделью Centaur, которую все хвалили за "человеческое мышление".

Centaur: звезда, которая быстро погасла

Летом 2025-го Centaur взорвал новости. Обычную языковую модель натренировали на данных из психологических тестов. ИИ блестяще прошёл 160 заданий: от принятия решений до контроля внимания. Все в восторге: прорыв! ИИ мыслит как человек!

Но радость оказалась недолгой.

Простой трюк, который всё раскрыл

Исследователи устроили ловушку. Заменили нормальные вопросы на бред. Вместо "Какой вариант правильной стратегии?" — просто "Выбери A". Что сделал Centaur? Всё равно тыкал в "правильные" ответы из старых данных. Игнорировал новую команду напрочь.

Представьте студента, который запомнил, где учитель ставит галочки на старых тестах. Не читает вопрос — просто копирует шаблон. Точно Centaur.

Почему это пугает и зачем важно

Мы проверяем ИИ неправильно. Эти модели — короли статистики. Учатся на миллиардах примеров, угадывают паттерны. Но это не понимание. А чёрный ящик внутри мешает разглядеть подвох. Легко спутать копирование с интеллектом.

В реальности это опасно. ИИ будет уверенно врать в новых ситуациях. Галлюцинации, ошибки в интерпретации. А если в медицине или финансах? Катастрофа.

Ключевая проблема, которую не решили

Исследование показывает: по-настоящему понимать запрос — это адски сложно. Паттерны на знакомых задачах — ерунда. А вот уловить смысл и цель вопроса? Вот где стена.

Не в мощности процессоров дело. Не в данных. А в базовом: что слова значат в контексте.

Итог

Провал Centaur — это плюс. Учёные учатся ловить такие фокусы. Не ведёмся на красивые бенчмарки. Помним: хорошие тесты ≠ настоящий ум.

Услышите про новый прорыв ИИ? Спросите: а если вопрос перефразировать?

#artificial intelligence #ai limitations #language understanding #machine learning #cognitive science #tech skepticism