Когда ИИ кажется умным, но на деле — пустышка
Мы все любим оценивать ум по внешним признакам. Тесты, решения задач, толковые объяснения. Если модель справляется с кучей заданий, думаем: вот оно, настоящее понимание! А с ИИ всё иначе. Он мастерски имитирует уверенность, хотя внутри — сплошной обман.
Учёные из Университета Чжэцзян как раз это и доказали. Они разобрались с хайповой моделью Centaur, которую все хвалили за "человеческое мышление".
Centaur: звезда, которая быстро погасла
Летом 2025-го Centaur взорвал новости. Обычную языковую модель натренировали на данных из психологических тестов. ИИ блестяще прошёл 160 заданий: от принятия решений до контроля внимания. Все в восторге: прорыв! ИИ мыслит как человек!
Но радость оказалась недолгой.
Простой трюк, который всё раскрыл
Исследователи устроили ловушку. Заменили нормальные вопросы на бред. Вместо "Какой вариант правильной стратегии?" — просто "Выбери A". Что сделал Centaur? Всё равно тыкал в "правильные" ответы из старых данных. Игнорировал новую команду напрочь.
Представьте студента, который запомнил, где учитель ставит галочки на старых тестах. Не читает вопрос — просто копирует шаблон. Точно Centaur.
Почему это пугает и зачем важно
Мы проверяем ИИ неправильно. Эти модели — короли статистики. Учатся на миллиардах примеров, угадывают паттерны. Но это не понимание. А чёрный ящик внутри мешает разглядеть подвох. Легко спутать копирование с интеллектом.
В реальности это опасно. ИИ будет уверенно врать в новых ситуациях. Галлюцинации, ошибки в интерпретации. А если в медицине или финансах? Катастрофа.
Ключевая проблема, которую не решили
Исследование показывает: по-настоящему понимать запрос — это адски сложно. Паттерны на знакомых задачах — ерунда. А вот уловить смысл и цель вопроса? Вот где стена.
Не в мощности процессоров дело. Не в данных. А в базовом: что слова значат в контексте.
Итог
Провал Centaur — это плюс. Учёные учатся ловить такие фокусы. Не ведёмся на красивые бенчмарки. Помним: хорошие тесты ≠ настоящий ум.
Услышите про новый прорыв ИИ? Спросите: а если вопрос перефразировать?