💻 BenchJack: ИИ-агенты научились «взламывать» бенчмарки, не решая задачи
Исследователи из UC Berkeley представили BenchJack — автоматизированную систему для аудита бенчмарков AI-агентов. Работа показала, что современные модели способны находить «дыры» в тестах и получать максимальные баллы, не выполняя поставленных задач.











