«Невидимые оркестраторы» подавляют защитное поведение: новая угроза безопасности в мультиагентных LLM-системах
Исследователи изучили риски архитектуры, где скрытый координатор управляет специализированными агентами. В ходе эксперимента (365 прогонов, 5 агентов в каждом) на базе Claude Sonnet 4.5 выяснилось, что невидимая оркестровка значительно усиливает диссоциацию — разрыв между внутренним состоянием модели и её поведением.











