CEO-тест: простая эвристика обыграла почти все LLM в симуляции стартапа
Принстонский университет запустил CEO-Bench — симулятор, где AI-агенты управляют вымышленной software-компанией 500 условных дней. Большинство моделей разоряются, а детерминированная программа без единого нейрона обошла почти всех.