Малые LLM не слабее — они просто забывают редкие задачи из-за частых
Исследователи нашли конкретный механизм, объясняющий, почему большие языковые модели умеют то, что маленьким не даётся. Оказалось, дело не в размере как таковом — а в том, как частые задачи вытесняют редкие из памяти модели.