#reasoning

Публикаций: 4

Как сделать GRPO-обучение эффективнее: replay-буфер даёт +4 pp

Группа корейских исследователей опубликовала метод, который решает давнюю проблему GRPO: каждый роллаут тратится на один градиентный шаг и выбрасывается. Новый буфер переиспользует данные умно — и на math-бенчмарках это даёт до +4.35 процентных пунктов.

Microsoft запустил MAI-модели: 35B против Sonnet 4.6

Microsoft анонсировал две собственные LLM: MAI-Thinking-1 на 35B параметров, претендующую обойти Claude Sonnet 4.6, и компактную MAI-Code-1-Flash на 5B, уже встроенную в GitHub Copilot. Оба — на «коммерчески лицензированных данных» без дистилляции из сторонних моделей.

Терренс Тао: ИИ впервые сделает математику командным спортом

Один из лучших математиков мира утверждает: ИИ способен сломать главное ограничение математики — необходимость одному человеку удерживать всю цепочку доказательства в голове. Впереди — «промышленная математика» с командами и разделением труда.

OpenAI опровергла гипотезу Эрдёша 1946 года — математики разбирают доказательство

Reasoning-модель OpenAI опровергла гипотезу Пола Эрдёша о геометрии единичных расстояний, открытую с 1946 года. Лауреат Медали Филдса Тим Гауэрс назвал результат «вехой в математике ИИ» и предупредил: людям скоро станет очень трудно конкурировать с ИИ в математике.

← Все статьи