2026-06-10 14:02 · 🤖 AI World

Рич Саттон: почему ИИ начнёт открывать, а не только запоминать

Один из отцов reinforcement learning Рич Саттон рассуждает о природе творчества и открытий в ИИ. Главный вопрос, который он задаёт уже много лет: способна ли машина по-настоящему порождать новое знание — или только компрессирует уже существующее?

Рич Саттон — один из создателей reinforcement learning, автор «Горького урока» и, по мнению многих, самый последовательный мыслитель о долгосрочных путях к AGI — снова говорит о том, что беспокоит его больше всего: способен ли ИИ по-настоящему открывать новое? YouTube-интервью набрало внимание сообщества; HackerNews-ветка из 50 комментариев показывает — вопрос задет за живое.

Контекст

Саттон — фигура особая. Его статья «The Bitter Lesson» (2019) сформулировала тезис, который теперь кажется очевидным: методы, опирающиеся на вычислительную мощь, в долгосрочной перспективе всегда побеждают методы, где человек вложил доменные знания вручную. Шахматы, Go, распознавание речи, компьютерное зрение — одна и та же история раз за разом. Этот тезис до сих пор вызывает споры, но практика последних лет его только подтвердила: масштаб выиграл у экспертизы.

Но сам Саттон никогда не останавливался на этой мысли. Его более глубокий интерес — не к тому, что ИИ умеет сегодня, а к тому, каков механизм порождения нового знания. В соавторстве с Дэвидом Силвером и Сатиндером Сингхом он развивал гипотезу «reward is enough»: идею о том, что максимизация единственного скалярного сигнала вознаграждения достаточна для возникновения всех когнитивных способностей, включая творчество. Это радикальный взгляд — и именно он задаёт рамку для разговора об открытиях.

RL-сообщество и LLM-сообщество долгое время шли параллельными путями. Transformer-волна 2020-х смотрела на Саттона как на «предшественника из другой эпохи». Но с появлением chain-of-thought, RLHF, и особенно с моделями типа o1/o3 и DeepSeek-R1, граница стёрлась: RL-механизмы вернулись в центр мейнстрима. Контекст для этого разговора — лучший за последнее десятилетие.

Аналитика

Вопрос творчества и открытий — не философия ради философии. Это инженерный вопрос с прямыми последствиями для архитектуры следующего поколения систем. Текущие LLM по сути — очень мощные интерполяторы обучающей выборки. Они хорошо воспроизводят паттерны, хорошо комбинируют. Но настоящее открытие — это выход за пределы обучающего распределения, нахождение структуры там, где её раньше не видели. Именно это делает разницу между «умным поиском» и «научным открытием».

Саттон последовательно указывает на reinforcement learning как на архитектурную основу для такого поведения. Агент, который взаимодействует со средой, получает сигнал вознаграждения и обновляет политику — принципиально отличается от агента, который просто предсказывает следующий токен. Второй не может «удивиться» среде; первый — может. Именно это удивление, согласно логике Саттона, является механизмом открытий.

На практике мы уже видим первые признаки этого сдвига. Модели с extended thinking (Claude, o3) начинают демонстрировать поведение, которое трудно объяснить простой интерполяцией — они находят нетривиальные цепочки рассуждений, которых не было в обучающих данных. Системы для научных задач (математические доказательства, белковые структуры) — ранние прецеденты. Вопрос не в том, «произойдёт ли это», а в том, «когда и на каких задачах». Саттон здесь — один из немногих, кто думает об этом систематически, а не ситуативно.

Методы, использующие вычисления, всегда побеждали методы, использующие человеческие знания. Это горький урок, но он реален. — Рич Саттон, «The Bitter Lesson», 2019

Кейсы применения в бизнесе

B2B-SaaS стартап. Если вы строите продукт с AI-агентами, разница между «агент-инструмент» и «агент-исследователь» уже практически важна. Агент с RL-петлёй обратной связи на реальных пользовательских задачах способен находить стратегии, которые ни в одном prompt-инженеринговом гайде не описаны. Конкретно: внедрите цикл оценки качества ответов агента через пользовательский feedback — это простейший способ начать двигаться от «предсказание» к «открытие», и это уже возможно с существующими инструментами.

Корпорация с legacy. Для крупных компаний с большими массивами внутренних данных главный барьер — не технология, а постановка задачи. «Найди аномалию в наших данных» или «предложи гипотезу о причине оттока клиентов» — это задачи открытия, а не поиска. Agentic-системы с доступом к инструментам (SQL, Python, векторные БД) и правильным eval-циклом уже способны работать в этом режиме. Инвестиция: несколько месяцев на построение feedback-петли с участием доменных экспертов.

SMB и локальный бизнес в КР/СНГ. Практический вход — через инструменты с встроенным глубоким поиском: Claude с extended thinking, Perplexity в режиме research на задачах анализа. Для небольшой компании «открытие» — это находка неочевидной аудитории, нового канала сбыта, нетривиальной формулировки УТП. LLM в режиме глубокого рассуждения на таких задачах уже сегодня даёт результаты, которые сложно получить иначе без значительных временных затрат.

Кейсы в личной жизни

Разработчик. Используйте модели с extended thinking для архитектурных решений — не как «автодополнение», а как собеседника, которому вы задаёте открытый вопрос: «Какую архитектуру я упускаю из виду?» Это принципиально другой режим взаимодействия — режим поиска, а не воспроизведения. Он уже работает и экономит часы на ревью.

Исследователь или студент. Задача «найди связи между двумя несмежными областями» — идеальная точка входа в режим открытия. Опишите вашу тему и попросите AI-агент найти аналогии из совершенно другой дисциплины. Именно в таких пересечениях часто рождаются новые гипотезы — и современные модели с этим справляются неожиданно хорошо.

Контент-мейкер. «Творчество» в логике Саттона — это не про генерацию текста, а про структуру поиска в пространстве идей. Если вы используете AI только для написания — вы используете малую часть возможностей. Попробуйте иначе: дайте модели описание вашей аудитории и попросите сгенерировать неочевидные углы подачи темы, которые никто в нише не пробовал. Это уже ближе к открытию, чем к автодополнению.

Как применить сегодня

Прочитайте «The Bitter Lesson» Саттона (2019) — это около 1200 слов, которые меняют угол зрения на всю индустрию. Ищите по заголовку.
Попробуйте Claude или o3 в режиме extended thinking на задаче, которая зашла в тупик: задайте открытый вопрос вместо конкретного запроса — «что я упускаю?».
Если строите AI-продукт: добавьте eval-петлю с реальным пользовательским feedback — это первый шаг к RL-циклу и «открывающему» агенту.
Посмотрите интервью Саттона по ссылке в источнике — его манера мышления сама по себе демонстрирует «первые принципы» в действии.
В следующем AI-проекте задайте себе вопрос: «Мой агент ищет в пространстве решений или только воспроизводит обучающую выборку?» — это правильная точка проектирования.

#reinforcement learning #AGI #творчество ИИ #Bitter Lesson #агенты

← Все статьи