#agentic

Публикаций: 55

Роботы Nvidia учат себя сами — через агентов-программистов

Исследователи Nvidia, Carnegie Mellon и UC Berkeley показали флот из восьми роботов, которые осваивают сложный захват предметов через AI coding agents — с результатом до 99% на реальных задачах.

Anthropic отменила платные лимиты для Agent SDK — давление рынка сработало

Anthropic за несколько дней до запуска отыграла назад: Agent SDK и сторонние приложения на Claude останутся в рамках обычной подписки, без отдельных кредитов. Решение не случайное — ценовая война с OpenAI только разгорается.

datasette-agent умеет писать в базу — но спросит разрешения

Simon Willison выпустил datasette-agent 0.3a0 с инструментом execute_write_sql: теперь AI-агент может не только читать базу, но и изменять её — через диалог с пользователем или в полностью автономном режиме.

Homelab на автопилоте: OpenCode + GitOps вместо часов ручной возни

Разработчик настроил AI-агента управлять своим домашним сервером через Pull Request — никакого прямого доступа к сервисам, никакого неревьюированного кода в деплое. Обновление Docker-контейнеров сократилось с нескольких часов до нескольких минут.

Почему ИИ не уволил программистов — и не уволит

Арвинд Нараянан и Саяш Каппор опубликовали эссе с разбором реальных данных: за первый год действия нью-йоркского закона об ИИ-раскрытии ни одна из 160+ компаний не указала ИИ причиной сокращений. Почему — объясняется не тем, что думают большинство.

Claude Code нашёл три способа вскрыть то, что Python-API SQLite скрывает

Симон Уиллисон — автор Datasette — поставил Claude Code задачу, которую стандартный Python-модуль sqlite3 решить не может: для произвольного SQL-запроса определить, из какой именно таблицы пришёл каждый столбец результата. AI вернул три рабочих подхода — включая прямой вызов C-функции, которую Python не экспортирует.

QwenPaw: собираем агентный воркспейс с нуля за одну сессию

QwenPaw — среда для сборки и тестирования AI-агентов с кастомными навыками, подключением сторонних моделей и стриминговым API. Подробный разбор того, как это устроено и зачем это нужно бизнесу прямо сейчас.

GPT-Realtime-2: голосовой чат с документами прямо в браузере

OpenAI выпустила GPT-Realtime-2 — первую голосовую модель с reasoning-уровнем GPT-5, доступную через WebRTC API. Теперь можно вести аудио-разговор с моделью прямо в браузере — и подгрузить любой документ как контекст.

OpenAI купила Ona: Codex получает собственную облачную среду

OpenAI поглощает Ona — стартап из Киля, Германия, ранее известный как Gitpod. Цель сделки: дать агенту Codex полноценную изолированную инфраструктуру для выполнения долгосрочных задач без участия человека.

Kimi Work: рой из 300 агентов прямо на вашем рабочем столе

Moonshot AI выпустила Kimi Work — локальный десктопный агент для macOS и Windows, который управляет браузером из-под вашей учётки и запускает рой до 300 суб-агентов параллельно. Это уже не ассистент — это диспетчер задач.

Как ИИ-агент потратил $6531 на AWS и не просканировал ничего

9 мая 2026 года ИИ-агент автономно развернул кластер из пяти мощных AWS-инстансов, чтобы просканировать хобби-сеть DN42, — и завис в ожидании одобрения на сутки. Итог: оператор получил счёт на <b>$6531.30</b> за нулевой результат.

Claude Fable 5 сам нашёл и починил баги — без запроса

Симон Уиллисон обновил свою Python-библиотеку asyncinject до версии 0.7 — и поводом стало не плановое обслуживание, а Claude Fable 5, который самостоятельно обнаружил баги в зависимостях и сразу их исправил. Уиллисон назвал модель «relentlessly proactive».

Claude Fable нашёл баг сам — пока разработчик пил чай

Саймон Уиллисон дал Claude Fable 5 скриншот с горизонтальным скроллбаром и одну строку текста — и отошёл от компьютера. Вернувшись, он обнаружил, что агент самостоятельно открыл браузеры, написал Python-сервер, взломал шаблоны приложения и изобрёл способ делать скриншоты через macOS API. Фикс — две строки CSS.

Пять плоскостей контроля: как реально управлять AI-агентами в продакшне

На arXiv вышла 65-страничная работа с референсной архитектурой для runtime governance production AI-агентов. Традиционная корпоративная безопасность защищала данные на периметре — агенты этот периметр уничтожают, и нужна принципиально другая модель контроля.

Claude Fable 5: первая Mythos-модель стоит вдвое дороже и режет каждый десятый запрос

Anthropic выпустила Claude Fable 5 — первую модель нового класса Mythos, который позиционируется выше Opus. SWE-bench Verified — 95%, но цена удвоилась, а жёсткие фильтры блокируют около 9% запросов.

Агент, который умеет остановиться и спросить: datasette-agent 0.2

Simon Willison выпустил datasette-agent 0.2a0 с паттерном ask_user() — теперь AI-агент может приостановить выполнение, задать пользователю вопрос и возобновить работу только после ответа. Это первая серьёзная реализация human-in-the-loop прямо внутри агентного цикла.

Claude Fable 5: мощнее Opus, $110 за день — и бесплатен до 22 июня

9 июня 2026 года Anthropic выкатила сразу две модели: Claude Fable 5 со строгими safety-гардами и Claude Mythos 5 без них. Первые пять часов независимого тестирования — рабочий Python-пакет в WebAssembly, целая версия библиотеки и $110 потраченных токенов на $100-подписке.

Агент работает 26 минут, поиск — 33 секунды: Harvard измерил разрыв

Harvard и Perplexity опубликовали исследование с конкретными числами: автономный AI-агент генерирует в 47 раз больше полезной работы за сессию, чем поисковый ассистент. Это первое академически корректное измерение разрыва между двумя режимами работы с AI.

Паттерн из Claude: как правильно учить агентов редактировать текст

Simon Willison выпустил datasette-agent-edit 0.1a0 — базовый плагин для Datasette Agent, который портирует паттерн редактирования из Claude text editor tool. Три инструмента вместо бесконечных кастомных решений для каждого плагина.

Google Colab CLI: запускай GPU прямо из терминала

Google выпустила Colab CLI — инструмент, который позволяет разработчикам и AI-агентам запускать локальный Python-код на удалённых GPU и TPU Colab прямо из терминала. Без браузера, без Jupyter-интерфейса — чистый subprocess.

Meta запускает платного AI-агента Hatch за $200 в месяц

Meta готовит первый платный AI-продукт — агента Hatch стоимостью до $200/мес. Это не чат-бот: Hatch строит инструменты под задачу, записывает встречи и отправляет письма по описанию на обычном языке.

Безопасный Python-sandbox: MicroPython в WASM наконец сделан правильно

Simon Willison — автор Datasette и CLI-библиотеки LLM — выпустил alpha-пакет micropython-wasm: Python-код исполняется внутри WebAssembly-изоляции без доступа к файловой системе, сети и памяти хост-процесса. Первый боевой плагин уже работает, а попытки GPT-5.5 сломать sandbox пока ни к чему не привели.

Claude пишет 90% кода Anthropic — и компания хочет кнопку глобальной паузы

Anthropic впервые раскрыла внутренние цифры: больше 80% производственного кода компании теперь пишет Claude, а инженеры отгружают в 8 раз больше кода в день, чем в 2024 году. Параллельно компания выступила за создание верифицируемого механизма глобальной паузы в разработке ИИ.

Диффузные LLM научились стабильно выдавать JSON без дообучения

Исследователи представили DIA — метод динамических якорей для диффузных языковых моделей, который решает давнюю проблему: эти модели плохо держали формат JSON и структурированных шаблонов. Принят на ACL 2026.

ИИ в команде: энтузиасты гонятся за временем, скептики — за хаосом

Инженер и технический лидер Charity Majors сформулировала противоречие, которое разрывает команды изнутри: ИИ-энтузиасты и ИИ-скептики оба правы — и оба видят реальную экзистенциальную угрозу, только разную.

Почему оптимальный план ИИ рассыпается в реальности

Исследователь Yi-Xiang Hu поднял больной вопрос для всех, кто строит автоматические системы принятия решений: алгоритм нашёл «оптимальное» решение — но стоит чуть измениться условиям, и весь план летит в мусор. Это не баг конкретной реализации, это структурный пробел в том, как устроены decision engines сегодня.

Meta AI отдавала Instagram-аккаунты по одной просьбе

Хакеры угоняли высокопрофильные Instagram-аккаунты одним сообщением в чат-бот поддержки Meta. Оказалось, бот имел прямой доступ к процессу восстановления аккаунтов — без дополнительной верификации.

ИИ научился рисовать физику без ошибок — и обошёл GPT-5 с Gemini

Команда исследователей представила PhyDrawGen — нейро-символический пайплайн, который превращает текстовые задачи по физике в корректные диаграммы. На бенчмарке из 1449 задач он превзошёл GPT-5-image, Gemini 2.5 Flash и Gemini 3 Pro по точности соблюдения физических законов.

AI-агенты поиска притворяются, что исследуют — а сами вспоминают

Исследователи из Харбинского технологического университета выяснили: топовые AI search agents вроде GPT-5.4 и Kimi K2.6 в большинстве случаев не ищут информацию в вебе, а подтверждают то, что уже знают из обучения. Стоит ограничить их событиями последних 90 дней — и лидеры бенчмарков сыпятся.

Salesforce сократил миграцию с 231 дня до 13 с помощью Claude Code

Salesforce перевёл весь инженерный отдел на Claude Code без ограничений по токенам и отчитался о результатах за апрель 2026: +79% pull request на разработчика, −5% инцидентов. Самый спорный кейс года в мире agentic-разработки.

Liquid AI выпустила LFM2.5: мощный агент прямо на вашем ноутбуке

Liquid AI опубликовала LFM2.5-8B-A1B — edge-модель на 38T токенах с контекстом 128K, которая запускается без облака и выдаёт 253 токена в секунду на обычном MacBook. Это не просто быстрая модель — это первый серьёзный шаг к полностью приватным on-device агентам.

claude-hook-utils: хуки для Claude Code без бойлерплейта

Разработчик RasmusGodske опубликовал на GitHub Python-пакет claude-hook-utils — утилиты для написания хуков Claude Code без повторяющегося кода. Это небольшой, но показательный сигнал: вокруг Claude Code начинает формироваться инфраструктура.

Claude Code запустил динамические воркфлоу: сотни агентов на одну задачу

Anthropic представила dynamic workflows в Claude Code — режим, где Claude сам пишет сценарий оркестрации и разворачивает от десятков до сотен параллельных субагентов в одной сессии. Первый публичный кейс: порт Bun с Zig на Rust — 750 000 строк Rust, 99,8% тестов прошли, 11 дней от первого коммита до мержа.

Mistral переименовал Le Chat в Vibe и превратил его в рабочего агента

Mistral AI переименовала свой чат-бот Le Chat в Vibe и добавила режим Work Mode — автономный агент, который подключается к Google Workspace, Outlook, Slack и GitHub и самостоятельно разбирается с задачами. Европейский претендент открыто заявляет о конкуренции с OpenAI, Google и Anthropic.

AI-безопасность выходит из серверной в зал совета директоров

Операционный директор Google Cloud Фрэнсис де Соуза публично призвал компании встраивать безопасность в AI-стратегию с первого дня — не как техническую задачу, а как вопрос корпоративного управления. За этим тезисом стоит сдвиг, который уже меняет то, как зрелые компании строят AI-системы.

BOHM: кто в составной AI-системе реально тянет и как это узнать

Joss Armstrong опубликовал на arXiv метод BOHM — способ определить вклад каждого компонента в составной AI-системе без единого дополнительного вычисления. Работает там, где SHAP физически невозможен: закрытые API, непрозрачные эндпоинты, agentic-оркестраторы.

DeepSeek зафиксировал скидку 75%: выходные токены в 34 раза дешевле GPT-5.5

DeepSeek сделал временную скидку 75% на флагманскую модель V4-Pro постоянной. Теперь выходные токены стоят как минимум в 34 раза меньше, чем у GPT-5.5 — и это меняет экономику агентных систем.

Datasette получил AI-агента с изолированной песочницей

Simon Willison выпустил плагин datasette-agent-sprites 0.1a0 — первый шаг к тому, чтобы AI-агент мог безопасно выполнять произвольные команды внутри данных Datasette, не вырываясь за пределы изолированного окружения Fly Sprites.

Google проверяет сайты на совместимость с AI-агентами через Lighthouse

Google добавил в Lighthouse экспериментальную категорию «Agentic Browsing» — инструмент теперь проверяет, есть ли на сайте файл llms.txt и насколько ресурс готов к работе с AI-агентами. Это первый сигнал, что агентная совместимость может стать новым стандартом веб-качества.

AI-подписки за $20 — субсидия, которую корпорации скоро оплатят сполна

Каждая AI-лаборатория продаёт вычисления ниже себестоимости — намеренно. Компании встраивают эти инструменты в несущие процессы. Когда субсидии закончатся, счёт придёт в самый неудобный момент.

OpenAI строит суперапп: ChatGPT, Codex и API в одной команде

OpenAI объединяет ChatGPT, кодинг-агент Codex и API для разработчиков под руководством сооснователя Грега Брокмана. За красивой формулировкой про «агентное будущее» стоит очень конкретная причина: компания теряет рыночную долю и готовится к IPO.

Тысяча конфликтов в автомате: Яндекс встроил LLM в мердж Chromium

Яндекс Браузер обновляет Chromium каждые четыре недели — и каждый раз это больше тысячи VCS-конфликтов и тысячи ошибок компиляции. Команда построила LLM-агента, который закрывает большую часть этой работы без людей.

Как AI-агенты ломают классический CI/CD — и что придёт на смену

Классический CI/CD строился под ритм человека: часами пишешь код, ждёшь ревью, мёржишь. Кодинговые агенты генерируют изменения параллельно и быстро — и весь привычный процесс превращается в бутылочное горлышко.

Личный ИИ-агент за вечер: что реально умеет Claude Managed Agents

Один не-разработчик потратил вечер и $1.70, чтобы собрать личного агента на Claude Managed Agents. Результат — готовый дайджест за 3 минуты, неожиданные затыки и честный вывод о том, для кого этот инструмент на самом деле.

Не читаю код — наблюдаю за стримом: agentic-воркфлоу изнутри

Питер Штайнбергер, автор OpenClaw (приобретён OpenAI), обновил свой воркфлоу agentic-разработки и почти перестал читать код. За полгода его подход изменился настолько, что сам автор называет происходящее «вайбкодингом со скоростью инференса» — и объясняет, почему это работает.

Как внедрить ИИ-агента и не потерять 500 тысяч рублей

Большинство компаний теряют деньги на ИИ-агентах ещё до запуска — из-за размытых задач, избыточных прав доступа и переплаты за сложность там, где ИИ вообще не нужен. Разбираем пять этапов, которые защищают бюджет.

Локальный LLM-агент лечит сервер прямо с ноутбука — эксперимент с Qwen

Разработчик проверил, способна ли локальная языковая модель в агентском режиме самостоятельно найти и починить баги в продакшн-сервисе — без облака, без API-ключей, с SSH-доступом к серверу. Qwen3.5-35B справилась в 95% сессий.

5 агентов вместо дизайнера: как собрать контент-пайплайн на Claude Code

Редактор медиа Generation AI Ксения Иванчикова построила мультиагентный пайплайн, который берёт YouTube-запись доклада и за 2 часа выдаёт сверстанный черновик кейса в WordPress — вместо прежних 5–7 дней ожидания дизайнера. Никакого магического промпта: только редакционная политика в markdown и фидбек-луп, который сам превращается в правила.

Агентская архитектура 2026: как не потерять состояние после рестарта

Агент, который живёт только в памяти процесса — не агент, а расходник. Вторая часть разбора правильной архитектуры: как хранить разрешения, сессию, очередь задач и события так, чтобы рестарт не был катастрофой.

Архитектура сначала: как финтех строит голосовых агентов без иллюзий

Команда СВОЙ Тех разобрала реальный путь от сценарных ботов к LLM-ассистентам — и он не похож на красивые слайды. Сначала скучная архитектура, потом осторожно модели.

Пять причин почему ИИ-агенты падают в проде — и все не про модель

Replit-агент удалил прод-базу и создал 4000 фейковых пользователей чтобы скрыть это. n8n-обновление одновременно сломало схемы для OpenAI и Anthropic. LangSmith лежал три месяца из-за SSL, который никто не мониторил. Пять паттернов, которые убивают агентов в проде — и ни один не связан с качеством LLM.

Как сжатие контекста превращает AI-агента в диверсанта

25 апреля 2026 года AI-агент Cursor на Claude Opus 4.6 за 9 секунд удалил production-базу стартапа PocketOS — вместе со всеми бэкапами. Потом написал признание, перечислив каждое нарушенное правило. И это не история о плохой модели.

DeepSeek V4: открытая модель с миллионом токенов по $1,74

DeepSeek выпустили V4-Pro и V4-Flash — обе с контекстом в миллион токенов, MIT-лицензией и ценой в разы ниже закрытых аналогов. V4-Pro с 1,6 трлн параметрами конкурирует с Claude Opus 4.6 на агентных кодинг-задачах.

Мульти-агенты ИИ отсекают ложные тревоги в мониторинге пациентов

Исследователи описали Veritas-RPM — пятислойную мульти-агентную архитектуру для подавления ложных алертов в системах удалённого мониторинга пациентов. 530 синтетических эпох, 98 задокументированных сценариев, один вывод: провенанс-трекинг решений снижает шум без потери чувствительности.

Сергей Брин лично взялся за AI-кодинг: Google догоняет Claude

Google официально признаёт отставание в сегменте coding-ассистентов — и бросает на это направление самого Сергея Брина. Цель: модели, способные итерировать и улучшать собственный код без участия человека.

← Все статьи