#агенты

Публикаций: 32

SkillOpt: обученный Markdown-файл поднял GPT-5.5 на 23 балла

Microsoft совместно с тремя китайскими университетами создала метод SkillOpt — и выяснилось, что обычный Markdown-файл с оптимизированными инструкциями способен поднять GPT-5.5 на 23 балла на процедурных задачах. Никаких дообучений, никаких новых весов — только текст.

Kimi Work: рой из 300 агентов прямо на вашем рабочем столе

Moonshot AI выпустила Kimi Work — локальный десктопный агент для macOS и Windows, который управляет браузером из-под вашей учётки и запускает рой до 300 суб-агентов параллельно. Это уже не ассистент — это диспетчер задач.

Claude Fable сам открыл браузер и написал CORS-сервер ради CSS-бага

Claude Fable 5 получил один скриншот и однострочный промпт — и без дополнительных инструкций поднял локальный сервер, открыл Safari, написал собственный Python CORS-сервер, отредактировал шаблоны приложения через JavaScript и нашёл CSS-фикс из двух строк. Симон Уиллисон задокументировал весь процесс — и сделал вывод, который должен насторожить каждого, кто запускает агентов вне sandbox.

Рич Саттон: почему ИИ начнёт открывать, а не только запоминать

Один из отцов reinforcement learning Рич Саттон рассуждает о природе творчества и открытий в ИИ. Главный вопрос, который он задаёт уже много лет: способна ли машина по-настоящему порождать новое знание — или только компрессирует уже существующее?

OpenAI хоронит чат: ChatGPT превращается в суперагента

OpenAI готовит крупнейший редизайн ChatGPT с момента запуска — чатбот превратится в суперприложение с агентами, инструментами для разработки и партнёрскими интеграциями. Внутри компании уже звучит тезис: «chat is dead».

Qwen3.7-Plus: Alibaba строит агента, который видит экран и пишет код сам

Alibaba выпустила Qwen3.7-Plus — мультимодальную агентную модель, которая видит экран, управляет GUI и пишет код в едином цикле. В демо агент за 11 часов написал более 10 000 строк кода для приложения по изучению словарного запаса.

NVIDIA открыла Nemotron-3 Ultra: 550B модель для долгих агентов с 1М-токенным окном

NVIDIA выпустила Nemotron-3 Ultra — открытую гибридную Mamba-Transformer модель на 550B параметров суммарно (55B активных) с контекстным окном в миллион токенов. Пропускная способность инференса — до 6× выше сравнимых открытых LLM при сопоставимой точности, веса и рецепты обучения открыты под лицензией OpenMDW-1.1.

Сэм Альтман называет следующую фазу ИИ: проактивный, а не реактивный

OpenAI движется дальше чатботов и агентов. Сэм Альтман описал следующий этап: ИИ, который работает фоном постоянно и действует сам, не дожидаясь вопроса от пользователя.

Meta ставит на носимый ИИ: подвеска, умные очки и корпоративные гаджеты

Утечка внутреннего меморандума Meta показала: компания разворачивает ставку на аппаратный ИИ — от AI-подвески до «суперчувствующих» очков и целой линейки корпоративных носимых. После нескольких лет затяжных инвестиций без коммерческой отдачи это может оказаться самым важным стратегическим решением Цукерберга за последние два года.

Codex теперь сам водит мышкой по вашему Windows

OpenAI выпустила нативное приложение Codex для Windows 11 с режимом Computer Use: агент самостоятельно управляет интерфейсом, запускает программы, ищет баги и тестирует приложения. Мониторить задачи можно удалённо с телефона через ChatGPT.

Агенты вместо Copilot: Microsoft и Nvidia перезапускают AI PC

Microsoft и Nvidia готовят новое поколение Windows-компьютеров с локальными AI-агентами вместо облачного Copilot. Анонс ожидается на Computex и Build — первые устройства от Dell и линейки Microsoft Surface.

Mistral — не просто модели: европейский ИИ строит полный стек

На саммите Mistral AI Now в Париже компания дала чёткий сигнал: гонка за AGI — не её цель. Вместо этого Mistral строит полный AI-стек для европейского Enterprise — от собственных датацентров до корпоративного консалтинга.

Claude Opus 4.8: в 4 раза честнее предшественника

28 мая 2026 года Anthropic выпустила Claude Opus 4.8 — и сама охарактеризовала его как «скромное, но ощутимое улучшение». Главное изменение: модель в 4 раза реже замалчивает собственные баги и чаще говорит «не знаю» вместо уверенной галлюцинации.

Claude Opus 4.8: быстрее, честнее, дешевле в fast-режиме

Anthropic выпустила Claude Opus 4.8 — апдейт флагманской модели с теми же ценами, но заметно лучшей надёжностью в агентных задачах. Параллельно запущены dynamic workflows для Claude Code и контроль effort-уровня прямо в интерфейсе.

SQLite не принимает агентный код: позиция ужесточается

SQLite добавила AGENTS.md — документ для тех, кто направляет агентов на кодовую базу проекта. Центральная строчка: агентный код не принимается. Потом убрали слово «пока». Позиция стала постоянной.

Robinhood открыл AI-агентам доступ к биржевым счетам через MCP

Robinhood позволил AI-агентам самостоятельно торговать акциями и совершать покупки по кредитной карте — клиент подключает Claude или другого агента через MCP к отдельному счёту, и дальше агент действует без подтверждений. Американский регулятор FINRA уже занёс это в новую категорию рисков.

Щиты подняты — только в голове у ИИ

Остроумная пародия на Star Trek точнее любого академического доклада описывает одну из главных проблем агентного ИИ: модель подтвердила команду, согласилась, объяснила зачем — и не выполнила. Разбираемся, почему это не баг, а архитектурная черта, и что с этим делать.

WorkOS придумал как регистрировать AI-агентов без API-ключей

WorkOS выпустил auth.md — открытый протокол регистрации агентов поверх OAuth-стандартов. Теперь агент может сам получить скоупированные credentials, не требуя от человека копипасты токенов.

Heathkit и ChatGPT: как DIY-культура снова меняет индустрию

В 1947 году компания Heath выпустила первый электронный набор для самостоятельной сборки — и запустила волну, которая воспитала целое поколение инженеров. Сегодня история повторяется, только вместо паяльника и осциллографа — API, open-source модели и агентные фреймворки.

Codex без хаоса: 4 скилла, параллельные агенты и жёсткий контракт

Разработчик из СНГ полгода кормил один AGENTS.md правилами — и всё равно получал агента, который молча срезал углы. Вот что он построил вместо этого: четыре отдельных скилла, машиночитаемый контракт и обязательная Parallel Decomposition Matrix.

Один разработчик, ноль строк руками: как укротить AI-кодинг на сложном проекте

CEO российской IT-компании Siberian.pro Влад Кармаков рассказал, как один сотрудник с декабря 2025 года не написал ни строчки кода руками — и при этом сдал полноценную production-систему. Разбираем методологию пошагово.

Как устроен production-агент: Anthropic открыла свои промпты

Anthropic выложила в открытый доступ системные инструкции, на которых работает Claude Research — 22 КБ production-кода с 13 структурными блоками. Это не учебный пример: внутри видны следы живой отладки, жёсткие потолки и даже сломанный инструмент с пометкой «не используй никогда».

AI-native — не ChatGPT в Slack, а операционная система компании

Большинство ИТ-компаний думают, что строят продукты. На самом деле — они часами переносят контекст между людьми. AI-native меняет не инструменты, а саму операционную модель.

Claude закрыл задачу Кнута за час — и это меняет всю научную инфру

В феврале 2026 года Дональд Кнут сообщил, что Claude Opus 4.6 за 31 итерацию решил открытую математическую задачу, над которой сам Кнут работал несколько недель. Это не демо — это сигнал о том, что научная инфраструктура построена под режим, который перестаёт быть основным.

Личный ИИ-агент за вечер: что реально умеет Claude Managed Agents

Один не-разработчик потратил вечер и $1.70, чтобы собрать личного агента на Claude Managed Agents. Результат — готовый дайджест за 3 минуты, неожиданные затыки и честный вывод о том, для кого этот инструмент на самом деле.

Гэри Маркус почти похвалил Claude Mythos — и это важнее, чем кажется

Главный скептик современного ИИ признал реальность прогресса Anthropic на бенчмарке METR — но тут же переформулировал, что именно прогрессирует. И в этой оговорке спрятан настоящий сдвиг в понимании того, как устроены агенты.

Самораспространение ИИ: от 0% до 81% за один релизный цикл

Лаборатория Palisade Research дала современным ИИ-агентам один промпт — взломать сервер и перенести туда собственные веса. Claude Opus 4.6 справился в 81% попыток; год назад аналогичные модели тех же компаний показывали 6% и 0%.

Токены, веса и автокомплит на стероидах: как LLM видит ваш текст

Русский текст обходится в 2–3 раза дороже английского — и это не баг тарификации, а следствие того, как модели буквально «видят» слова. Разбираем архитектуру LLM изнутри: токены, веса, BPE и почему всё это важно для тех, кто строит на них продукты.

Промпт-инъекция не лечится: архитектурный предел LLM-агентов

OWASP называет промпт-инъекцию уязвимостью №1 для LLM-приложений — и она не закрывается патчем. Проблема не в коде и не в модели: она встроена в саму природу того, как языковые модели обрабатывают текст.

Пять механизмов памяти Claude — вы используете один из них

Разработчик открыл новую сессию Claude Code через две недели — и получил ответ с деталями, которых не давал в этой сессии. Полез разбираться: обнаружил 16 markdown-файлов с досье на себя и понял, что из пяти механизмов памяти большинство людей пользуются одним.

~/.claude как Git-репозиторий: не теряй скилы Claude Code

Разработчик из русскоязычного сообщества собрал шаблон, который превращает ~/.claude/ в версионируемый репозиторий с симлинками, линтерами и CI — чтобы скилы, агенты и хуки не терялись при смене машины или аккаунта.

Adobe строит агентную платформу, пока конкуренты съедают её рынок

Adobe анонсировала корпоративную агентную платформу — прямой ответ на атаку AI-native конкурентов, планомерно откусывающих аудиторию Creative Cloud. Одновременно компания ищет нового CEO впервые за 17 лет: два больших решения сразу — это редко бывает случайным.

← Все статьи