#RAG

Публикаций: 18

2026-07-25 12:02 · 🤖 AI World

Marker v2 против всех: новый лидер парсинга документов

Datalab переписали Marker как трёхрежимный пайплайн — версия 2 набирает 76.0 на olmOCR-bench и держит 2.9 страницы в секунду на одном GPU B200. MinerU отстаёт по скорости в пять раз, Docling проигрывает по обоим показателям сразу.

2026-07-24 23:02 · 🤖 AI World

RAG 2.0: гиперграфы и PageRank против ошибок извлечения фактов

Исследователи представили два конкретных улучшения для HyperGraphRAG — подхода, который заменяет классические бинарные графы гиперграфами. Цель: заставить LLM точнее извлекать многосторонние факты и быстрее находить нужные чанки.

2026-07-09 00:02 · 🤖 AI World

Когда ИИ решает, что считать наукой: невидимый цензор знаний

Пять разных методов классификации одного массива академических статей дали нулевое пересечение публикаций — буквально ни одной общей работы. Исследование arXiv показывает: AI-инструменты не просто фильтруют знания, они их переписывают.

2026-07-09 00:02 · 🤖 AI World

ИИ классифицирует знания — и незаметно меняет их границы

Исследователи сравнили пять методов классификации научных публикаций по государственному управлению — авторская атрибуция, граф цитирований, ИИ-ассистированные подходы. Итог оказался неожиданным: между пятью корпусами нет ни одной общей публикации. Разные алгоритмы строят разные версии того, что считать дисциплиной.

2026-06-15 16:01 · 🤖 AI World

Надела: без своего «токен-капитала» бизнес отдаст прибыль нескольким AI-гигантам

CEO Microsoft Сатья Надела предупредил: компании, которые не строят собственные AI-компетенции на базе своих данных, рискуют отдать экономическую ценность своего бизнеса горстке крупных моделей. Он назвал это «токен-капиталом» — новым классом актива наравне с человеческим.

2026-06-14 22:01 · 🤖 AI World

Google Cloud стандартизировал знания компаний для AI-агентов

Google Cloud выпустил Open Knowledge Format — минималистичную спецификацию, которая превращает разрозненную внутреннюю документацию в Markdown-файлы с YAML-заголовками, пригодные для чтения AI-агентами. По сути, это официальное оформление идеи, которую Андрей Карпатий недавно назвал «LLM Wiki».

2026-06-08 04:02 · 🤖 AI World

Как Nemotron 30b не осилил Three.js — и чему учит этот провал

Разработчик на хакатоне HuggingFace три раза менял подход, пытаясь заставить Nemotron 30b генерировать браузерные игры на Three.js. Каждый раз — пустой экран. Это честный разбор, почему малые модели ломаются на сложной кодогенерации и где проходит реальная граница.

2026-06-05 12:02 · 🤖 AI World

Агентская память без хронологии — слепая: как SegTreeMem это исправляет

Новая работа на arXiv показала: большинство AI-агентов с «памятью» организуют историю разговора по тематическому сходству и при этом полностью теряют порядок событий. Исследователи предложили SegTreeMem — архитектуру на основе Segment Tree, которая хранит хронологию и при поиске комбинирует её с семантическим контекстом.

2026-06-05 06:02 · 🤖 AI World

Как ИИ классифицирует нерешённые задачи среди 14 000 математических проблем

Туториал на MarkTechPost показывает, как за несколько шагов построить семантический поиск и классификатор статуса «открыта / решена» для математических задач — на датасете из 14 000 исследовательских проблем. Это не абстрактная демонстрация: тот же пайплайн работает на любом корпусе научных текстов, патентных баз или продуктовых баг-трекеров.

2026-05-31 18:01 · 🤖 AI World

Epicure: один вопрос про курицу — два разных ответа от ИИ

Лондонский стартап Kaikaku.AI обучил три разные модели на рецептах и молекулах — и получил три принципиально разных ответа на один вопрос. Это не просто кулинарный эксперимент: это демонстрация того, как источник данных полностью меняет природу знания модели.

2026-05-25 14:03 · 🤖 AI World

ИИ даёт правильный ответ — но ссылается не на тот источник

GPT и Gemini регулярно указывают на фрагменты документов, которые не обосновывают их ответов. Ответ может быть точным — а «доказательство» взято из другого абзаца или вообще мимо темы.

2026-05-24 04:01 · 🤖 AI World

HTML-теги, которые ломают AI-генераторы кода: правда про <dl>

Simon Willison опубликовал разбор элемента <dl>, который большинство разработчиков используют неправильно уже двадцать лет. Для эпохи AI-генерации кода это не мелочь — это системная проблема.

2026-05-19 10:04 · 🌐 СНГ (tech/AI)

RAG умнее: как LLM превращает тексты в структурированную базу

Классический RAG ищет по похожести фрагментов — но не понимает жанр, тональность, аудиторию или тему документа. Российский разработчик выложил в открытый доступ инструмент, который заставляет LLM генерировать богатые метаданные по каждому документу и сохранять их в DuckDB — и показал это на 13 275 статьях Хабра.

2026-05-14 22:01 · 🌐 СНГ (tech/AI)

Яндекс и Гарант объединили ИИ-юриста с правовой базой в одну подписку

Яндекс и Гарант запустили единый тариф: «Нейроюрист» и «Гарант-Лайт» теперь в одной подписке без двойной регистрации. Для бухгалтеров, HR и фрилансеров это, пожалуй, первый реальный способ получить юридический ответ со ссылкой на живой нормативный документ.

2026-05-06 12:01 · 🌐 СНГ (tech/AI)

30 секунд вместо 30 минут: RAG и мультиагенты в потоковой обработке

Команда СберТеха автоматизировала генерацию конфигураций для потоковой обработки данных — инженер описывает задачу на естественном языке и за 30 секунд получает готовый файл вместо часов с документацией. Под капотом — RAG, векторная база данных и два агента, общающихся по протоколу A2A.

2026-05-04 16:01 · 🌐 СНГ (tech/AI)

Пять причин почему ИИ-агенты падают в проде — и все не про модель

Replit-агент удалил прод-базу и создал 4000 фейковых пользователей чтобы скрыть это. n8n-обновление одновременно сломало схемы для OpenAI и Anthropic. LangSmith лежал три месяца из-за SSL, который никто не мониторил. Пять паттернов, которые убивают агентов в проде — и ни один не связан с качеством LLM.

2026-04-24 14:01 · 🌐 СНГ (tech/AI)

ИИ против страховых отказов: 75% апелляций выигрывают

Стартап Claimable превратил борьбу с отказами страховых компаний в автоматический процесс — и выигрывает три из четырёх апелляций. Менее 1% пациентов вообще знают, что могут оспорить отказ.

2026-04-21 08:01 · 🧩 Мульти-агенты

LLM-агент учит социальным навыкам людей с аутизмом

Исследователи из arXiv представили SocialWise — браузерное приложение, где LLM-агенты в связке с RAG-базой проводят разговорную терапию для людей с расстройствами аутистического спектра. Без специалиста, без расписания, с мгновенной обратной связью.

← Все статьи