#NLP

Публикаций: 3

Как ИИ классифицирует нерешённые задачи среди 14 000 математических проблем

Туториал на MarkTechPost показывает, как за несколько шагов построить семантический поиск и классификатор статуса «открыта / решена» для математических задач — на датасете из 14 000 исследовательских проблем. Это не абстрактная демонстрация: тот же пайплайн работает на любом корпусе научных текстов, патентных баз или продуктовых баг-трекеров.

BERTopic + LLM: автоматическая кластеризация тысяч отзывов без разметки

Инженер из Ростелеком ИТ опубликовал подробный разбор пайплайна, который превращает 119 тысяч неразмеченных отзывов в интерпретируемые темы — без единого лейбла вручную. Внутри: FRIDA-эмбеддинги, HDBSCAN, UMAP и локальная LLM для читаемых названий кластеров.

Почему ИИ не может посчитать буквы: токенизация изнутри

LLM видит ваш текст не как буквы и слова, а как токены — и именно это объясняет, почему модель путается в простой арифметике, коверкает слова при перевороте и иногда ведёт себя как сломанный автомат. Разбираем механику изнутри.

← Все статьи