#локальные LLM

Публикаций: 2

2026-05-11 04:02 · 🌐 СНГ (tech/AI)

Tesla V100 за 25 тысяч: серверная карта 2017 года против RTX 4060 Ti в играх и ИИ

Автор с Хабра засунул серверный ускоритель NVIDIA Tesla V100 16 Гб в корпус от RTX 4090 и прогнал его через современные игры и бенчмарки. Итог неожиданный: в 3D Mark карта 2017 года сравнивается с RTX 4060 Ti 16 Гб — и попутно тянет локальные LLM уровня Qwen 3.6-35b.

2026-04-24 08:02 · 🌐 СНГ (tech/AI)

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи