#локальные LLM

Публикаций: 2

Tesla V100 за 25 тысяч: серверная карта 2017 года против RTX 4060 Ti в играх и ИИ

Автор с Хабра засунул серверный ускоритель NVIDIA Tesla V100 16 Гб в корпус от RTX 4090 и прогнал его через современные игры и бенчмарки. Итог неожиданный: в 3D Mark карта 2017 года сравнивается с RTX 4060 Ti 16 Гб — и попутно тянет локальные LLM уровня Qwen 3.6-35b.

Ollama в 3 раза медленнее llama.cpp: как выжать максимум из локальной модели

Запустить локальную LLM через Ollama — просто, но за удобство платишь скоростью: на MoE-моделях llama.cpp генерирует токены в 3 раза быстрее. А стандартный квант Q4_K_M, который грузится по умолчанию везде, давно устарел.

← Все статьи