Qué LLM corre en tu GPU y a cuántos tok/s.
inferbench descarga, arranca y benchmarkea LLMs locales en un click. Sin Docker, sin terminal. Mide de verdad.
Demo ilustrativa de la vista de benchmark.
Míralo en acción
Hardware, optimización, benchmark en vivo, comparación de runs y Serve/MCP — todo en tu equipo.
Cifras de benchmark reales, sin edición.
De cero a resultados reales en 5 pasos
Eliges modelo
Del catálogo o tus GGUF locales.
Descarga el motor
Binario oficial + GGUF de Hugging Face.
Arranca optimizado
Config óptima auto-calculada para tu GPU.
Benchmark en vivo
TTFT, tok/s, VRAM y calidad en tiempo real.
Compara y decide
Runs guardados, comparables lado a lado.
Todo para tunear inferencia local
Auto-bootstrap de un click
Motor, GGUF, config óptima y benchmark. End-to-end.
Detección de hardware
CPU, RAM y GPU. Compatibilidad de 124 modelos en ~4 ms.
Modo nativo, sin Docker
Release oficial + CUDA + DLLs auto. Docker opcional.
Catálogo de 124 modelos
Llama, Qwen, Gemma, Mistral, Phi, DeepSeek… verificados.
Optimizador automático
Quant, KV-cache, contexto, MoE offload y flags. Sobrescribible.
Compresión KV explicada
5 presets, con qué cabe en TU GPU en cada nivel.
Métricas reales en vivo
TTFT, tok/s y VRAM medidos vía SSE. Nada simulado.
Sweep y comparación
N cuantizaciones en cola, runs comparables con gráficos.
100% local y privado
Sin telemetría, sin cuenta, sin servidor. MIT.
124 modelos verificados, cero inventados
Cada entrada se comprueba contra Hugging Face: el repo GGUF existe y el Q4_K_M resuelve.
Además escanea tus GGUF locales (LM Studio, Ollama, caché HF).
No solo velocidad: también calidad, en 3 modos
TTFT y tok/s siempre reales. La nota de calidad (0-100) la eliges tú.
Referencia (offline)
Por defectoCompara contra la referencia. Python puro, sin GPU ni red.
LLM-judge local
OpcionalEl motor puntúa con rúbrica 0-100. Fiable con modelos ≥7-8B.
LLM-judge por API
Más fiableUn modelo cloud juzga imparcial. Requiere API key.
Descárgalo gratis
Sin Python ni Node: el backend va embebido. Detectamos tu sistema.
InferBench · v0.1.1
v0.1.1 · ¿otra versión o compilar tú? Todas las releases →
Deja de adivinar. Mídelo.
Qué cuantización entra, a cuántos tok/s y qué motor gana en tu hardware — con datos reales, en local.