Open source · MIT · Sin coste

Qué LLM corre en tu GPU y a cuántos tok/s.

inferbench descarga, arranca y benchmarkea LLMs locales en un click. Sin Docker, sin terminal. Mide de verdad.

✓ Windows · macOS · Linux✓ Sin Python ni Node✓ 100% local y privado
inferbench · Benchmark en vivo LIVE
Qwen3 30B-A3B · MoE
Q4_K_M
llama.cpp · nativo · ctx 8192 · -fa · -ctk q8_0
tok/s
0.0
TTFT
ms
VRAM
0.0 GB
Descargando GGUF…0%
$ inferbench run --auto

Demo ilustrativa de la vista de benchmark.

Demo

Míralo en acción

Hardware, optimización, benchmark en vivo, comparación de runs y Serve/MCP — todo en tu equipo.

inferbench en acción: hardware detectado, catálogo con optimización, benchmark en vivo con tok/s, comparación de runs y Serve/MCP con generación de imagen

Cifras de benchmark reales, sin edición.

124
modelos verificados
3
sistemas: Win · macOS · Linux
~4 ms
listado de compatibilidad
0
datos enviados a la nube
El flujo

De cero a resultados reales en 5 pasos

01

Eliges modelo

Del catálogo o tus GGUF locales.

02

Descarga el motor

Binario oficial + GGUF de Hugging Face.

03

Arranca optimizado

Config óptima auto-calculada para tu GPU.

04

Benchmark en vivo

TTFT, tok/s, VRAM y calidad en tiempo real.

05

Compara y decide

Runs guardados, comparables lado a lado.

Características

Todo para tunear inferencia local

Auto-bootstrap de un click

Motor, GGUF, config óptima y benchmark. End-to-end.

🧩

Detección de hardware

CPU, RAM y GPU. Compatibilidad de 124 modelos en ~4 ms.

📦

Modo nativo, sin Docker

Release oficial + CUDA + DLLs auto. Docker opcional.

🗂️

Catálogo de 124 modelos

Llama, Qwen, Gemma, Mistral, Phi, DeepSeek… verificados.

🪄

Optimizador automático

Quant, KV-cache, contexto, MoE offload y flags. Sobrescribible.

🗜️

Compresión KV explicada

5 presets, con qué cabe en TU GPU en cada nivel.

📈

Métricas reales en vivo

TTFT, tok/s y VRAM medidos vía SSE. Nada simulado.

⚖️

Sweep y comparación

N cuantizaciones en cola, runs comparables con gráficos.

🛡️

100% local y privado

Sin telemetría, sin cuenta, sin servidor. MIT.

Catálogo

124 modelos verificados, cero inventados

Cada entrada se comprueba contra Hugging Face: el repo GGUF existe y el Q4_K_M resuelve.

Llama 3.xQwen 2.5 / 3Gemma 2 / 3Mistral · MixtralPhi 2-4DeepSeek R1QwQ 32BVisión (VL)CódigoMoE 30B-A3BGraniteCommand-R

Además escanea tus GGUF locales (LM Studio, Ollama, caché HF).

Motores soportados
MotorTipoNativoDockerAuto-descarga
llama.cpplocal✅ HF GGUF
ollamalocal✅ registro
vLLMlocal✅ GPU✅ HF
SGLanglocal✅ GPU✅ HF
TGIlocal✅ GPU✅ HF
OpenAI / AnthropicAPIn/an/an/a
OpenRouter / NVIDIAAPIn/an/an/a
llama.cpp/ollama nativos; vLLM/SGLang/TGI vía Docker + GPU NVIDIA. APIs cloud con tu key.
Calidad

No solo velocidad: también calidad, en 3 modos

TTFT y tok/s siempre reales. La nota de calidad (0-100) la eliges tú.

Referencia (offline)

Por defecto

Compara contra la referencia. Python puro, sin GPU ni red.

LLM-judge local

Opcional

El motor puntúa con rúbrica 0-100. Fiable con modelos ≥7-8B.

LLM-judge por API

Más fiable

Un modelo cloud juzga imparcial. Requiere API key.

Descarga

Descárgalo gratis

Sin Python ni Node: el backend va embebido. Detectamos tu sistema.

Deja de adivinar. Mídelo.

Qué cuantización entra, a cuántos tok/s y qué motor gana en tu hardware — con datos reales, en local.