Open source · MIT · Sin coste

Qué LLM corre en tu GPU y a cuántos tok/s.

inferbench descarga, arranca y benchmarkea LLMs locales en un click. Sin Docker, sin terminal. Mide de verdad.

Descargar gratis Ver en GitHub

✓ Windows · macOS · Linux✓ Sin Python ni Node✓ 100% local y privado

inferbench · Benchmark en vivo LIVE

Qwen3 30B-A3B · MoE

Q4_K_M

llama.cpp · nativo · ctx 8192 · -fa · -ctk q8_0

tok/s

0.0

TTFT

— ms

VRAM

0.0 GB

Descargando GGUF…0%

$ inferbench run --auto

Demo ilustrativa de la vista de benchmark.

Demo

Míralo en acción

Hardware, optimización, benchmark en vivo, comparación de runs y Serve/MCP — todo en tu equipo.

inferbench en acción: hardware detectado, catálogo con optimización, benchmark en vivo con tok/s, comparación de runs y Serve/MCP con generación de imagen

Cifras de benchmark reales, sin edición.

124

modelos verificados

sistemas: Win · macOS · Linux

~4 ms

listado de compatibilidad

datos enviados a la nube

El flujo

De cero a resultados reales en 5 pasos

Eliges modelo

Del catálogo o tus GGUF locales.

Descarga el motor

Binario oficial + GGUF de Hugging Face.

Arranca optimizado

Config óptima auto-calculada para tu GPU.

Benchmark en vivo

TTFT, tok/s, VRAM y calidad en tiempo real.

Compara y decide

Runs guardados, comparables lado a lado.

Características

Todo para tunear inferencia local

⚡

Auto-bootstrap de un click

Motor, GGUF, config óptima y benchmark. End-to-end.

🧩

Detección de hardware

CPU, RAM y GPU. Compatibilidad de 124 modelos en ~4 ms.

📦

Modo nativo, sin Docker

Release oficial + CUDA + DLLs auto. Docker opcional.

🗂️

Catálogo de 124 modelos

Llama, Qwen, Gemma, Mistral, Phi, DeepSeek… verificados.

🪄

Optimizador automático

Quant, KV-cache, contexto, MoE offload y flags. Sobrescribible.

🗜️

Compresión KV explicada

5 presets, con qué cabe en TU GPU en cada nivel.

📈

Métricas reales en vivo

TTFT, tok/s y VRAM medidos vía SSE. Nada simulado.

⚖️

Sweep y comparación

N cuantizaciones en cola, runs comparables con gráficos.

🛡️

100% local y privado

Sin telemetría, sin cuenta, sin servidor. MIT.

Catálogo

124 modelos verificados, cero inventados

Cada entrada se comprueba contra Hugging Face: el repo GGUF existe y el Q4_K_M resuelve.

Llama 3.xQwen 2.5 / 3Gemma 2 / 3Mistral · MixtralPhi 2-4DeepSeek R1QwQ 32BVisión (VL)CódigoMoE 30B-A3BGraniteCommand-R

Además escanea tus GGUF locales (LM Studio, Ollama, caché HF).

Motores soportados

Motor	Tipo	Nativo	Docker	Auto-descarga
llama.cpp	local	✅	✅	✅ HF GGUF
ollama	local	✅	✅	✅ registro
vLLM	local	—	✅ GPU	✅ HF
SGLang	local	—	✅ GPU	✅ HF
TGI	local	—	✅ GPU	✅ HF
OpenAI / Anthropic	API	n/a	n/a	n/a
OpenRouter / NVIDIA	API	n/a	n/a	n/a

llama.cpp/ollama nativos; vLLM/SGLang/TGI vía Docker + GPU NVIDIA. APIs cloud con tu key.

Calidad

No solo velocidad: también calidad, en 3 modos

TTFT y tok/s siempre reales. La nota de calidad (0-100) la eliges tú.

Referencia (offline)

Por defecto

Compara contra la referencia. Python puro, sin GPU ni red.

LLM-judge local

Opcional

El motor puntúa con rúbrica 0-100. Fiable con modelos ≥7-8B.

LLM-judge por API

Más fiable

Un modelo cloud juzga imparcial. Requiere API key.

Descarga

Descárgalo gratis

Sin Python ni Node: el backend va embebido. Detectamos tu sistema.

⬇️ Descargar para tu sistema
InferBench · v0.1.1

🪟 Windows · .exe 🍎 macOS · .dmg (Apple Silicon) 🐧 Linux · .AppImage

v0.1.1 · ¿otra versión o compilar tú? Todas las releases →

Deja de adivinar. Mídelo.

Qué cuantización entra, a cuántos tok/s y qué motor gana en tu hardware — con datos reales, en local.

Descargar inferbench ⭐ Estrella en GitHub