Artículo

🧠 Píldoras LLM #10 — La Api de Inferencia

Pildoras LLM 10

Se corresponde con el capítulo 1 del curso de Hugging Face

🔗 ✨ Ver cuaderno en 🟠 Google Colab


⚙️ ¿Qué es la API de Inferencia?

Una de las formas más sencillas de probar un modelo directamente desde tu navegador es mediante la API de Inferencia de Hugging Face. Esta API alimenta el widget interactivo que has visto en las páginas de cada modelo y te permite:

  • Probar rápidamente cómo responde un modelo a tu texto.
  • Evaluar su comportamiento sin necesidad de instalar nada.
  • Explorar resultados antes de integrarlo en tu aplicación.

🌐 Puedes hacerlo desde la web: https://huggingface.co


🧪 Cómo funciona

En la página de cualquier modelo verás un cuadro de prueba. Solo tienes que:

  1. Escribir tu propio texto o prompt.
  2. Ejecutar la inferencia directamente en el navegador.
  3. Observar cómo el modelo procesa y genera la respuesta.

💡 Esto es ideal para experimentación rápida sin necesidad de código.

Pildoras  LLM 10


🧰 API de Inferencia como servicio

La misma tecnología que alimenta el widget también está disponible como producto profesional. Esto significa que puedes integrarla en tus aplicaciones, automatizaciones o flujos de trabajo para usar modelos de Hugging Face en producción.

Consulta planes y precios aquí 👉 https://huggingface.co/pricing


💼 Planes disponibles (abril 2025)

🆓 Plan Gratuito (Forever Free)

  • Hospedaje ilimitado de modelos y datasets públicos.
  • Creación de organizaciones sin límite de miembros.
  • Acceso a herramientas de código abierto.
  • Soporte comunitario.
  • Uso gratuito de Spaces con CPU básica.

💻 Plan PRO — $9/mes

  • Acceso a GPU compartidas (ZeroGPU) con prioridad.
  • Modo de desarrollo para Spaces con SSH o VS Code.
  • $2 en créditos mensuales para inferencias.
  • Publicación de artículos en el blog de Hugging Face.
  • Acceso anticipado a nuevas funcionalidades.
  • Visor de datasets privados.
  • Insignia PRO en tu perfil.

🏢 Plan Enterprise — desde $20/usuario/mes

  • Seguridad y gestión:

    • Inicio de sesión único (SSO/SAML)
    • Registros de auditoría y control de acceso
    • Gestión centralizada de tokens
  • Infraestructura avanzada:

    • Acceso a hardware mejorado
    • 5× más cuota de ZeroGPU
    • Despliegue en infraestructura propia

Soporte:

+ Soporte prioritario
+ Facturación gestionada y contratos anuales

☁️ Servicios adicionales

+ 🔌 Hardware para Spaces

    + CPU básica — Gratis
    + CPU mejorada — $0.03/h
    + GPU T4 — $0.40/h
    + GPU A100 — $4.00/h

+ 📦 Almacenamiento persistente

    + Pequeño (20 GB) — $5/mes
    + Mediano (150 GB) — $25/mes
    + Grande (1 TB) — $100/mes

🔄 Inference Endpoints

    + Despliegue con escalado automático
    + CPU — desde $0.032/h
    + GPU T4 — $0.50/h
    + GPU A100 — $4.00/h
    + Compatibilidad con AWS, Azure y GCP
    + Preparado para producción y seguro

💡 Consejo práctico

Usa la API de Inferencia cuando necesites:

  • Probar rápidamente un modelo sin instalar dependencias.
  • Prototipar funcionalidades con LLMs.
  • Escalar a producción sin preocuparte por la infraestructura.

Para proyectos reales, el salto del widget al uso en endpoints gestionados puede marcar una gran diferencia en rendimiento, seguridad y escalabilidad.

Siguiente Entrada