Despliegue de LLMs locales: vLLM, cuantización e inferencia — LearnFlat

Despliegue de LLMs locales: vLLM, cuantización e inferencia

Aprenda a desplegar modelos de lenguaje extensos de manera eficiente, aplique técnicas de cuantización para reducir los requisitos de hardware y sirva modelos en entornos de producción.

⏱ 1 h 28 min 📚 12 lecciones 🎧 Versión en audio

Sobre este curso

Ejecutar Large Language Models (LLMs) localmente o en producción puede parecer desalentador debido a los masivos requisitos de hardware y configuraciones complejas. A medida que la AI continúa evolucionando, la capacidad de alojar sus propios modelos de manera eficiente se está convirtiendo en una habilidad esencial para desarrolladores y equipos de operaciones. Este curso desglosa el proceso de despliegue y optimización de LLMs, transformándolo de un principiante en alguien capaz de servir modelos de AI de alto rendimiento de manera eficiente. Explorará cómo reducir la huella de memoria y maximizar la velocidad de inferencia utilizando técnicas modernas, asegurando que pueda ejecutar modelos potentes incluso con recursos computacionales limitados. Lo que aprenderá: • Comprender los conceptos fundamentales de la arquitectura de LLM, inferencia y gestión de memoria. • Calcular los requisitos de hardware y estimar las necesidades de VRAM de GPU para varios tamaños de modelo. • Aplicar métodos modernos de cuantización como GGUF, AWQ y GPTQ para optimizar los pesos del modelo. • Configurar y desplegar modelos utilizando vLLM para una inferencia de alto rendimiento y baja latencia. • Crear puntos de conexión REST API estándar para integrar sin problemas modelos locales en sus aplicaciones. • Practicar la contenedorización de sus despliegues de LLM utilizando Docker para entornos consistentes y escalables. El viaje comienza con terminología esencial de AI y conceptos básicos de hardware antes de pasar a ejercicios escritos prácticos centrados en la cuantización y el despliegue. Progresará paso a paso a través de scripts de configuración y patrones de despliegue utilizados en MLOps moderno. Diseñada para desarrolladores de software, aspirantes a ingenieros de DevOps y entusiastas de la tecnología sin experiencia previa en machine learning, esta guía basada en texto solo requiere una comprensión básica de los conceptos de programación. Comience a leer hoy mismo para desarrollar sus habilidades en el despliegue moderno de AI y la optimización de la inferencia.

Lo que obtendrás

  • 📜 Certificado de finalización
    Añádelo a tu perfil de LinkedIn
  • 💬 Tutor AI personal
    ¿Atascado en una lección? Pregúntale a tu tutor integrado lo que quieras, cuando quieras.
  • 🎧 Versión en audio incluida
    Aprende en cualquier momento, sin pantalla
  • ♾️ Acceso de por vida
    Vuelve cuando quieras, sin caducidad
  • 📱 Teléfono o computadora
    Funciona en cualquier dispositivo
  • 💸 Reembolso de 14 días
    Sin preguntas
  • Breve y enfocado
    1 h 28 min de contenido práctico

Reseñas

Aún no hay reseñas — sé el primero en compartir tu experiencia.

Escribir una reseña

Te pediremos iniciar sesión después de enviar — tu borrador se guarda.

Otros también tomaron

Preguntas frecuentes

¿Qué necesito para tomar este curso? +

Solo un teléfono o computadora con internet. Sin instalaciones ni hardware especial.

¿Cómo pago? +

Con tarjeta a través de Stripe. No almacenamos datos de tarjeta — Stripe los gestiona de forma segura.

¿Puedo obtener un reembolso? +

Sí — reembolso completo en 14 días, sin preguntas.

¿Por cuánto tiempo tendré acceso? +

Para siempre. Una vez comprado, el curso es tuyo para revisarlo cuando quieras.

¿Obtendré un certificado? +

Sí. Al finalizar recibirás un certificado que puedes añadir a tu perfil de LinkedIn.

Diseñado para profesionales en
Tecnología Diseño Finanzas Marketing Salud Educación Hostelería Manufactura