Fine-Tuning LLMs with GRPO: Reinforcement Learning for Better Reasoning
Enhance large language model reasoning capabilities by implementing Group Relative Policy Optimization and custom reward functions to guide model outputs.
Sobre este curso
Lo que obtendrás
-
📜
Certificado de finalización
Añádelo a tu perfil de LinkedIn -
💬
Tutor AI personal
¿Atascado en una lección? Pregúntale a tu tutor integrado lo que quieras, cuando quieras. -
🎧
Versión en audio incluida
Aprende en cualquier momento, sin pantalla -
♾️
Acceso de por vida
Vuelve cuando quieras, sin caducidad -
📱
Teléfono o computadora
Funciona en cualquier dispositivo -
💸
Reembolso de 14 días
Sin preguntas -
⚡
Breve y enfocado
1 h 38 min de contenido práctico
Reseñas
Aún no hay reseñas — sé el primero en compartir tu experiencia.
Otros también tomaron
Fundamentos de Aprendizaje por Refuerzo Profundo
Aprendizaje por Refuerzo: Predicción y Control con Aproximación de Funciones
Introducción al Aprendizaje por Refuerzo: De Q-Learning a Deep RL
Aprendizaje profundo por refuerzo en Python: una introducción moderna
Preguntas frecuentes
¿Qué necesito para tomar este curso? +
Solo un teléfono o computadora con internet. Sin instalaciones ni hardware especial.
¿Cómo pago? +
Con tarjeta a través de Stripe. No almacenamos datos de tarjeta — Stripe los gestiona de forma segura.
¿Puedo obtener un reembolso? +
Sí — reembolso completo en 14 días, sin preguntas.
¿Por cuánto tiempo tendré acceso? +
Para siempre. Una vez comprado, el curso es tuyo para revisarlo cuando quieras.
¿Obtendré un certificado? +
Sí. Al finalizar recibirás un certificado que puedes añadir a tu perfil de LinkedIn.
Recarga una vez, paga la mitad
Añade S/ 340 → obtén 200 créditos. Cada clase cuesta S/ 42.50 en lugar de S/ 90.00. Los créditos nunca caducan.
Sin suscripción. Los créditos sirven para cualquier clase y no caducan.