Construcción de aplicaciones de AI multimodales: Speech-to-Text y LLMs — LearnFlat

Construcción de aplicaciones de AI multimodales: Speech-to-Text y LLMs

Una guía para principiantes para que los desarrolladores integren reconocimiento de voz, análisis de imágenes y LLMs multimodales en aplicaciones modernas utilizando APIs estándar y patrones de AI actuales.

⏱ 1 h 53 min 📚 9 lecciones

Sobre este curso

Las aplicaciones modernas están yendo más allá del simple texto. Al integrar capacidades de procesamiento de voz, imagen y video, los desarrolladores pueden crear experiencias de usuario altamente interactivas e inteligentes. Este curso proporciona una comprensión fundamental de los Large Language Models (LLMs) multimodales y las tecnologías de speech-to-text. Aprenderás a escribir código que interactúa con modelos de AI para transcribir audio, analizar datos visuales y generar respuestas inteligentes, transformando aplicaciones estándar en potentes herramientas impulsadas por AI. Lo que aprenderás: - Comprender los conceptos básicos de la AI multimodal y cómo los modelos procesan diferentes tipos de datos; - Escribir código para integrar APIs de speech-to-text para una transcripción de audio precisa; - Procesar y analizar imágenes y fotogramas de video utilizando capacidades modernas de LLM; - Aplicar técnicas fundamentales de prompt engineering adaptadas para entradas multimodales; - Implementar patrones básicos de Retrieval-Augmented Generation (RAG) para medios enriquecidos; - Construir scripts basados en texto que orquesten flujos de trabajo de AI complejos de manera fluida. El plan de estudios comienza con terminología esencial de AI y conceptos fundamentales antes de pasar a la integración práctica de APIs y el manejo de datos. Progresarás a través de lecciones escritas estructuradas y fragmentos de código que aumentarán tu confianza en el manejo programático de varios tipos de medios. Este curso está diseñado para desarrolladores principiantes e ingenieros fullstack que buscan ingresar al espacio de la AI sin necesidad de experiencia previa en machine learning. Comienza a leer hoy mismo para desbloquear el potencial de la AI multimodal en tu próximo proyecto de desarrollo.

Lo que obtendrás

  • 📜 Certificado de finalización
    Añádelo a tu perfil de LinkedIn
  • 💬 Tutor AI personal
    ¿Atascado en una lección? Pregúntale a tu tutor integrado lo que quieras, cuando quieras.
  • ♾️ Acceso de por vida
    Vuelve cuando quieras, sin caducidad
  • 📱 Teléfono o computadora
    Funciona en cualquier dispositivo
  • 💸 Reembolso de 14 días
    Sin preguntas
  • Breve y enfocado
    1 h 53 min de contenido práctico

Reseñas (1)

Cemile Karaca TR Estudiante verificado
★ 5 · 2026-04-03T09:38:44+00:00

Konuşmayı metne çevirip multimodal LLM'e bağladığım ilk uygulamayı kurmak şaşırtıcı derecede kolaydı, başlangıç için harika.

Escribir una reseña

Te pediremos iniciar sesión después de enviar — tu borrador se guarda.

Otros también tomaron

Preguntas frecuentes

¿Qué necesito para tomar este curso? +

Solo un teléfono o computadora con internet. Sin instalaciones ni hardware especial.

¿Cómo pago? +

Con tarjeta a través de Stripe. No almacenamos datos de tarjeta — Stripe los gestiona de forma segura.

¿Puedo obtener un reembolso? +

Sí — reembolso completo en 14 días, sin preguntas.

¿Por cuánto tiempo tendré acceso? +

Para siempre. Una vez comprado, el curso es tuyo para revisarlo cuando quieras.

¿Obtendré un certificado? +

Sí. Al finalizar recibirás un certificado que puedes añadir a tu perfil de LinkedIn.

Diseñado para profesionales en
Tecnología Diseño Finanzas Marketing Salud Educación Hostelería Manufactura