Catálogo · Inteligencia Artificial · IA Generativa

Construcción de aplicaciones de AI multimodales: Speech-to-Text y LLMs

Name: Construcción de aplicaciones de AI multimodales: Speech-to-Text y LLMs
Price: 22.99 EUR
Availability: InStock

Una guía para principiantes para que los desarrolladores integren reconocimiento de voz, análisis de imágenes y LLMs multimodales en aplicaciones modernas utilizando APIs estándar y patrones de AI actuales.

⏱ 1 h 53 min 📚 9 lecciones

Sobre este curso

Las aplicaciones modernas están yendo más allá del simple texto. Al integrar capacidades de procesamiento de voz, imagen y video, los desarrolladores pueden crear experiencias de usuario altamente interactivas e inteligentes. Este curso proporciona una comprensión fundamental de los Large Language Models (LLMs) multimodales y las tecnologías de speech-to-text. Aprenderás a escribir código que interactúa con modelos de AI para transcribir audio, analizar datos visuales y generar respuestas inteligentes, transformando aplicaciones estándar en potentes herramientas impulsadas por AI.

Lo que aprenderás:
- Comprender los conceptos básicos de la AI multimodal y cómo los modelos procesan diferentes tipos de datos;
- Escribir código para integrar APIs de speech-to-text para una transcripción de audio precisa;
- Procesar y analizar imágenes y fotogramas de video utilizando capacidades modernas de LLM;
- Aplicar técnicas fundamentales de prompt engineering adaptadas para entradas multimodales;
- Implementar patrones básicos de Retrieval-Augmented Generation (RAG) para medios enriquecidos;
- Construir scripts basados en texto que orquesten flujos de trabajo de AI complejos de manera fluida.

El plan de estudios comienza con terminología esencial de AI y conceptos fundamentales antes de pasar a la integración práctica de APIs y el manejo de datos. Progresarás a través de lecciones escritas estructuradas y fragmentos de código que aumentarán tu confianza en el manejo programático de varios tipos de medios. Este curso está diseñado para desarrolladores principiantes e ingenieros fullstack que buscan ingresar al espacio de la AI sin necesidad de experiencia previa en machine learning. Comienza a leer hoy mismo para desbloquear el potencial de la AI multimodal en tu próximo proyecto de desarrollo.

Lo que obtendrás

📜 Certificado de finalización
Añádelo a tu perfil de LinkedIn
💬 Tutor AI personal
¿Atascado en una lección? Pregúntale a tu tutor integrado lo que quieras, cuando quieras.
♾️ Acceso de por vida
Vuelve cuando quieras, sin caducidad
📱 Teléfono o computadora
Funciona en cualquier dispositivo
💸 Reembolso de 14 días
Sin preguntas
⚡ Breve y enfocado
1 h 53 min de contenido práctico

Reseñas (1)

Cemile Karaca TR Estudiante verificado

★ 5 · 2026-04-03T09:38:44+00:00

Konuşmayı metne çevirip multimodal LLM'e bağladığım ilk uygulamayı kurmak şaşırtıcı derecede kolaydı, başlangıç için harika.

Otros también tomaron

🔥 Muy solicitado

Preguntas frecuentes

¿Qué necesito para tomar este curso? +

Solo un teléfono o computadora con internet. Sin instalaciones ni hardware especial.

¿Cómo pago? +

Con tarjeta a través de Stripe. No almacenamos datos de tarjeta — Stripe los gestiona de forma segura.

¿Puedo obtener un reembolso? +

Sí — reembolso completo en 14 días, sin preguntas.

¿Por cuánto tiempo tendré acceso? +

Para siempre. Una vez comprado, el curso es tuyo para revisarlo cuando quieras.

¿Obtendré un certificado? +

Sí. Al finalizar recibirás un certificado que puedes añadir a tu perfil de LinkedIn.

Diseñado para profesionales en

Tecnología Diseño Finanzas Marketing Salud Educación Hostelería Manufactura

Construcción de aplicaciones de AI multimodales: Speech-to-Text y LLMs

Sobre este curso

Lo que obtendrás

Reseñas (1)

Escribir una reseña

Otros también tomaron

IA generativa para el desarrollo de aplicaciones móviles

Herramientas prácticas de IA para educadores

Fundamentos de IA generativa: conceptos básicos y alertas

Desarrollo de aplicaciones LLM personalizadas con RAG y agentes

Preguntas frecuentes