Implantando LLMs Locais: vLLM, Quantização e Inferência — LearnFlat

Implantando LLMs Locais: vLLM, Quantização e Inferência

Aprenda como implantar modelos de linguagem de grande porte de forma eficiente, aplicar técnicas de Quantização para reduzir os requisitos de hardware e servir modelos em ambientes de produção.

⏱ 1 h 28 min 📚 12 aulas 🎧 Versão em áudio

Sobre este curso

Executar Large Language Models (LLMs) localmente ou em produção pode parecer intimidador devido aos requisitos massivos de hardware e configurações complexas. À medida que a AI continua a evoluir, a capacidade de hospedar seus próprios modelos de forma eficiente está se tornando uma habilidade essencial para desenvolvedores e equipes de operações. Este curso detalha o processo de implantação e otimização de LLMs, transformando você de um iniciante em alguém capaz de servir modelos de AI de alto desempenho de forma eficiente. Você explorará como reduzir o consumo de memória e maximizar a velocidade de Inferência usando técnicas modernas, garantindo que possa executar modelos poderosos mesmo com recursos computacionais limitados. O que você aprenderá: • Compreender os conceitos fundamentais da arquitetura de LLM, Inferência e gerenciamento de memória. • Calcular os requisitos de hardware e estimar as necessidades de VRAM de GPU para vários tamanhos de modelo. • Aplicar métodos modernos de Quantização como GGUF, AWQ e GPTQ para otimizar os pesos do modelo. • Configurar e implantar modelos usando vLLM para Inferência de alto rendimento e baixa latência. • Criar endpoints de REST API padrão para integrar perfeitamente modelos locais em seus aplicativos. • Praticar a conteinerização de suas implantações de LLM usando Docker para ambientes consistentes e escaláveis. A jornada começa com a terminologia essencial de AI e o básico de hardware antes de passar para exercícios práticos escritos focados em Quantização e implantação. Você progredirá passo a passo através de scripts de configuração e padrões de implantação usados no MLOps moderno. Projetado para desenvolvedores de software, aspirantes a engenheiros de DevOps e entusiastas de tecnologia sem experiência prévia em machine learning, este guia baseado em texto requer apenas uma compreensão básica de conceitos de programação. Comece a ler hoje para desenvolver suas habilidades em implantação de AI moderna e otimização de Inferência.

O que você vai receber

  • 📜 Certificado de conclusão
    Adicione ao seu perfil do LinkedIn
  • 💬 Tutor AI pessoal
    Travou em uma aula? Pergunte ao seu tutor integrado qualquer coisa, a qualquer hora.
  • 🎧 Versão em áudio incluída
    Estude em qualquer lugar, sem tela
  • ♾️ Acesso vitalício
    Volte quando quiser, sem expirar
  • 📱 Celular ou computador
    Funciona em qualquer dispositivo
  • 💸 Reembolso em 14 dias
    Sem perguntas
  • Curto e focado
    1 h 28 min de conteúdo prático

Avaliações

Ainda não há avaliações — seja o primeiro a compartilhar sua experiência.

Escrever uma avaliação

Pediremos para fazer login após enviar — o rascunho fica salvo.

Outros também fizeram

Perguntas frequentes

O que preciso para fazer este curso? +

Só um celular ou computador com internet. Sem instalações nem hardware especial.

Como faço para pagar? +

Com cartão via Stripe. Não guardamos dados do cartão — o Stripe processa com segurança.

Posso pedir reembolso? +

Sim — reembolso integral em 14 dias, sem perguntas.

Por quanto tempo terei acesso? +

Para sempre. Uma vez comprado, o curso é seu para revisar quando quiser.

Vou receber um certificado? +

Sim. Ao concluir, você recebe um certificado que pode adicionar ao seu perfil do LinkedIn.

Feito para profissionais em
Tecnologia Design Finanças Marketing Saúde Educação Hotelaria Indústria