Triển khai LLM cục bộ: vLLM, Quantization, và Inference — LearnFlat

Triển khai LLM cục bộ: vLLM, Quantization, và Inference

Tìm hiểu cách triển khai các mô hình ngôn ngữ lớn một cách hiệu quả, áp dụng các kỹ thuật quantization để giảm yêu cầu phần cứng và phục vụ các mô hình trong môi trường production.

⏱ 1 giờ 28 phút 📚 12 bài 🎧 Phiên bản âm thanh

Về khóa học này

Việc chạy các Mô hình Ngôn ngữ Lớn (LLM) cục bộ hoặc trong production có vẻ khó khăn do yêu cầu phần cứng khổng lồ và cấu hình phức tạp. Khi AI tiếp tục phát triển, khả năng tự host các mô hình của riêng bạn một cách hiệu quả đang trở thành một kỹ năng thiết yếu cho các nhà phát triển và đội ngũ vận hành. Khóa học này chia nhỏ quy trình triển khai và tối ưu hóa LLM, giúp bạn từ một người mới bắt đầu trở thành người có khả năng phục vụ các mô hình AI hiệu suất cao một cách hiệu quả. Bạn sẽ khám phá cách giảm dung lượng bộ nhớ và tối đa hóa tốc độ inference bằng các kỹ thuật hiện đại, đảm bảo bạn có thể chạy các mô hình mạnh mẽ ngay cả với tài nguyên tính toán hạn chế. Những gì bạn sẽ học: • Hiểu các khái niệm nền tảng về kiến trúc LLM, inference và quản lý bộ nhớ. • Tính toán yêu cầu phần cứng và ước tính nhu cầu GPU VRAM cho các kích thước mô hình khác nhau. • Áp dụng các phương pháp quantization hiện đại như GGUF, AWQ và GPTQ để tối ưu hóa trọng số mô hình. • Cấu hình và triển khai các mô hình bằng vLLM để có inference thông lượng cao, độ trễ thấp. • Tạo các endpoint REST API tiêu chuẩn để tích hợp liền mạch các mô hình cục bộ vào ứng dụng của bạn. • Thực hành container hóa các triển khai LLM của bạn bằng Docker để có môi trường nhất quán, có thể mở rộng. Hành trình bắt đầu với các thuật ngữ AI thiết yếu và kiến thức cơ bản về phần cứng trước khi chuyển sang các bài tập viết thực hành tập trung vào quantization và triển khai. Bạn sẽ tiến triển từng bước thông qua các script cấu hình và các mẫu triển khai được sử dụng trong MLOps hiện đại. Được thiết kế cho các nhà phát triển phần mềm, các kỹ sư DevOps đầy tham vọng và những người đam mê công nghệ chưa có kinh nghiệm về machine learning trước đó, hướng dẫn dựa trên văn bản này chỉ yêu cầu hiểu biết cơ bản về các khái niệm lập trình. Hãy bắt đầu đọc ngay hôm nay để xây dựng kỹ năng của bạn trong việc triển khai AI hiện đại và tối ưu hóa inference.

Bạn sẽ nhận được

  • 📜 Chứng chỉ hoàn thành
    Thêm vào hồ sơ LinkedIn
  • 💬 Gia sư AI cá nhân
    Bí ở một bài học? Hỏi gia sư tích hợp của bạn bất cứ điều gì, bất cứ lúc nào.
  • 🎧 Bao gồm phiên bản âm thanh
    Học mọi lúc mọi nơi — không cần màn hình
  • ♾️ Truy cập trọn đời
    Quay lại bất cứ lúc nào, không hết hạn
  • 📱 Điện thoại hoặc máy tính
    Hoạt động mọi nơi, mọi thiết bị
  • 💸 Hoàn tiền 14 ngày
    Không cần lý do
  • Ngắn gọn, đi vào trọng tâm
    1 giờ 28 phút nội dung thực hành

Đánh giá

Chưa có đánh giá — hãy là người đầu tiên chia sẻ.

Viết đánh giá

Sau khi gửi, chúng tôi sẽ yêu cầu đăng nhập — bản nháp được lưu.

Học viên cũng học

Câu hỏi thường gặp

Tôi cần gì để học khóa này? +

Chỉ cần điện thoại hoặc máy tính có kết nối internet. Không cần cài đặt hay thiết bị đặc biệt.

Tôi thanh toán bằng cách nào? +

Bằng thẻ qua Stripe. Chúng tôi không lưu thông tin thẻ — Stripe xử lý an toàn.

Tôi có thể được hoàn tiền không? +

Có — hoàn tiền đầy đủ trong 14 ngày, không cần lý do.

Tôi sẽ có quyền truy cập trong bao lâu? +

Mãi mãi. Sau khi mua, khóa học là của bạn để xem lại bất cứ lúc nào.

Tôi có nhận được chứng chỉ không? +

Có. Sau khi hoàn thành, bạn sẽ nhận được chứng chỉ và có thể thêm vào hồ sơ LinkedIn.

Dành cho người học trong
Công nghệ Thiết kế Tài chính Marketing Y tế Giáo dục Khách sạn-Dịch vụ Sản xuất