Học tăng cường: Từ Q-Learning đến Deep Policy Gradients — LearnFlat

Học tăng cường: Từ Q-Learning đến Deep Policy Gradients

Xây dựng nền tảng vững chắc về học tăng cường bằng cách triển khai các thuật toán Q-learning cổ điển, Deep Q-Networks và policy gradient sử dụng các thư viện Python hiện đại.

⏱ 42 phút 📚 7 bài 🎧 Phiên bản âm thanh

Về khóa học này

Học tăng cường là động lực thúc đẩy AI ra quyết định hiện đại, từ các tác nhân chơi game đến các hệ thống tự hành. Hiểu cách các tác nhân học hỏi thông qua thử và sai là rất quan trọng đối với bất kỳ ai tham gia vào lĩnh vực trí tuệ nhân tạo tiên tiến. Khóa học dựa trên văn bản này sẽ hướng dẫn bạn từ những kiến thức cơ bản tuyệt đối về các khung ra quyết định đến việc triển khai các thuật toán học tăng cường sâu mạnh mẽ. Bạn sẽ học cách mô hình hóa môi trường, xác định phần thưởng và huấn luyện các tác nhân có thể thích nghi và tối ưu hóa hành vi của chúng theo thời gian. Những gì bạn sẽ học: - Hiểu các nền tảng toán học cốt lõi của Markov Decision Processes và cấu trúc phần thưởng - Triển khai các thuật toán Q-learning dạng bảng cổ điển để giải quyết các bài toán quyết định trong môi trường lưới - Chuyển sang học tăng cường sâu bằng cách xây dựng Deep Q-Networks với mạng nơ-ron - Áp dụng các phương pháp policy gradient bao gồm REINFORCE và hiểu kiến trúc actor-critic - Cấu hình các môi trường tiêu chuẩn hóa bằng cách sử dụng API Gymnasium hiện đại để huấn luyện tác nhân - Khám phá các ứng dụng đương đại của học tăng cường, bao gồm các khái niệm đằng sau RLHF Chúng ta bắt đầu với các thuật ngữ thiết yếu, vòng lặp trạng thái-hành động-phần thưởng và lập trình động. Từ đó, bạn sẽ tiến bộ thông qua các giải thích bằng văn bản từng bước và triển khai mã của cả phương pháp học sâu dựa trên giá trị và dựa trên chính sách. Khóa học này được thiết kế cho người mới bắt đầu trong học máy muốn chuyên sâu về học tăng cường. Kiến thức cơ bản về Python và các khái niệm mạng nơ-ron được khuyến nghị, nhưng không yêu cầu kinh nghiệm học tăng cường trước đó. Hãy bắt đầu đọc ngay hôm nay để nắm vững các thuật toán cung cấp sức mạnh cho AI thích ứng hiện đại.

Bạn sẽ nhận được

  • 📜 Chứng chỉ hoàn thành
    Thêm vào hồ sơ LinkedIn
  • 💬 Gia sư AI cá nhân
    Bí ở một bài học? Hỏi gia sư tích hợp của bạn bất cứ điều gì, bất cứ lúc nào.
  • 🎧 Bao gồm phiên bản âm thanh
    Học mọi lúc mọi nơi — không cần màn hình
  • ♾️ Truy cập trọn đời
    Quay lại bất cứ lúc nào, không hết hạn
  • 📱 Điện thoại hoặc máy tính
    Hoạt động mọi nơi, mọi thiết bị
  • 💸 Hoàn tiền 14 ngày
    Không cần lý do
  • Ngắn gọn, đi vào trọng tâm
    42 phút nội dung thực hành

Đánh giá

Chưa có đánh giá — hãy là người đầu tiên chia sẻ.

Viết đánh giá

Sau khi gửi, chúng tôi sẽ yêu cầu đăng nhập — bản nháp được lưu.

Học viên cũng học

Câu hỏi thường gặp

Tôi cần gì để học khóa này? +

Chỉ cần điện thoại hoặc máy tính có kết nối internet. Không cần cài đặt hay thiết bị đặc biệt.

Tôi thanh toán bằng cách nào? +

Bằng thẻ qua Stripe. Chúng tôi không lưu thông tin thẻ — Stripe xử lý an toàn.

Tôi có thể được hoàn tiền không? +

Có — hoàn tiền đầy đủ trong 14 ngày, không cần lý do.

Tôi sẽ có quyền truy cập trong bao lâu? +

Mãi mãi. Sau khi mua, khóa học là của bạn để xem lại bất cứ lúc nào.

Tôi có nhận được chứng chỉ không? +

Có. Sau khi hoàn thành, bạn sẽ nhận được chứng chỉ và có thể thêm vào hồ sơ LinkedIn.

Dành cho người học trong
Công nghệ Thiết kế Tài chính Marketing Y tế Giáo dục Khách sạn-Dịch vụ Sản xuất