แค็ตตาล็อก · การเรียนรู้เชิงลึก · การเรียนรู้แบบเสริมกำลัง

การปรับแต่ง LLM ด้วย GRPO: การเรียนรู้แบบเสริมแรงเพื่อการให้เหตุผลที่ดีขึ้น

Name: การปรับแต่ง LLM ด้วย GRPO: การเรียนรู้แบบเสริมแรงเพื่อการให้เหตุผลที่ดีขึ้น
Price: 899 THB
Availability: InStock

เพิ่มขีดความสามารถในการให้เหตุผลของโมเดลภาษาขนาดใหญ่โดยการใช้ Group Relative Policy Optimization และฟังก์ชันรางวัลที่กำหนดเองเพื่อนำทางผลลัพธ์ของโมเดล

⏱ 1 ชม. 38 นาที 📚 10 บทเรียน 🎧 เวอร์ชันเสียง

เกี่ยวกับคอร์สนี้

เมื่อโมเดลภาษาขนาดใหญ่มีความสามารถมากขึ้น การสอนให้พวกมันให้เหตุผลผ่านปัญหาที่ซับซ้อนนั้นต้องอาศัยมากกว่าการฝึกอบรมแบบมีผู้ดูแลมาตรฐาน การปรับแต่งแบบเสริมแรงโดยใช้ Group Relative Policy Optimization (GRPO) นำเสนอวิธีที่มีประสิทธิภาพในการปรับและปรับปรุงผลลัพธ์ของโมเดลโดยไม่ต้องใช้ทรัพยากรการคำนวณจำนวนมากเหมือนวิธีการแบบดั้งเดิม

ในหลักสูตรที่เน้นข้อความนี้ คุณจะได้เรียนรู้แนวคิดพื้นฐานของการเรียนรู้แบบเสริมแรงสำหรับโมเดลภาษา และวิธีนำ GRPO มาใช้เพื่อเพิ่มประสิทธิภาพการให้เหตุผล คุณจะได้สำรวจวิธีออกแบบฟังก์ชันรางวัลที่มีประสิทธิภาพ จัดโครงสร้างการฝึกอบรม และประเมินการปรับปรุงโมเดลผ่านคำอธิบายที่ชัดเจนและคำแนะนำโค้ดทีละขั้นตอน

สิ่งที่คุณจะได้เรียนรู้:
- ทำความเข้าใจหลักการสำคัญของการเรียนรู้แบบเสริมแรง และวิธีที่ GRPO เพิ่มประสิทธิภาพการฝึกอบรม
- ออกแบบฟังก์ชันรางวัลที่กำหนดเองเพื่อนำทางพฤติกรรมของโมเดล การจัดรูปแบบ และขั้นตอนการให้เหตุผลเชิงตรรกะ
- กำหนดค่าสภาพแวดล้อมการฝึกอบรมโดยใช้ไลบรารีโอเพนซอร์สที่ทันสมัยและเฟรมเวิร์กการปรับแต่งแบบน้ำหนักเบา
- นำ GRPO ไปใช้ทีละขั้นตอนเพื่อปรับแต่ง LLM แบบ open-weight สำหรับงานการให้เหตุผลที่มีโครงสร้าง
- ประเมินผลลัพธ์ของโมเดลและเส้นทางการให้เหตุผลเพื่อให้แน่ใจว่าการฝึกอบรมมีเสถียรภาพและป้องกัน reward hacking

หลักสูตรนี้เริ่มต้นด้วยคำศัพท์ที่จำเป็น โดยแนะนำแนวคิดการเรียนรู้แบบเสริมแรงและกลไกของการปรับแต่งแบบกลุ่มสัมพันธ์ จากนั้นคุณจะได้ฝึกปฏิบัติจริงด้วยแบบฝึกหัดที่เป็นลายลักษณ์อักษร ซึ่งคุณจะได้กำหนดค่าระบบรางวัล เขียนสคริปต์การฝึกอบรม และวิเคราะห์ประสิทธิภาพการให้เหตุผลของโมเดลที่คุณปรับแต่ง

หลักสูตรนี้ออกแบบมาสำหรับนักพัฒนาซอฟต์แวร์ ผู้ปฏิบัติงานด้านข้อมูล และผู้ที่ชื่นชอบ AI ที่ต้องการเรียนรู้เทคนิคการเรียนรู้แบบเสริมแรงสำหรับ LLM ไม่จำเป็นต้องมีประสบการณ์ด้านการเรียนรู้แบบเสริมแรงมาก่อน แต่แนะนำให้มีความคุ้นเคยพื้นฐานกับ Python และโมเดลภาษา

เริ่มอ่านวันนี้เพื่อปลดล็อกพลังของการปรับแต่งแบบเสริมแรงสำหรับโมเดลภาษาของคุณ

สิ่งที่คุณจะได้รับ

📜 ใบประกาศนียบัตร
เพิ่มในโปรไฟล์ LinkedIn ของคุณ
💬 ติวเตอร์ AI ส่วนตัว
ติดขัดในบทเรียน? ถามติวเตอร์ในตัวของคุณได้ทุกอย่าง ทุกเวลา
🎧 รวมเวอร์ชันเสียง
เรียนได้ทุกที่ ไม่ต้องดูจอ
♾️ เข้าถึงตลอดชีพ
กลับมาเรียนได้ตลอด ไม่มีหมดอายุ
📱 โทรศัพท์หรือคอมพิวเตอร์
ใช้งานได้ทุกที่ ทุกอุปกรณ์
💸 คืนเงิน 14 วัน
ไม่ต้องอธิบาย
⚡ กระชับและตรงประเด็น
1 ชม. 38 นาที เนื้อหาเชิงปฏิบัติ

รีวิว

ยังไม่มีรีวิว — เป็นคนแรกที่แชร์ประสบการณ์

ผู้เรียนคนอื่นเรียน

⚡ เหมาะสำหรับผู้เริ่มต้น

คำถามที่พบบ่อย

ฉันต้องใช้อะไรในการเรียนคอร์สนี้? +

แค่โทรศัพท์หรือคอมพิวเตอร์ที่มีอินเทอร์เน็ต ไม่ต้องติดตั้งหรือใช้อุปกรณ์พิเศษ

ฉันชำระเงินอย่างไร? +

ผ่านบัตรด้วย Stripe เราไม่เก็บข้อมูลบัตร — Stripe จัดการอย่างปลอดภัย

ฉันขอคืนเงินได้ไหม? +

ใช่ — คืนเงินเต็มจำนวนใน 14 วัน ไม่ต้องอธิบาย

ฉันมีสิทธิ์เข้าถึงนานเท่าไร? +

ตลอดไป เมื่อซื้อแล้วคอร์สเป็นของคุณ กลับมาเรียนได้ตลอด

ฉันจะได้ใบประกาศนียบัตรไหม? +

ได้ เมื่อเรียนจบจะได้รับใบประกาศนียบัตรที่เพิ่มในโปรไฟล์ LinkedIn ได้

ออกแบบสำหรับผู้เรียนใน

เทคโนโลยี ดีไซน์ การเงิน การตลาด สาธารณสุข การศึกษา ธุรกิจการบริการ อุตสาหกรรม

฿899

✓ เพียง ฿899 — ทุกคลาส ตลอดไป ไม่มีสมัครสมาชิก ไม่มีวันหมดอายุ

ซื้อเลย →

✓ ใบประกาศนียบัตร
✓ รวมเวอร์ชันเสียง
✓ เข้าถึงตลอดชีพ
✓ คืนเงินภายใน 14 วัน
✓ โทรศัพท์หรือคอมพิวเตอร์

ชำระเงินปลอดภัยผ่าน Stripe

การปรับแต่ง LLM ด้วย GRPO: การเรียนรู้แบบเสริมแรงเพื่อการให้เหตุผลที่ดีขึ้น

เกี่ยวกับคอร์สนี้

สิ่งที่คุณจะได้รับ

รีวิว

เขียนรีวิว

ผู้เรียนคนอื่นเรียน

การเรียนรู้แบบเสริมแรงลึกในภาษาไพทอน: การแนะนำแบบสมัยใหม่

Reinforcement Learning: จาก Q-Learning สู่ Deep Policy Gradients

การเรียนรู้แบบเสริมกำลังสำหรับโปรแกรมเมอร์: สร้างเอเจนต์ AI ของคุณเอง

Reinforcement Learning: สร้าง AI Agents ที่ใช้งานได้จริงตั้งแต่เริ่มต้น

คำถามที่พบบ่อย