การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)
เชี่ยวชาญพื้นฐานของการจัดเรียงโมเดลภาษาขนาดใหญ่โดยใช้ RLHF และการสร้างแบบจำลองรางวัลเพื่อสร้างแอปพลิเคชัน AI ที่ปลอดภัยและมีประโยชน์มากขึ้น
เกี่ยวกับคอร์สนี้
การจัดเรียงโมเดลภาษาขนาดใหญ่ให้เป็นประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย เป็นหนึ่งในความท้าทายที่สำคัญที่สุดในการพัฒนา AI สมัยใหม่ Reinforcement Learning from Human Feedback (RLHF) เป็นระเบียบวิธีหลักที่ใช้ในการนำทางโมเดลดิบให้กลายเป็นผู้ช่วยที่มีความสามารถ ตลอดหลักสูตรที่เน้นข้อความนี้ คุณจะได้เรียนรู้วิธีการจัดเรียงและปรับแต่งโมเดลแบบ open-weights เช่น Llama โดยเริ่มจากแนวคิดพื้นฐานและดำเนินการผ่านกระบวนการจัดเรียงทั้งหมด คุณจะพัฒนาความเข้าใจที่ชัดเจนเกี่ยวกับ reward models, policy optimization และการประเมินโมเดลสมัยใหม่
สิ่งที่คุณจะได้เรียนรู้:
- ทำความเข้าใจแนวคิดพื้นฐานของการจัดเรียง LLM และเหตุใดการเรียนรู้แบบเสริมกำลังจึงจำเป็น
- กำหนดค่า reward models เพื่อจับความต้องการของมนุษย์และนำทางพฤติกรรมของโมเดล
- ประยุกต์ใช้เทคนิค policy optimization เพื่อปรับแต่งโมเดลแบบ open-weights
- ประเมินประสิทธิภาพและความปลอดภัยของโมเดลโดยใช้เมตริกการจัดเรียงมาตรฐาน
- เปรียบเทียบ RLHF กับกลยุทธ์การจัดเรียงสมัยใหม่อื่นๆ เช่น Direct Preference Optimization (DPO)
หลักสูตรนี้เริ่มต้นด้วยคำศัพท์ที่จำเป็นและทฤษฎีเบื้องหลังข้อมูลความชอบของมนุษย์ ก่อนที่จะนำคุณผ่านกระบวนการทีละขั้นตอนของการฝึกอบรม reward model และการปรับแต่ง LLM ของคุณ หลักสูตรนี้ออกแบบมาสำหรับนักพัฒนาซอฟต์แวร์ นักวิทยาศาสตร์ข้อมูล และผู้เริ่มต้น AI ที่ต้องการทำความเข้าใจว่าโมเดลภาษาที่ทันสมัยได้รับการฝึกอบรมเพื่อความปลอดภัยและประโยชน์ใช้สอยอย่างไร ไม่จำเป็นต้องมีประสบการณ์ด้าน reinforcement learning มาก่อน เริ่มอ่านวันนี้เพื่อปลดล็อกเทคนิคหลักเบื้องหลังการจัดเรียง AI สมัยใหม่
สิ่งที่คุณจะได้รับ
-
📜
ใบประกาศนียบัตร
เพิ่มในโปรไฟล์ LinkedIn ของคุณ -
💬
ติวเตอร์ AI ส่วนตัว
ติดขัดในบทเรียน? ถามติวเตอร์ในตัวของคุณได้ทุกอย่าง ทุกเวลา -
🎧
รวมเวอร์ชันเสียง
เรียนได้ทุกที่ ไม่ต้องดูจอ -
♾️
เข้าถึงตลอดชีพ
กลับมาเรียนได้ตลอด ไม่มีหมดอายุ -
📱
โทรศัพท์หรือคอมพิวเตอร์
ใช้งานได้ทุกที่ ทุกอุปกรณ์ -
💸
คืนเงิน 14 วัน
ไม่ต้องอธิบาย -
⚡
กระชับและตรงประเด็น
50 นาที เนื้อหาเชิงปฏิบัติ
รีวิว
ยังไม่มีรีวิว — เป็นคนแรกที่แชร์ประสบการณ์
ผู้เรียนคนอื่นเรียน
⚡ เหมาะสำหรับผู้เริ่มต้น
การเรียนรู้แบบเสริมแรงลึกในภาษาไพทอน: การแนะนำแบบสมัยใหม่
ใบรับรอง
ลงมือทำ
฿359
→
⚡ เหมาะสำหรับผู้เริ่มต้น
Reinforcement Learning: จาก Q-Learning สู่ Deep Policy Gradients
ใบรับรอง
ลงมือทำ
฿359
→
🏆 ยอดนิยมมากที่สุด
บทนำสู่ Reinforcement Learning: พื้นฐานและอัลกอริทึม
ใบรับรอง
ลงมือทำ
฿359
→
🔥 เป็นที่ต้องการ
การค้นหาเส้นทางเขาวงกตด้วย Python พร้อมศัตรูและรางวัล
ใบรับรอง
ลงมือทำ
฿359
→
คำถามที่พบบ่อย
ฉันต้องใช้อะไรในการเรียนคอร์สนี้? +
แค่โทรศัพท์หรือคอมพิวเตอร์ที่มีอินเทอร์เน็ต ไม่ต้องติดตั้งหรือใช้อุปกรณ์พิเศษ
ฉันชำระเงินอย่างไร? +
ผ่านบัตรด้วย Stripe เราไม่เก็บข้อมูลบัตร — Stripe จัดการอย่างปลอดภัย
ฉันขอคืนเงินได้ไหม? +
ใช่ — คืนเงินเต็มจำนวนใน 14 วัน ไม่ต้องอธิบาย
ฉันมีสิทธิ์เข้าถึงนานเท่าไร? +
ตลอดไป เมื่อซื้อแล้วคอร์สเป็นของคุณ กลับมาเรียนได้ตลอด
ฉันจะได้ใบประกาศนียบัตรไหม? +
ได้ เมื่อเรียนจบจะได้รับใบประกาศนียบัตรที่เพิ่มในโปรไฟล์ LinkedIn ได้
ออกแบบสำหรับผู้เรียนใน
เทคโนโลยี
ดีไซน์
การเงิน
การตลาด
สาธารณสุข
การศึกษา
ธุรกิจการบริการ
อุตสาหกรรม
×2
เติมครั้งเดียว จ่ายครึ่งเดียว
เพิ่ม ฿3,600 → รับ 200 เครดิต แต่ละคลาสราคา ฿180.00 แทน ฿359 เครดิตไม่มีวันหมดอายุ
฿3,600
200 เครดิต
฿180.00 / คลาส
คุ้มที่สุด
฿9,000
550 เครดิต
฿163.64 / คลาส
฿18,000
1200 เครดิต
฿150.00 / คลาส
ไม่มีการสมัครสมาชิก เครดิตใช้ได้กับทุกคลาสและไม่หมดอายุ