การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF) — LearnFlat

การจัดเรียง LLM: การเรียนรู้แบบเสริมกำลังจากข้อเสนอแนะของมนุษย์ (RLHF)

เชี่ยวชาญพื้นฐานของการจัดเรียงโมเดลภาษาขนาดใหญ่โดยใช้ RLHF และการสร้างแบบจำลองรางวัลเพื่อสร้างแอปพลิเคชัน AI ที่ปลอดภัยและมีประโยชน์มากขึ้น

⏱ 50 นาที 📚 4 บทเรียน 🎧 เวอร์ชันเสียง

เกี่ยวกับคอร์สนี้

การจัดเรียงโมเดลภาษาขนาดใหญ่ให้เป็นประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย เป็นหนึ่งในความท้าทายที่สำคัญที่สุดในการพัฒนา AI สมัยใหม่ Reinforcement Learning from Human Feedback (RLHF) เป็นระเบียบวิธีหลักที่ใช้ในการนำทางโมเดลดิบให้กลายเป็นผู้ช่วยที่มีความสามารถ ตลอดหลักสูตรที่เน้นข้อความนี้ คุณจะได้เรียนรู้วิธีการจัดเรียงและปรับแต่งโมเดลแบบ open-weights เช่น Llama โดยเริ่มจากแนวคิดพื้นฐานและดำเนินการผ่านกระบวนการจัดเรียงทั้งหมด คุณจะพัฒนาความเข้าใจที่ชัดเจนเกี่ยวกับ reward models, policy optimization และการประเมินโมเดลสมัยใหม่ สิ่งที่คุณจะได้เรียนรู้: - ทำความเข้าใจแนวคิดพื้นฐานของการจัดเรียง LLM และเหตุใดการเรียนรู้แบบเสริมกำลังจึงจำเป็น - กำหนดค่า reward models เพื่อจับความต้องการของมนุษย์และนำทางพฤติกรรมของโมเดล - ประยุกต์ใช้เทคนิค policy optimization เพื่อปรับแต่งโมเดลแบบ open-weights - ประเมินประสิทธิภาพและความปลอดภัยของโมเดลโดยใช้เมตริกการจัดเรียงมาตรฐาน - เปรียบเทียบ RLHF กับกลยุทธ์การจัดเรียงสมัยใหม่อื่นๆ เช่น Direct Preference Optimization (DPO) หลักสูตรนี้เริ่มต้นด้วยคำศัพท์ที่จำเป็นและทฤษฎีเบื้องหลังข้อมูลความชอบของมนุษย์ ก่อนที่จะนำคุณผ่านกระบวนการทีละขั้นตอนของการฝึกอบรม reward model และการปรับแต่ง LLM ของคุณ หลักสูตรนี้ออกแบบมาสำหรับนักพัฒนาซอฟต์แวร์ นักวิทยาศาสตร์ข้อมูล และผู้เริ่มต้น AI ที่ต้องการทำความเข้าใจว่าโมเดลภาษาที่ทันสมัยได้รับการฝึกอบรมเพื่อความปลอดภัยและประโยชน์ใช้สอยอย่างไร ไม่จำเป็นต้องมีประสบการณ์ด้าน reinforcement learning มาก่อน เริ่มอ่านวันนี้เพื่อปลดล็อกเทคนิคหลักเบื้องหลังการจัดเรียง AI สมัยใหม่

สิ่งที่คุณจะได้รับ

  • 📜 ใบประกาศนียบัตร
    เพิ่มในโปรไฟล์ LinkedIn ของคุณ
  • 💬 ติวเตอร์ AI ส่วนตัว
    ติดขัดในบทเรียน? ถามติวเตอร์ในตัวของคุณได้ทุกอย่าง ทุกเวลา
  • 🎧 รวมเวอร์ชันเสียง
    เรียนได้ทุกที่ ไม่ต้องดูจอ
  • ♾️ เข้าถึงตลอดชีพ
    กลับมาเรียนได้ตลอด ไม่มีหมดอายุ
  • 📱 โทรศัพท์หรือคอมพิวเตอร์
    ใช้งานได้ทุกที่ ทุกอุปกรณ์
  • 💸 คืนเงิน 14 วัน
    ไม่ต้องอธิบาย
  • กระชับและตรงประเด็น
    50 นาที เนื้อหาเชิงปฏิบัติ

รีวิว

ยังไม่มีรีวิว — เป็นคนแรกที่แชร์ประสบการณ์

เขียนรีวิว

หลังจากส่ง เราจะขอให้คุณเข้าสู่ระบบ — ฉบับร่างของคุณถูกบันทึก

ผู้เรียนคนอื่นเรียน

คำถามที่พบบ่อย

ฉันต้องใช้อะไรในการเรียนคอร์สนี้? +

แค่โทรศัพท์หรือคอมพิวเตอร์ที่มีอินเทอร์เน็ต ไม่ต้องติดตั้งหรือใช้อุปกรณ์พิเศษ

ฉันชำระเงินอย่างไร? +

ผ่านบัตรด้วย Stripe เราไม่เก็บข้อมูลบัตร — Stripe จัดการอย่างปลอดภัย

ฉันขอคืนเงินได้ไหม? +

ใช่ — คืนเงินเต็มจำนวนใน 14 วัน ไม่ต้องอธิบาย

ฉันมีสิทธิ์เข้าถึงนานเท่าไร? +

ตลอดไป เมื่อซื้อแล้วคอร์สเป็นของคุณ กลับมาเรียนได้ตลอด

ฉันจะได้ใบประกาศนียบัตรไหม? +

ได้ เมื่อเรียนจบจะได้รับใบประกาศนียบัตรที่เพิ่มในโปรไฟล์ LinkedIn ได้

ออกแบบสำหรับผู้เรียนใน
เทคโนโลยี ดีไซน์ การเงิน การตลาด สาธารณสุข การศึกษา ธุรกิจการบริการ อุตสาหกรรม