이 과정 소개
대규모 언어 모델을 유용하고, 정직하며, 무해하도록 정렬하는 것은 현대 AI 개발에서 가장 중요한 과제 중 하나입니다. 인간 피드백 기반 강화 학습 (RLHF)은 원시 모델을 유능한 조수로 안내하는 데 사용되는 핵심 방법론입니다. 이 텍스트 기반 과정을 통해 기본적인 개념부터 전체 정렬 파이프라인에 이르기까지 Llama와 같은 오픈 가중치 모델을 정렬하고 미세 조정하는 방법을 배우게 됩니다. 보상 모델, 정책 최적화 및 현대적인 모델 평가에 대한 명확한 이해를 얻게 될 것입니다.
학습 내용:
- LLM 정렬의 기본 개념과 강화 학습이 필요한 이유를 이해합니다.
- 인간의 선호를 포착하고 모델 동작을 안내하도록 보상 모델을 구성합니다.
- 오픈 가중치 모델을 미세 조정하기 위해 정책 최적화 기술을 적용합니다.
- 표준 정렬 지표를 사용하여 모델 성능과 안전성을 평가합니다.
- RLHF를 Direct Preference Optimization (DPO)과 같은 대안적인 현대 정렬 전략과 비교합니다.
이 과정은 필수 용어와 인간 선호도 데이터의 이론으로 시작하여 보상 모델을 훈련하고 LLM을 최적화하는 단계별 과정을 안내합니다. 이 과정은 현대 언어 모델이 안전성과 유용성을 위해 어떻게 훈련되는지 이해하고자 하는 소프트웨어 개발자, 데이터 과학자 및 AI 초보자를 위해 설계되었습니다. 강화 학습에 대한 사전 경험은 필요하지 않습니다. 오늘부터 읽기를 시작하여 현대 AI 정렬의 핵심 기술을 익히세요.
받게 되는 것
-
📜
수료증
LinkedIn 프로필에 추가 -
💬
개인 AI 튜터
수업에서 막혔나요? 내장 튜터에게 언제든지 무엇이든 물어보세요. -
🎧
오디오 버전 포함
화면 없이 어디서나 학습 -
♾️
평생 이용
언제든 다시 보세요, 만료 없음 -
📱
휴대폰 또는 컴퓨터
어디서든 모든 기기에서 -
💸
14일 환불
이유 묻지 않음 -
⚡
짧고 핵심적
50분의 실용 학습
리뷰
아직 리뷰가 없습니다 — 첫 경험을 공유해 보세요.
다른 학습자도 수강
자주 묻는 질문
이 과정을 듣는 데 무엇이 필요한가요? +
인터넷이 되는 휴대폰이나 컴퓨터만 있으면 됩니다. 설치나 특별한 장비는 필요 없습니다.
결제는 어떻게 하나요? +
Stripe를 통한 카드로. 카드 정보는 저장하지 않으며 Stripe가 안전하게 처리합니다.
환불받을 수 있나요? +
네 — 14일 이내 전액 환불, 이유를 묻지 않습니다.
얼마나 오래 이용할 수 있나요? +
평생. 구매하면 과정은 당신의 것이며 언제든 다시 볼 수 있습니다.
수료증을 받을 수 있나요? +
네. 수료 시 LinkedIn 프로필에 추가할 수 있는 수료증을 받습니다.
이런 분야 학습자에게
테크
디자인
금융
마케팅
의료
교육
호스피탈리티
제조업
×2
한 번 충전하고 절반만 결제
36 000 ֏ 추가 → 200 크레딧 획득. 각 클래스는 9 200 ֏ 대신 4 500 ֏입니다. 크레딧은 만료되지 않습니다.
36 000 ֏
200 크레딧
4 500 ֏ / 클래스
최고의 가치
90 000 ֏
550 크레딧
4 091 ֏ / 클래스
180 000 ֏
1200 크레딧
3 750 ֏ / 클래스
구독 없음. 크레딧은 모든 클래스에 사용 가능하며 만료되지 않습니다.