대규모 언어 모델(LLM)의 자가 학습 가능성을 열어주는 새로운 훈련 체계가 주목받고 있다. 텐센트 AI 연구소와 미국 세인트루이스 워싱턴대학교 공동 연구진이 개발한 ‘R-Zero’ 프레임워크는 인간의 개입 없이도 AI가 스스로 학습 데이터를 만들어내는 방식을 채택했다. 이 시스템은 강화학습(RL)을 기반으로 한 자가 생성 데이터를 활용해 LLM이 꾸준히 진화하도록 유도한다는 점에서 기존의 데이터 라벨링 방식에 근본적인 변화를 예고하고 있다.
핵심은 서로 다른 역할을 수행하는 ‘도전자(Challenger)’와 ‘해결자(Solver)’ 모델 간의 상호작용에 있다. 두 모델은 각기 분리되어 훈련되지만, 서로 지속적으로 문제를 제기하고 해결하는… 더보기
답글 남기기