대규모 언어 모델(LLM)을 특정 업무에 최적화하기 위해 사용되던 고비용의 강화학습 방식에 혁신이 시작됐다. 미국 UC버클리와 스탠퍼드대, 데이터브릭스의 공동 연구팀은 신규 최적화 프레임워크 ‘GEPA(Genetic-Pareto)’를 공개하며, 복잡한 AI 시스템 구성에 있어 비용 확장성과 성능 두 마리 토끼를 모두 잡을 수 있다는 가능성을 제시했다.
GEPA는 기존의 보상 점수 기반 강화학습을 대체하는 접근법이다. 기존 강화학습 기법은 수천 번의 반복 실행과 점수 기반 피드백을 통해 서서히 모델을 조정하지만, 이 과정은 비용과 시간이 과도하게 소요된다. 반면, GEPA는 자연어 처리 능력을 활용해 모델 스스로 실행 결과를 언어로 되돌아보고,… 더보기
답글 남기기