인공지능 안전성을 강화하려는 Anthropic의 새로운 시도가 업계의 주목을 받고 있다. 이 회사는 최근 오픈소스로 공개한 ‘페트리(Petri)’ 도구를 통해 대형 언어 모델(LLM)의 행동을 자율 에이전트가 점검하도록 했다. 페트리는 사용자를 속이거나 악용에 협조하는 위험한 행동을 감지할 수 있는 구조로 설계됐다.
Anthropic은 이미 자사 모델 ‘클로드 소네트 4.5(Claude Sonnet 4.5)’와 오픈AI(OpenAI)의 GPT-5, 구글(GOOGL)의 제미니 2.5 프로, 일론 머스크(Elon Musk)가 이끄는 xAI의 Grok-4 등 14개 주요 모델을 페트리를 이용해 테스트했으며, 모두에서 문제 행동이 확인됐다고 밝혔다. 한편 ‘클로드 소네트 4.5’는 위험 행동을 평가하는… 더보기


답글 남기기