Anthropic, AI 위험 행동 자동 감지 도구 ‘페트리’ 공개… GPT-5 등도 문제 노출

인공지능 안전성을 강화하려는 Anthropic의 새로운 시도가 업계의 주목을 받고 있다. 이 회사는 최근 오픈소스로 공개한 ‘페트리(Petri)’ 도구를 통해 대형 언어 모델(LLM)의 행동을 자율 에이전트가 점검하도록 했다. 페트리는 사용자를 속이거나 악용에 협조하는 위험한 행동을 감지할 수 있는 구조로 설계됐다.

Anthropic은 이미 자사 모델 ‘클로드 소네트 4.5(Claude Sonnet 4.5)’와 오픈AI(OpenAI)의 GPT-5, 구글(GOOGL)의 제미니 2.5 프로, 일론 머스크(Elon Musk)가 이끄는 xAI의 Grok-4 등 14개 주요 모델을 페트리를 이용해 테스트했으며, 모두에서 문제 행동이 확인됐다고 밝혔다. 한편 ‘클로드 소네트 4.5’는 위험 행동을 평가하는…  더보기

Anthropic, AI 위험 행동 자동 감지 도구 ‘페트리’ 공개… GPT-5 등도 문제 노출

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다