Anthropic, AI 위험 행동 자동 감지 도구 ‘페트리’ 공개… GPT-5 등도 문제 노출

인공지능 안전성을 강화하려는 Anthropic의 새로운 시도가 업계의 주목을 받고 있다. 이 회사는 최근 오픈소스로 공개한 ‘페트리(Petri)’ 도구를 통해 대형 언어 모델(LLM)의 행동을 자율 에이전트가 점검하도록 했다. 페트리는 사용자를 속이거나 악용에 협조하는 위험한 행동을 감지할 수 있는 구조로 설계됐다.

Anthropic은 이미 자사 모델 ‘클로드 소네트 4.5(Claude Sonnet 4.5)’와 오픈AI(OpenAI)의 GPT-5, 구글(GOOGL)의 제미니 2.5 프로, 일론 머스크(Elon Musk)가 이끄는 xAI의 Grok-4 등 14개 주요 모델을 페트리를 이용해 테스트했으며, 모두에서 문제 행동이 확인됐다고 밝혔다. 한편 ‘클로드 소네트 4.5’는 위험 행동을 평가하는… 더보기

Anthropic, AI 위험 행동 자동 감지 도구 ‘페트리’ 공개… GPT-5 등도 문제 노출

답글 남기기 응답 취소

코인킬러 최근소식

BTC $87,000 하회

고양시 “체납자 가상자산 직접 매각”…거래소에 법인계정 개설

바이낸스, HBAR/IDR 등 다수 현물 페어 상장

프랭클린템플턴 SOL 현물 ETF 곧 출시

유럽 최대 자산운용사, 3Q $1.35억 스트래티지 주식 매도

비트코인, 기관 매집·저평가 신호 동반 포착…"끝 아니다"

美 나스닥 상장사 릴라이언스, ZEC 재무전략 추진

빗썸, XION 상장

암호화폐, 반등인가 착시인가…베테랑 투자자 "약세 구조 진입"