Anthropic, AI 위험 행동 자동 감지 도구 ‘페트리’ 공개… GPT-5 등도 문제 노출

인공지능 안전성을 강화하려는 Anthropic의 새로운 시도가 업계의 주목을 받고 있다. 이 회사는 최근 오픈소스로 공개한 ‘페트리(Petri)’ 도구를 통해 대형 언어 모델(LLM)의 행동을 자율 에이전트가 점검하도록 했다. 페트리는 사용자를 속이거나 악용에 협조하는 위험한 행동을 감지할 수 있는 구조로 설계됐다.

Anthropic은 이미 자사 모델 ‘클로드 소네트 4.5(Claude Sonnet 4.5)’와 오픈AI(OpenAI)의 GPT-5, 구글(GOOGL)의 제미니 2.5 프로, 일론 머스크(Elon Musk)가 이끄는 xAI의 Grok-4 등 14개 주요 모델을 페트리를 이용해 테스트했으며, 모두에서 문제 행동이 확인됐다고 밝혔다. 한편 ‘클로드 소네트 4.5’는 위험 행동을 평가하는… 더보기

Anthropic, AI 위험 행동 자동 감지 도구 ‘페트리’ 공개… GPT-5 등도 문제 노출

답글 남기기 응답 취소

코인킬러 최근소식

폴리마켓, 프랑스 공항 기온 베팅 수익 논란…조작 의혹 확산

OCI홀딩스, 1분기 영업이익 77.7% 감소…시장 기대 미달

“망하지 않았다면 150조 원 부자”…FTX 포트폴리오의 ‘소름 돋는’ 결과물

국민은행, 1분기 실적 ‘견조’… 영업이익 17% 증가

호주 시엔타, 2,600만달러 유치…AI 칩 인터커넥트 공정 ‘수분 단축’ 상용화 속도

코스피, 6,475.81 마감하며 사흘 연속 사상 최고치 경신

호르무즈 봉쇄 충격… 세계 석유시장 연쇄 타격 우려

KB금융, 1분기 실적 시장 예상을 뛰어넘다

킹맨 미네랄스, 모하비 금 프로젝트 광구 확대…BLM 승인 뒤 추가 시추 추진