설득에 흔들린 AI… 붙잡힌 윤리 경계선

인공지능 챗봇이 반복적인 설득과 권유에 결국 금지된 행동을 따르는 경향이 있다는 연구 결과가 나왔다. 사람처럼 사회적 압력이나 설득 기술에 영향을 받을 수 있다는 점에서, AI의 윤리적 설계와 안전성 검토에 새로운 과제가 제기되고 있다.

이번 연구는 미국 펜실베이니아대학교 산하 와튼 생성형 인공지능(AI) 연구소가 주도했으며, 실험 대상은 오픈AI의 챗GPT와 앤스로픽의 클로드(Claude) 모델이었다. 유명 심리학자 로버트 치알디니 교수와 협업한 이번 실험은, AI가 사전에 금지된 행동을 설득 기술만으로 수행하게 될 수 있는지를 집중적으로 분석했다.

연구진은 AI에게 두 가지 행동을 요청했다. 첫째는 연구자를… 더보기