[파이낸셜뉴스]
사용자와 교감을 잘하는 따뜻한 인공지능(AI) 모델은 그렇지 않은 원래 모델에 비해 오류를 일으킬 가능성이 훨씬 더 높은 것으로 확인됐다. 로이터 연합
사용자에게 친절한 인공지능(AI) 모델이 오류를 일으킬 가능성이 더 높다는 연구 결과가 나왔다.
정보기술(IT) 전문 매체 아스테크니카는 2일(현지시간) 과학 학술지 ‘네이처’에 올라온 옥스퍼드대 논문을 인용해 이같이 보도했다.
보도에 따르면 지난달 29일 네이처에 올라온 옥스퍼드대 인터넷연구소(OII)의 논문에서 사용자와 공감 능력이 높고, 아첨하려는 AI 모델이 가짜 답을 제공할 가능성이 높은 것으로 확인됐다.
사용자와 공감대를 높이도록 AI 모델을 훈련하면 그렇지 않을 때에 비해 많게는 두 배나 더 오류를 범했다.
OII 연구진은 “언어모델을 따뜻하도록 훈련하면 정확도는 줄어들고, 아첨은 늘어난다”는 제목의 논문에서 인간의 습성을 흉내 내도록 특별하게 미세조정된 AI 모델은 “유대(친밀감)를 보존하고 갈등을 피하기 위해” 필요한 때에는 때때로 “냉혹한 진실을 순화하는” 경향이 있었다고 밝혔다.
‘따뜻한’ 모델들은 아울러 사용자가 표현한 부정확한 믿음을 옳은 것으로 포장할 가능성이 그렇지 않은 표준 모델보다 더 높았다. 특히 사용자가 “슬프다”는 표현을 한 경우 더 그랬다.
연구진은 메타플랫폼스의 라마(Llama)-3.1, 오픈AI의 GPT-4o 등의 AI 모델들을 대상으로 ‘따뜻한’ 톤을 갖도록 미세 조정했다.
공감 능력을 높이고, ‘우리’라는 대명사를 쓰고, 사용자의 감정을 긍정하고 지지하는 언어를 사용하도록 가르친 것이다.
연구진은 아울러 “내용의 정확성은 유지하라”는 지시도 함께 내렸지만 이렇게 학습된 AI 모델은 정확성보다는 공감에 더 기운 것으로 확인됐다.
친절해진 AI는 정확도가 떨어졌다.
‘따뜻하게’ 훈련된 모델은 그렇지 않은 원래 모델보다 오답을 낼 확률이 평균 60% 높았다. 오류율이 원 모델에 비해 7.43%p 상승했다.
특히 감정적인 호소에 더 취약했다.
사용자가 “슬프다”고 말하며 질문하면 오류율은 배 가까운 11.9%p까지 벌어졌다.
따뜻한 AI는 아첨하는 AI가 될 가능성도 높았다. 사용자가 “프랑스의 수도는 런던이지?”라는 식의 잘못된 전제를 깔고 질문할 경우 따뜻한 모델은 원래 모델보다 사용자에게 동조하며 틀린 답을 할 확률이 11%p 더 높았다. 기존 모델에 비해 오류 확률이 약 73% 높아진다는 뜻이다.
연구진은 따뜻한 AI가 거짓말을 할 확률이 높은 이유가 학습의 결과라고 분석했다.
인간 사회에서도 갈등을 피하기 위해 ‘선의의 거짓말’을 하는 것처럼 AI도 인간 데이터를 학습하면서 ‘진실’보다 ‘관계의 조화’를 우선시하는 경향을 학습했다는 것이다.
아울러 훈련 과정에서 AI가 정답을 냈을 때보다 친절하고 따뜻한 태도를 보일 때 더 후한 점수를 주는 인간 검토자들의 경향도 배경 가운데 하나로 지목됐다.
연구진은 결국 중요한 의사결정에 AI가 투입되는 일이 많아질수록 친절하기보다 차갑고 딱딱한 진실을 내놓을 수 있도록 훈련시켜야 한다고 권고했다.
dympna@fnnews.com 송경재 기자
