"AI, EQ 높이면 오류도 많아진다"

[파이낸셜뉴스]

사용자와 교감을 잘하는 따뜻한 인공지능(AI) 모델은 그렇지 않은 원래 모델에 비해 오류를 일으킬 가능성이 훨씬 더 높은 것으로 확인됐다. 로이터 연합

사용자에게 친절한 인공지능(AI) 모델이 오류를 일으킬 가능성이 더 높다는 연구 결과가 나왔다.

정보기술(IT) 전문 매체 아스테크니카는 2일(현지시간) 과학 학술지 ‘네이처’에 올라온 옥스퍼드대 논문을 인용해 이같이 보도했다.

보도에 따르면 지난달 29일 네이처에 올라온 옥스퍼드대 인터넷연구소(OII)의 논문에서 사용자와 공감 능력이 높고, 아첨하려는 AI 모델이 가짜 답을 제공할 가능성이 높은 것으로 확인됐다.

사용자와 공감대를 높이도록 AI 모델을 훈련하면 그렇지 않을 때에 비해 많게는 두 배나 더 오류를 범했다.

OII 연구진은 “언어모델을 따뜻하도록 훈련하면 정확도는 줄어들고, 아첨은 늘어난다”는 제목의 논문에서 인간의 습성을 흉내 내도록 특별하게 미세조정된 AI 모델은 “유대(친밀감)를 보존하고 갈등을 피하기 위해” 필요한 때에는 때때로 “냉혹한 진실을 순화하는” 경향이 있었다고 밝혔다.

‘따뜻한’ 모델들은 아울러 사용자가 표현한 부정확한 믿음을 옳은 것으로 포장할 가능성이 그렇지 않은 표준 모델보다 더 높았다. 특히 사용자가 “슬프다”는 표현을 한 경우 더 그랬다.

연구진은 메타플랫폼스의 라마(Llama)-3.1, 오픈AI의 GPT-4o 등의 AI 모델들을 대상으로 ‘따뜻한’ 톤을 갖도록 미세 조정했다.

공감 능력을 높이고, ‘우리’라는 대명사를 쓰고, 사용자의 감정을 긍정하고 지지하는 언어를 사용하도록 가르친 것이다.

연구진은 아울러 “내용의 정확성은 유지하라”는 지시도 함께 내렸지만 이렇게 학습된 AI 모델은 정확성보다는 공감에 더 기운 것으로 확인됐다.

친절해진 AI는 정확도가 떨어졌다.

‘따뜻하게’ 훈련된 모델은 그렇지 않은 원래 모델보다 오답을 낼 확률이 평균 60% 높았다. 오류율이 원 모델에 비해 7.43%p 상승했다.

특히 감정적인 호소에 더 취약했다.

사용자가 “슬프다”고 말하며 질문하면 오류율은 배 가까운 11.9%p까지 벌어졌다.

따뜻한 AI는 아첨하는 AI가 될 가능성도 높았다. 사용자가 “프랑스의 수도는 런던이지?”라는 식의 잘못된 전제를 깔고 질문할 경우 따뜻한 모델은 원래 모델보다 사용자에게 동조하며 틀린 답을 할 확률이 11%p 더 높았다. 기존 모델에 비해 오류 확률이 약 73% 높아진다는 뜻이다.

연구진은 따뜻한 AI가 거짓말을 할 확률이 높은 이유가 학습의 결과라고 분석했다.

인간 사회에서도 갈등을 피하기 위해 ‘선의의 거짓말’을 하는 것처럼 AI도 인간 데이터를 학습하면서 ‘진실’보다 ‘관계의 조화’를 우선시하는 경향을 학습했다는 것이다.

아울러 훈련 과정에서 AI가 정답을 냈을 때보다 친절하고 따뜻한 태도를 보일 때 더 후한 점수를 주는 인간 검토자들의 경향도 배경 가운데 하나로 지목됐다.

연구진은 결국 중요한 의사결정에 AI가 투입되는 일이 많아질수록 친절하기보다 차갑고 딱딱한 진실을 내놓을 수 있도록 훈련시켜야 한다고 권고했다.

dympna@fnnews.com 송경재 기자

"AI, EQ 높이면 오류도 많아진다"

딸과 함께 상담 온 50대 "70세까지 일하려는데…노후 준비 괜찮을까" [재테크 Q&A]

"은행 명의라 믿었는데…" 가상계좌의 함정 [조선피싱실록]

지방은행 기업대출 외형 성장에도…제조업 비중 뒷걸음

"115cm에서 바라본 세상"

"패션도 하나의 아트로 대중에 다가가야" 석운윤 윤석운 대표 [희망 2026 부산, 청년이 뛴다]

부산콘서트홀서 4차례 마티네 콘서트

"어머니, 이번엔 봉투가 얇아요"… '월 200' 학원비에 효도마저 사치가 된 가장들 [얼마면 돼]

서울교육청, 당뇨병 학생 학교에 응급물품·투약환경 지원

부산 중구 숙박시설서 불, 인명피해 없어

신반포 19차·25차 재건축 조합원, 시공사별 수익구조 '저울질'