한국어에서도 AI가 바늘을 찾을 수 있을까요?
최근 연구에 따르면, AI 대형언어모델(LLM)은 한국어 긴 문장에서의 이해도가 낮다고 해요.
이 결과는 AI 성능에 있어 언어와 문맥과의 관계를 잘 보여줍니다.
한국어는 실험한 26개 언어 중 22위를 기록했으며, 컨텍스트가 늘어날수록 성능이 더 떨어진다고 해요.
그나마 오픈AI 모델이 가장 한국어를 잘 이해했다고 하니 흥미롭습니다!
연구진은 "한국어로 된 문장을 영어 또는 폴란드어로 번역하면 정확도가 유의미하게 상승한다"고 밝혔습니다.
예를 들어, 한국어로 64K 길이의 텍스트를 처리했을 때 71%의 정확도를 보이지만,
이를 폴란드어로 번역하면 무려 91%까지 오른다고 하네요.
이는 언어 구조와 학습 데이터의 차이가 얼마나 큰 영향을 미치는지를 보여주는 사례입니다.
또한, 많은 학습 데이터를 보유한 영어, 중국어의 성능도 기대보다 낮았다는 점이 놀랍습니다.
이는 AI 개발 및 개선이 단순히 데이터 양에만 의존할 수 없음을 시사합니다.
여러분은 어떻게 생각하시나요? 긴 문장을 처리할 때 AI의 이해도를 높일 수 있는 방법은 무엇일까요?
원문 링크: https://www.aitimes.com/news/articleView.html?idxno=203715