캄보디아-싱가포르 대규모 언어 모델 개발협력… AI, 크메르어 정복 ‘목전’

기사입력 : 2025년 05월 09일

101872▲ 곧 학교에서도 크메르어 AI 도구를 수업에 활용할 수 있게 된다.(ChatGPT-4o 생성 이미지)

인공지능은 우리의 삶과 일, 학습 방식을 빠르게 변화시키고 있다. 하지만 지금까지 대부분의 AI 도구들은 영어, 중국어 같은 세계 공용어만을 ‘이해’해왔기 때문에, 많은 캄보디아인들은 일상에서 챗봇, 음성비서, 자동 번역 앱 등을 사용하는 데 있어 소외될 수밖에 없었다.

이런 상황이 바뀌기 시작했다. 올해 초 AI 포럼 캄보디아와 AI 싱가포르가 체결한 협약은 중요한 전환점을 나타낸다. 바로 동남아시아 지역 협력 프로젝트인 SEA LION의 일환으로, 크메르어 기반 대규모 언어 모델(LLM)을 개발하는 첫걸음이었다.

이번 업무협약(MoU)은 2025년 1월 프놈펜에서 체결됐으며, 정부, 학교, 스타트업, NGO 등 누구나 자유롭게 사용할 수 있는 오픈소스 크메르어 AI 모델 개발을 목표로 하고 있다.

 

그렇다면 대규모 언어 모델이란 정확히 무엇일까?

간단히 말해, 대규모 언어 모델(LLM)은 매우 똑똑한 텍스트 비서와 같다. 이 모델은 책, 웹사이트, 기사에 담긴 수백만 또는 수십억 개의 문장을 읽고 ‘학습’한다. 이런 훈련 과정을 거친 후에는 이야기를 쓰거나, 개념을 설명하거나, 질문에 답하거나, 텍스트를 번역하거나, 긴 글을 요약하는 등 다양한 작업을 할 수 있게 된다. 이미 ChatGPT나 Gemini 같은 도구에서 이런 기능을 접해본 적이 있을 것이다.

이제 그 강력한 능력을 크메르어에 맞춰 훈련한다고 상상해보자.

크메르어 LLM이 생기면 마침내 캄보디아어로 소통하는 AI 도구들을 만들 수 있게 된다. 이는 농민, 자영업자, 학생 등 지역 주민들의 질문에 답할 수 있는 크메르어 챗봇 개발을 가능하게 하고, 크메르어 음성 인식, 기계 번역, 그리고 영어를 못 해도 누구나 접근할 수 있는 디지털 서비스의 문을 여는 계기가 된다.

 

하지만 크메르어 AI를 만드는 일은 쉽지 않다

영어와 달리 크메르어는 온라인에 존재하는 데이터가 많지 않다. 게다가 크메르어는 단어 사이에 띄어쓰기가 잘 없기 때문에 컴퓨터가 어디서 한 단어가 끝나고 다른 단어가 시작되는지를 알아내기 어렵다. 또한 많은 크메르어 자료들이 깔끔한 디지털 텍스트가 아니라 스캔된 PDF나 이미지 형태로 존재해 컴퓨터가 학습하기에 적절하지 않다. 이런 모든 요소들이 컴퓨터에 언어를 ‘가르치는’ 작업을 더 어렵게 만든다.

그래서 이번 캄보디아-싱가포르 협력은 단순히 언어 모델을 만드는 데 그치지 않고, 신문 아카이브, TV 자막, 공공 보고서 같은 자료들을 수집해 데이터 기반을 확충하는 작업까지 포함된다.

양해각서 체결 이후 이미 진전이 있었다. SEA LION 팀은 동남아시아 다른 언어로 된 LLM 초기 버전을 선보였고, 크메르어 버전도 현재 개발 중이다. ‘SEA LION 7B’라는 공유 모델을 바탕으로 진행되며, 캄보디아 연구진과 기술자들이 훈련을 받고 크메르어 문자에 최적화된 기술 작업도 병행되고 있다. 시연용 데모는 2025년 말 전에 공개될 예정이며, 모델 코드와 데이터는 모두에게 무료로 제공될 계획이다.

이는 곧 학교에서도 크메르어 AI 도구를 수업에 활용할 수 있게 된다는 뜻이다. 예를 들어, 교사는 이 모델을 활용해 크메르어로 독해 질문을 만들거나 긴 글을 요약하게 할 수 있다. 학생들은 크메르어와 영어 사이 번역 연습을 하거나, 학교에 대한 질문에 답하는 간단한 챗봇을 직접 만들어볼 수도 있다. 대학에서는 크메르어 뉴스를 분석하거나 가짜 뉴스를 탐지하고, 에세이 작성을 돕는 등 다양한 연구 활동에 이 모델을 활용할 수 있다. 장애 학생을 위한 음성 인터페이스 등 접근성 향상에도 큰 도움이 될 것이다.

물론 주의할 점도 있다. AI는 완벽하지 않다. 때로는 틀린 답을 주거나 학습한 데이터에 담긴 편견을 그대로 반영하기도 한다. 그래서 유네스코는 교사와 학생들이 AI를 진리의 원천이 아니라 ‘보조 도구’로 활용할 것을 권고한다. 사실을 확인하고, AI는 사고를 대체하는 것이 아니라 사고를 돕는 수단이라는 점을 인식하는 것이 중요하다.

그럼에도 이 프로젝트는 캄보디아에게 큰 도약이다. 크메르어 LLM의 등장은 캄보디아인이 단순히 글로벌 기술의 ‘소비자’가 아닌 ‘생산자’로 거듭난다는 의미다. 자신들의 언어로 자신만의 도구를 만드는 일은, 프놈펜의 학생부터 시골의 농민까지 디지털 전환의 혜택에서 누구도 소외되지 않도록 하는 데 중요한 역할을 할 것으로 기대된다.