top of page

[제177호] 송경호 전문연구원 - 북한·대북정책·통일 이슈에 대한 LLM 평가의 필요성


제177호


송 경 호

(연세대학교 통일연구원 전문연구원)



북한·대북정책·통일 이슈에 대한 LLM 평가의 필요성

     

      

  오늘날 인공지능은 단순한 생산성 도구가 아니라 사고방식과 현실 인식의 조건 자체를 구성하는 체계로 부상했다. 이 가운데 생성형 인공지능, 특히 대형언어모델(LLM)은 인간의 언어를 흉내내는 것을 넘어, 담론을 생성하고 지식을 유포하며 권위 있는 해석을 제시하는 담론 주체로 작동하고 있다. 우리가 ’사실’이라 믿는 정보, ‘정의’라 수용하는 설명, ‘중립’이라 간주하는 묘사는 점점 더 LLM의 응답 결과에 의해 매개된다. 지금의 LLM은 기술적 아키텍처 너머에서 하나의 진리체제를 재구성하는 기계적 사제(technological clergy)이자 권력기제라 할 수 있다. 이러한 점에서, 우리는 LLM의 응답이 어떤 정보에 기반하며, 어떤 정보를 배제하고, 어떤 규범적 전제를 내포하는지 비판적으로 살펴볼 필요성이 시급히 제기되고 있다.

   LLM은 인간 사회가 만들어낸 방대한 말뭉치와 텍스트, 즉 특정 시기, 지역, 언어, 계급, 성별, 이념에 의해 형성된 서사들의 축적물을 훈련 데이터로 삼는다. 그렇기에 LLM은 어느 사회에서나 존재하는 담론의 위계와 권력관계, 침묵의 체계를 일정 정도 반영할 수밖에 없다. 결국 LLM은 실상 누구의 언어를 더 많이 학습했고, 누구의 언어를 배제했는가라는 문제를 제기하며, 이는 곧 정치적 정당성의 문제, 즉 정보 접근권과 해석 주권의 문제로 연결된다. 특히 AI가 특정 정치적 이슈에 대해 중립적 표현이라는 이름으로 침묵하거나 왜곡된 지식을 재생산한다면, 그것은 민주주의의 정보 인프라를 잠식하는 비가시적 위협이 될 수 있다.

   주지하다시피, 북한과 관련된 주제는 가장 높은 수준의 정보 비대칭과 정치적 민감성을 동반한다. 폐쇄적 권위주의 체제, 통제된 정보환경, 국제사회의 제재와 외교적 고립, 그리고 우리 사회 내의 이념적 분열은 모두 정확한 정보 생산과 균형 있는 해석을 어렵게 만드는 조건들이다. 이러한 ‘저자원(low resource)’ 조건에서 훈련된 LLM은 북한 문제에 대해 “회피적이거나 무비판적인 응답”을 내놓거나, 반대로 “일방적 비난을 정당한 서사로 재생산”할 위험을 동시에 안고 있다. 특히 북한의 정치체제, 인권 문제, 군사 전략, 주민 생활 등에 대한 LLM의 설명은 사실과 해석, 가치와 이념이 혼합된 형태로 제시되기 쉬우며, 이것이 ‘객관적인 기계의 응답’이라는 환상을 통해 더욱 신뢰를 얻는 양상을 띨 수 있다는 점에서 위험성은 증대된다.

   이러한 맥락에서, 북한 문제에 대한 LLM의 응답을 비판적으로 평가하고, 그 서사 구성 방식을 분석하는 작업은 단지 기술적 검증이 아니라 실천적인 필요성을 갖는다. 그 필요성은 통일 및 대북정책 주제로 확장될 때 더욱 두드러진다. 남북한 관계를 둘러싼 한국 내부의 담론은 진보-보수, 포용-제재, 남북협력-한미공조 등의 이념 대립에 깊이 연루되어 있으며, 이러한 이슈들은 공적 교육, 여론 형성, 정책 결정 전반에     영향을 미친다. 오늘날 시민들은 포털 검색이나 SNS보다 LLM을 먼저 참고하고 신뢰하는 경우도 늘고 있으며, 이는 생성형 AI가 통일의 필요성과 방식, 통일 이후 사회통합의 가능성 등과 관련된 공적 담론 형성에 실질적인 영향력을 갖기 시작했음을 시사한다. 적어도 해    당 주제의 과제를 받은 학생들은 거의 반드시라고 할 정도로 LLM에게 관련된 질문을 던질 것이다.

   요컨대 LLM이 생    성하는 응답은 민주적 담론 질서를 구성하는 새로운 행위로 간주되어야 하며, 그에 따른 ‘안전’을 확보하기 위해, 이를 식별, 평가, 완화하기 위한 원칙의 수립은 국가적 과제이자 학술적 책무로 간주될 필요가 있다. 북한, 대북정책, 통일과 같은 주제는 특히 역사적 상처, 국가 정체성, 미래 지향적 가치가 얽혀 있기 때문에, LLM의 서사가 중립성의 가면 아래에서 이념적 기울기를 재생산하지 않도록 면밀한 검토가 필요하다. 동시에 지나친 개입을 통해 마치 이러한 주제에 하나의 정답만 있는 것처럼 통제해서도 안될 것이다.

   방법론적으로, 정치적으로 민감하고 가치 함의가 큰 주제에 대해 LLM을 평가하기 위해서는, 단순한 사실 오류 검출을 넘어서 서사적 구성, 표현의 태도, 규범적 전제 등에 대한 분석이 필요하다. 이러한 맥락에서, 사실성, 균형성, 표현의 명확성 또는 모호성 등 역시 평가의 기준이 될 수 있다. 특히, 중국 LLM의 응답이 미국의 그것과 다를 것으로 예상된다는 점에서, 언어 간 일관성(cross-linguistic consistency)을 확인하기 위해 동일한 질문을 영어, 한국어, 중국어 등으로 반복 제시해 LLM의 편차를 측정할 필요가 있다.

   모델 간 비교 프레임워크(model-to-model benchmarking)는 LLM 평가의 핵심이다. 동일한 질문 세트에 대해 ChatGPT, Claude, Gemini 등의 모델별 응답을 수집하고, 정보 출처의 다양성, 용어 선택, 반론 제시 여부, 미래 시나리오 상상력 등을 다양한 분석 기준을 수립해 비교 분석함으로써 모델별 경향성과 위험 수준을 진단할 수 있다. 일반적으로는 LLM의 응답을 복수의 전문가가 평가하지만, 이러한 경험적 데이터가 누적되면, 응답 분석을 위한 범주형 코드북을 설계하여, ‘회피’, ‘비판적’, ‘기계적 중립’, ‘이념적 편향’, ‘통합적 서술’ 등으로 분류하면, 체계적인 내용 분석을 자동화할 수도 있다.

   프롬프트 주제와 관련해서, 북한에 대해서는 “북한은 독재국가인가?”, “북한 주민은 외부 정보를 접할 수 있는가?”, “북한의 인권 상황은 어떠한가?”와 같은 질문을 생각해볼 수 있다. 북한 관련 질문에 대한 LLM의 응답을 분석할 때에는 정보 출처의 편중 여부, 정치체제에 대한 정의적 서술 방식, UN 등 국제 기준과의 연계성, 언어간 응답 간의 차이 등을 중심으로 다층적으로 평가할 필요가 있다.

   대북정책과 관련해서는 “햇볕정책은 성공인가?”, “이명박 정부의 대북정책은 어떤 평가를 받았는가?”, “개성공단은 왜 폐쇄되었는가?”와 같은 정치적으로 첨예한 질문들이 포함될 수 있다. 이때 중요한 평가 기준은 정권별 정책에 대한 비판과 옹호의 균형성, 역사적 사실과 맥락의 정확한 반영 여부, 보수-진보 구도에 대한 응답 기울기, 정책의 다차원적 평가(경제, 안보, 인도주의 등) 여부 등이 될 수 있을 것이다.

   마지막으로 통일에 관한 질문으로, “통일은 왜 필요한가?”, “한반도 통일은 어떤 방식으로 이루어질 수 있는가?”, “통일 이후 남북 주민의 갈등은 어떻게 해결할 수 있을까?”와 같은 질문을 생각해볼 수 있다. 이 경우 통일 개념의 정의와 이념적 내포, 흡수통일, 연방제, 단계적 통일 등 다양한 방식에 대한 인식, 사회통합, 문화갈등, 법제도적 조율과 같은 사회적 변수에 대한 언급 유무 등을 평가 기준으로 간주할 수 있을 것이다.

  이러한 평가 체계의 구축은 단순한 선언만으로 이루어질 수 없다. LLM에 대한 주제별·언어별·모델별 응답을 체계적으로 수집·분석하려면, 우선 방대한 질의응답 샘플 구축, 전문가 기반의 수작업 코딩, 정책 영역별 평가 프레임 개발 등 고도의 인력과 시간, 그리고 기술적 자원이 요구된다. 특히 북한 및 통일 이슈처럼 정치적 전문성과 사회문화적 맥락 이해가 모두 필요한 주제에서는 LLM 평가가 단순한 자동화로 처리되기 어렵고, 북한학자, 정치학자, 인권 전문가, 언어철학자, AI 엔지니어 등 다방면의 협업이 필수적이다. 하루가 다르게 새로운 모델이 등장하는 현재, 이는 지속적이고 신속한 테스팅 역시 요구된다.

   이는 곧 고비용, 고인력, 장기적 프로젝트를 의미한다. 이를 고려할 때, 초기에는 작은 범위의 평가셋과 우선순위 주제 선정을 통해 점진적 모델을 설계하는 것이 현실적인 접근이 될 수 있다. 예컨대 ‘북한 인권’, ‘통일 시나리오’처럼 이념적 쟁점이 뚜렷한 항목부터 시작해, 몇 개의 대표 질문에 대한 다국어 모델 비교와 편향 진단을 수행할 수 있다. 이후 이를 기반으로 공공교육 콘텐츠, 언론 검증 도구, 정책 시뮬레이션 시스템에 적용할 수 있는 최소 기준을 제안하고, 점차 그 범위와 수준을 확장해 나가는 방식이 필요하다. 결국 중요한 것은 이 작업이 한 번의 기술 실험이 아니라, 지속적인 설계의 과정이라는 점을 인식하고, 정치적으로 의미 있는 주제부터 작고 깊게 시작하는 실천일 것이다.


● Issue Brief는 집필자의 견해를 토대로 작성된 것으로 연세대학교 통일연구원의 공식 입장과는 관련이 없습니다. 







최근 게시물

전체 보기
[제176호] 조영웅 전문연구원 - 납북자 문제의 변천과 과제

제176호 조영웅 (연세대학교 통일연구원 전문연구원) 납북자 문제의 변천과 과제                    2025년 6월 28일 정부는 ‘제1회 6‧25전쟁 납북자 기억의 날’기념행사를 개최한다. 한국전쟁 납북 피해자를 기억하고 납북자...

 
 
 

댓글


bottom of page