'동문서답' 인공지능 한국어 해결사 '코버트' 나왔다
'동문서답' 인공지능 한국어 해결사 '코버트' 나왔다
  • 노윤주 기자
  • 승인 2019.06.11 16:44
  • 댓글 0
이 기사를 공유합니다

[출처=한국전자통신연구원]

동문서답은 인공지능(A.I)이 해결해야 할 과제다. 여전히 인공지능 기본 언어는 영어이기 때문에 한국어 사용 시 오류가 발생하는 경우가 많다. 이에 국내 연구진이 한국어에 특화된 인공지능 개발용 언어 모델을 개발했다.

11일 한국전자통신연구원(ETRI) 언어지능연구그룹 연구진은 A.I 개발을 위한 한국어 언어모델 '코버트(KorBERT)'를 개발했다고 밝혔다.

ETRI는 과학기술정보통신부와 정보통신기술진흥센터(IITP)의 혁신성장동력 프로젝트로 '엑소브레인' 사업을 추진 중이다. 이 사업 과정에서 한국어의 특성을 반영한 언어 모델을 개발한 것이다.

이번에 발표한 버전은 코버트 워드피스(Korean_BERT_WordPiece), 코버트 모폴로지(Korean_BERT_Morphology) 총 두 가지다.

워드피스는 구글어 표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만들었으며 여기에 한국어의 '교착어' 특성까지 반영해 만든 모델이 모폴로지다.

그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어 모델 버트(BERT)를 사용했다. 버트는 문장 내 어절을 한 글자 씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 구글은 40만 건의 위키백과 문서 데이터를 사용해 언어 모델을 개발했다.

ETRI는 구글 모델에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 코버트를 개발했다.

또 최소 단위인 형태소까지 고려해 한국어 특성을 최대한 반영하는 데 집중했다.

의미역 인식, 기계 독해, 단락 순위화, 문장 유사도 추론, 문서 주제분류 등 한국어 처리 태스크 5종 실험 결과 구글이 배포한 한국어 언어 모델보다 코버트의 평균 성능이 4.5% 이상 우수한 것으로 나타났다. 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.

연구진은 이번 코버트의 특징으로 ▲전처리 과정에서 형태소를 분석한 언어모델 ▲한국어에 최적화된 학습 파라미터 ▲방대한 데이터 기반 등을 꼽았다.

코버트는 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며 공공 인공지능 오픈 API데이터 서비스 포털에서 찾아볼 수 있도록 공개한다.

김현기 ETRI 엑소브레인 사업 총괄책임자(박사)는 <데일리토큰>에 "언어 모델은 딥러닝을 사용해 한국어에 관련된 기술 개발을 할 때 공통적으로 쓸 수 있는 재료와 같은 성격"이라며 "실험 결과 구글 버트보다 우수한 성능을 가진 것으로 나왔기 때문에 인공지능의 동문서답 등 문제를 해결할 수 있을 것으로 기대한다"고 말했다.

이어 "한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다"고 말했다.

김지원 과학기술정보통신부 인공지능정책팀 팀장도 "정부 연구개발(R&D)을 통해 개발되는 양질의 A.I 소프트웨어 API 및 데이터를 공개함으로써 개방형 혁신을 촉진할 수 있도록 노력하겠다"고 밝혔다.

현재 구글과 ETRI가 개발한 모델 모두 한 번에 512 개 이상의 단어가 들어간 문서를 처리하지 못한다.

이에 연구진은 한 번에 더욱 많은 언어 데이터를 처리하고 검증 방법을 고도화한 모델을 지속 개발할 계획이다.

 


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.