한국전자통신연구원(ETRI)은 10일, 최첨단 한국어 언어모델 '코버트'를 연구원 홈페이지를 공개했다고 오늘(11일) 밝혔다.
언어모델은 인공지능이 딥러닝으로 언어를 처리할 때, 문장의 어절(띄어쓰기가 된 말의 덩어리)을 숫자로 처리하기 위해 필요한 것이다. 지금까지는 지난해 11월 공개된 구글의 언어모델 '버트(BERT)'를 사용했다.
버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 구글은 40여 만건의 위키백과 문서 데이터를 사용해 한국어용 버트를 개발했다.
ETRI 연구진은 지난 10년 간의 기사와 백과사전의 정보를 학습시켜 구글의 버트보다 많은 한국어 데이터를 가진 코버트를 개발했다. 여기에 사용된 데이터는 23GB에 달한다.
또한 연구진은 한국어의 특성에 적합한 모델도 함께 공개했다. 한국어는 어근에 조사가 붙는 교착어이다. 이에 연구진은 한국어의 최소 단위인 형태소를 반영하기 위해 45억 개의 형태소를 학습시킨 모델도 개발했다.
코버트는 성능을 확인하는 5가지 기준(의미역인식, 기계독해, 단락순위화, 문장유사도추론, 문서주제분류)에서 구글의 버트보다 성능이 평균 4.5%p 정도 우수했다.
연구진은 코버트를 활용하면 서비스 성능 및 경쟁력을 높일 수 있기 때문에 개발자들이 딥러닝 연구, 교육 등의 목적으로 코버트를 사용할 것으로 기대했다. 실제로 올해 3월부터 한컴오피스 지식검색 베타버전에 코버트가 활용되고 있다.
하반기에는 코버트를 활용한 ‘법령분야 질의응답 API(응용 프로그래밍 인터페이스)’를 추가 공개하고 ‘유사 특허 지능형 분석기술’도 출시할 계획이다.
코버트의 공개소식을 들은 네티즌들은 "한국어에 특화된 모델이 나왔다니 아주 좋은 소식이네요.", "이제 더 좋은 인공지능 상품이 나오겠군."이라는 반응을 보이고 있다.
한편 코버트는 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경에서 사용가능하며, 공공인공지능 오픈 API‧데이터 서비스 포털에서 쉽게 찾아볼 수 있다.