고려대 산학협력단은 ‘2022년 인공지능 학습용 데이터 구축사업’에 선정됐으며, ‘의료·법률 전문서적 말뭉치 데이터 구축’ 분야를 맡게 됐다고 밝혔다. 과학기술정보통신부가 주관하고, 한국지능정보사회진흥원이 추진하는 사업이다.
고려대 산학협력단은 전문지식이 필요한 의료 및 법률 분야의 말뭉치를 체계적으로 분류해 고부가가치 말뭉치 데이터를 구축하게 된다. 말뭉치(코퍼스 corpus)는 컴퓨터로 가공-처리-분석할 수 있도록 저장된 언어의 자료를 말한다.
의료와 법률 전문도서 각 200종을 선정해 1억 어절 이상의 정제된 말뭉치를 구축하는 것을 목표로 하고 있다. 이를 위해 최신 전문도서의 디지털 파일을 수집하고, 의료·법률·언어 분야 전문가와 함께 크라우드 워커(작업 참여자)를 구성한다. 보다 정밀하게 라벨링된 인공지능 학습용 데이터세트를 제공할 예정이다.
이번 사업 추진을 위해 고려대 산학협력단은 6개 기관과 컨소시엄을 구성했다. 군자출판사, 박영사, 범문에듀케이션, 법문사 등 의료 및 법률분야 전문 출판업체 4개와 데이터 품질 관리 업체인 나라지식정보, 학습모델 개발 및 평가를 수행할 한양대 산학협력단 등이다.
사업은 올해 12월까지 7개월간 수행한다. 사업비는 정부출연금 20억원, 민간부담금 2억4250만원으로 총 22억4250만원이다.
컨소시엄 이외 기관 및 기업과도 협업을 계획하고 있다. 구축과정에서는 연구소, 출판사 및 AI 스타트업이 참여하는 연합포럼을 구성해 의료 및 법률 분야의 자연어 처리 기술을 개발할 예정이다. AI 전문기업인 심심이, 엘박스, 바이칼에이아이와도 연계해 인공지능 개발에 필요한 기반 데이터로 지원할 계획이다.
이번 사업의 총괄 책임자는 그동안 의료분야 말뭉치 데이터세트 표준 및 자연어 처리 기술 개발을 선도해온 고려대 안암병원 순환기내과 주형준 교수가 맡았다.
주형준 교수는 “고품질의 말뭉치는 인공지능의 활용을 극대화할 수 있는 가장 중요한 기반 중 하나”라면서 “높은 정확도와 전문성이 요구되는 의학과 법률 분야에서 고도로 정제된 말뭉치를 구축함으로써 다양한 인공지능 솔루션이 개발될 수 있는 계기가 될 것으로 기대한다”고 밝혔다.