사회 검찰·법원

인텔리콘연구소, 국내 법률 특화 언어모델 '코알라' 개발

정원일 기자

파이낸셜뉴스

입력 2024.02.23 17:32

수정 2024.02.23 17:32

국내 법률에 특화된 언어모델 개발
로펌 뿐 아니라 다양한 응용서비스 적용돼
인텔리콘연구소가 국내 법률에 특화된 언어모델 '코알라'의 개발에 성공했다고 밝혔다/사진=인텔리콘연구소
인텔리콘연구소가 국내 법률에 특화된 언어모델 '코알라'의 개발에 성공했다고 밝혔다/사진=인텔리콘연구소

[파이낸셜뉴스] 인텔리콘연구소(대표 임영익)가 국내 최초로 우리나라 법률에 특화된 언어모델(sLLM)인 '코알라(KOALLA : Korean Adaptive Legal Language AI)’의 개발에 성공했다고 23일 밝혔다.

'코알라1.0'은 기업이나 로펌의 대용량 문서를 기반으로 하는 생성AI 시스템뿐 아니라 리걸테크의 다양한 응용 서비스에 적용이 가능하다는 설명이다.

GPT와 같은 거대언어모델(LLM)은 거짓 답변을 만들어 내는 환각현상 때문에 법률, 의료 등에 직접 사용할 경우 위험성이 존재한다. 이 같은 문제의 해결책으로 주목받는 것이 근거에 기반을 둔 검색증강생성(RAG) 모델이다.

업계에서도 어떤 질문에도 응답하는 거대언어모델보다는 자신만의 내부 데이터를 기반으로 특정 분야에 정교한 답을 생성하는 RAG 방식이나 특화된 언어모델에 대한 선호가 높아지고 있다. 이 같은 점에서 미국의 거대언어모델을 이용하는 대신 한국 법률에 특화된 거대언어모델을 직접 적용하는 것은 국내 리걸테크 산업에 큰 변화를 줄 것으로 평가된다.


'코알라'는 메타의 Llama-2(7B,13B)를 파인튜닝(Fine-Tuning)해서 개발됐다. 인텔리콘은 코알라의 성능을 높이기 위하여 널리 알려진 DPO(Direct Preference Optimization)같은 기법 외에도 학습 데이터 구성 자체를 최적화하는 데이터 재규격화 기술을 개발해 추가 학습에 사용했다.
수백만개의 법률, 판례, 상담자료, 주석자료 등을 기반으로 학습 데이터 규격화 작업을 한 후, 성능향상에 도움이 되는 데이터만을 선별해 재규격화한 것이다.

임영익 대표는 “학습 데이터 구조 자체에 집중하는 연구를 하면서 데이터 재규격화 기법을 고안하게 됐고, 소량의 데이터로 법률 특유의 성능을 극대화할 수 있다는 것을 확인했다”고 설명했다.
이어 “앞으로 코알라2.0 개발 및 고도화를 진행하면서 경량 모델 블랜딩(Blending) 기술을 적용해 거대언어모델에 근접시키는 ‘앙상블 브레인’을 개발할 계획"이라고 덧붙였다.

one1@fnnews.com 정원일 기자

fnSurvey