'토종 생성형 AI'가 문장 입력하면 2초만에 이미지 만든다

ETRI, 이미지 생성 모델 3종 및 대화형 시각언어모델 2종 일반에 공개
오픈AI의 '달리 3'보다 5배 빠르게 이미지 생성
이미지나 영상을 놓고 질의응답

ETRI 연구진이 문장을 입력해 이미지를 만드는 코알라(KOALA) 모델을 시연하고 있다. ETRI 제공

[파이낸셜뉴스] 한국전자통신연구원(ETRI)이 문장을 입력하면 2초만에 이미지를 만드는 생성형 인공지능(AI)과 시각지능 기술을 결합한 기술을 일반에 공개했다. 이 기술은 오픈AI에서 공개한 '달리(DALL-E) 3'보다 5배 빠르다.

ETRI는 문장을 입력해 이미지를 만드는 '코알라(KOALA)' 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바(Ko-LLaVA)'2종 등 총 5종 모델을 개발했다.

26일 ETRI에 따르면, 이 기술의 핵심 특허는 지식 증류 기반 경량화된 스테이블 디퓨전 기술이다.

AI를 활용, 지식을 쌓아 작은 모델로 대형모델의 역할을 수행할 수 있는 기술이다.

ETRI는 "이 모델을 공개하는 이유는, 모델이 크면 수천 대의 서버가 필요한데 모델을 줄여 중소기업 이용을 활성화해 관련 시장 생태계를 조성한다는 취지"라고 말했다. 향후 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전 할 계획이다.

먼저, 코알라(KOALA) 모델은 공개 SW 모델의 25억개 파라미터를 지식 증류 기법을 적용해 7억개로 획기적으로 줄였다.

파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다. 연구진은 모델 크기를 3분의 1로 축소했고, 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배 빠르게 개선했다.

ETRI 측은 "모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄여, 최근 문장으로 이미지를 만드는 국내·외 경쟁 속에서 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다"고 설명했다.

실제로 '달 아래 화성에서 책을 읽고 있는 우주비행사의 사진'이라는 문장을 입력하자, '코알라 700M'은 1.6초 만에 이미지를 뚝딱 만들어 냈다. 카카오브레인의 칼로는 3.8초, 오픈AI의 달리 2와 달리 3은 각각 12.3초, 13.7초가 걸렸다.

또한 '코라바(Ko-LLaVA)'모델은 챗GPT와 같은 대화형 AI에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델이다.

이 모델은 미국 위스콘신대학교 매디슨과 ETRI 연구진의 국제공동연구로 개발했다. 인공지능 분야 최우수학회인 뉴립스(NeurIPS)에 발표했고, GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(LLaVA)를 활용했다.

이번에 공개한 모델들은 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다.

ETRI 이용주 시각지능연구실장은 "향후 생성형 AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획"이라며 "글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 AI 기술을 효과적으로 활용할 기회를 제공할 예정"이라고 말했다.

monarch@fnnews.com 김만기 기자

'토종 생성형 AI'가 문장 입력하면 2초만에 이미지 만든다

fnSurvey