크라우드웍스, AI 언어 모델 사업 ‘본격화’…웍스원 개발

입력
기사원문
정두용 기자
TALK
본문 요약봇
성별
말하기 속도

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

[제공 크라우드웍스]

[이코노미스트 정두용 기자] 크라우드웍스가 소형언어모델(SLM) ‘웍스원’(WorksOne)을 개발했다고 25일 밝혔다. 회사는 이번 제품을 통해 ‘SLM 활용한 기업 맞춤형 생성형 AI’ 수요 증가에 대응할 방침이다.

크라우드웍스 측은 “국내 기업들이 요구하는 거대언어모델(LLM)을 구축하는 과정에서 잦은 취약점이 발생함을 발견했다”며 “영어 중심으로 학습된 LLM이 한국어는 물론, 한국의 비즈니스 용어를 원활히 이해하지 못해서 발생한 현상”이라고 전했다.

웍스원은 영어로 학습된 LLM에서 발생하는 데이터 격차의 문제를 해결하기 위해 개발됐다. 회사 측은 “웍스원은 한국의 비즈니스 환경에 최적화된 모델”이라며 “70억 매개변수를 가진 오픈소스 모델과 1만개의 고품질 데이터셋으로 구현했다”고 전했다.

웍스원의 차별점으로는 ‘기업에서 선호하는 비즈니스 친화적(Business-friendly) 답변 제공’을 꼽았다. 비즈니스 맞춤형 데이터셋을 직접 구축하고 모델에 학습시켜 최적화해 서비스를 구현했다는 설명이다.

회사는 비즈니스 맞춤형 데이터셋을 금융·유통·공공기관 등 기업별 데이터 특징을 분석해 마련했다. 비즈니스 특화 용어는 물론 문체·보고 유형 등도 분석했다. 회사 측은 “번역된 데이터의 사용이 많고, 학습 데이터의 원본이 한국어로 된 고품질 데이터를 찾아보기 힘들다”며 “번역된 데이터에는 번역 오류가 포함될 수 있으며, 모델이 문맥을 잘못 이해하거나 부정확한 판단을 내릴 수 있다”고 지적했다.

크라우드웍스는 이 문제를 해결하기 위해 고품질 데이터셋 구축부터 공을 들였다. 국내 최다 규모인 60만 데이터 작업자 풀을 기반으로 전문 역량을 가진 고급 데이터 작업자를 선발하고, 비즈니스 언어 활용과 표현력, 문서 구조화 능력 등 자체 검증을 실시했다. 검증에통과한 평균 경력 15년 이상의 대기업 기획 업무 경험을 가진 전문가들이 데이터셋 구축에참여해 고품질 데이터를 직접 완성했다.

웍스원은 기업 내부 시스템과 연동이 원활한 점도 강점이다. 웍스원은 지정한 키(Key)값과 구조를 갖춘 JSON 형식의 답변을 안정적으로 출력할 수 있다. 사내 레거시 시스템과 쉽게 통확장하기가 쉬워 시스템간 시스템 간 데이터 교환 및 상호운용성을 향상시킬 수 있다.

자체 테스트 결과, GPT를 포함한 타 모델들의 경우 JSON 답변에 노이즈가 포함되거나 항목이 빠지는 결과를 확인했지만 웍스원은 요청한 키값에 따라 안정적으로 답변을 생성했다.

이형주 크라우드웍스 최고기술책임자(CTO)는 “웍스원은 비즈니스 용어 및 문서 환경에 대한 이해도가 높은 전문가가 직접 만든 한국어 데이터로 학습시킨 비즈니스 특화 모델로서이러한 고품질 데이터로 학습한 모델은 업계에서 유일하다”며 “앞으로도 AI 데이터부터 LLM까지 기업 혁신에 필요한 모든 것을 제공하겠다”고 전했다. 

기자 프로필

TALK

유익하고 소중한 제보를 기다려요!

제보
구독자 0
응원수 0

“당신을 듣다, 진실을 말하다.” IT·전자·콘텐츠 분야의 소식을 알기 쉽게 전하겠습니다.

이 기사는 언론사에서 IT, 경제 섹션으로 분류했습니다.
기사 섹션 분류 안내

기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다. 언론사는 개별 기사를 2개 이상 섹션으로 중복 분류할 수 있습니다.

닫기
이 기사를 추천합니다
3