기업들, 모바일·소비자 위해 AI 경량화 합류
sLM·경량 AI…실리콘밸리도 가벼운 AI가 대세
'경량화'가 AI(인공지능) 시장의 대세로 부상하고 있다.
거대 AI는 고비용이다. 경량 AI는 작고 경제적이지만 속도는 뒤처지지 않는다. 경량화는 AI 학습과 추론에 필요한 LLM(거대언어모델)을 소형언어모델(sLM)로 대체하고 데이터를 줄여 처리 속도를 높이는 방식이다. 기업·소비자 호응이 확산 중이다.
![]() |
| ▲ 인공지능도 소형화 경량화가 대세로 부상하고 있다. AI가 추론연산 하는 모습을 형상화한 이미지. [빙 이미지 크리에이터] |
20일 관련업계에 따르면 삼성전자와 LG, LG유플러스, SK텔레콤, 카카오 등은 데이터와 연산의 크기를 줄이되 기능은 특성화한 AI 경량화 모델 개발에 적극 나서고 있다. 소비자용 상품에 AI를 적용하려면 경량화가 필수적이라는 판단에서다.
삼성전자는 고성능 AI 모델을 기기의 프로세서와 메모리, 배터리에 맞게 최적화하는 작업을 진행 중이다. 최우선 목표는 경량화와 하드웨어 최적화, 데이터 처리 가속화다.
삼성전자는 알고리즘 단순화와 연산 과정 효율화로 응답 속도를 높이고 데이터는 필수 요소만 남겨 경량화를 추진한다. 여기에 대형 모델의 추론을 작은 모델이 모방하는 지식 증류 기법까지 더해 가볍고 빠른 AI 모델을 만들어낼 계획이다.
삼성전자는 AI 경량화에 필요한 기술력을 일정 수준 확보했다고 보고 제품에 실제 적용하는 작업도 서두르고 있다. 갤럭시 스마트폰을 비롯해 올해 출시하는 소비자 판매 제품들에 AI 경량화 모델을 도입해 한층 강화된 AI 기술을 선보인다는 목표다.
LG는 계열사들의 연합으로 경량화 연구를 가속화한다는 전략이다. LG AI 연구원의 AI 기술력을 주축으로 계열사별 특성화 기술을 보태겠다는 것이다.
LG는 경량화 AI 모델에 대한 성과도 내놨다. LG AI연구원이 지난 18일 오픈소스로 공개한 '엑사원 딥-7.8B'와 온디바이스 모델 '엑사원 딥-2.4B'는 필요한 기능만을 추려 만든 경량 AI 모델이다.
두 모델은 추론 AI 모델인 '엑사원 딥-32B' 크기의 24% 수준이지만 성능은 95%에 달한다. 온디바이스 모델도 7.5% 규모로 86%의 성능을 구현해 경제성과 실용성이 높은 것으로 평가받는다.
LG유플러스는 LG AI연구원의 경량화 기술과 자체 통신 기술을 결합해 sLM 개발에 나선다. 통화 중에도 보이스피싱을 차단하고 모바일에서 각종 추론과 연산을 구현하려면 스마트폰에 적합한 경량화 기술이 필수적이라고 보기 때문이다.
LG유플러스와 LG AI연구원은 NPU(신경망처리장치) 기반 온디바이스 sLM을 AI 통화비서 '익시오'에 적용하는 방식으로 서비스를 고도화할 계획이다. 익시오의 전력 소모량을 25%, CPU 사용률은 10%로 낮추는 게 목표다.
SK텔레콤은 통신 서비스 운용에 경량화 모델을 적용한다. 이 회사가 개발한 'AI라우팅' 기술은 클라우드에 LLM, 단말기에는 sLM을 탑재해 최적의 추론 성능을 낼 수 있도록 한다.
SK텔레콤은 통신 특화 모델도 개발했다. AI컴퍼니를 선언한 2023년부터 '텔코 LLM' 개발을 진행해 지난해 10월부터 AICC(인공지능 콘택트센터)에 적용했다. 텔코 LLM은 sLM보다 크지만 통신에 특화된 용어와 언어, 데이터를 집중적으로 학습시킨 AI 특성화 모델이다.
카카오도 거대 AI 모델인 '카카오 플래그'와 함께 경량 모델인 '카나나 나노 2.1B'를 개발했다. 경량 모델은 연구자와 개발자의 활용을 돕고자 모델의 크기를 줄였고 온디바이스 환경에서도 활용 가능하다.
카카오는 지난 2월 경량 모델을 오픈소스로 공개했다. 연구자와 개발자가 보다 쉽게 AI 기술에 접근할 수 있도록 업데이트도 지속할 예정이다.
적은 연산 자원으로 성능은 비슷한 경량 AI '속속'
AI 경량 모델은 초기 설계 단계부터 적은 연산 자원으로 유사한 성능을 제공하는 것을 추구한다. 거대 데이터를 빠르게 처리하는 대형 AI와 달리 전력 소모가 적고 부품 비용도 줄일 수 있다. 필요한 내용이나 기능만 담은 특성화 AI는 더 빠른 속도와 성능을 구현하기도 한다.
미국 실리콘밸리에서는 일찍부터 경량화 연구가 진행됐고 이미 모습을 드러낸 모델도 여럿이다. 마이크로소프트와 메타, 구글 등 글로벌 빅테크들은 LLM을 경량화한 뒤 sLM을 공개하고 성능 업그레이드를 거듭하고 있다.
구글 딥마인드 기술을 이용한 젬마3(Gemma 3)는 제미나이 2.0(Gemini 2.0) 기술을 기반으로 만들어진 경량 오픈소스 AI 모델이다. 하드웨어 사양이 높지 않아도 활용 가능하지만 이미지와 영상까지 분석할 수 있다.
오픈AI가 지난해 공개한 'GPT-4.5 미니'는 대형 모델인 'GPT-4'의 경량 버전이다. 비슷한 성능을 유지하면서 운영 비용을 절감한 것이 특징이다. 자연어 처리와 코드 생성에서 두각을 나타낸다는 평가를 받는다.
한국 1호 실리콘밸리 유니콘 기업인 '센드버드'는 AI 에이전트를 경량화 모델로 구현, 에이전트간에도 업무가 진행되는 'A2A(에이전트 투 에이전트) 이코노미' 구현을 지향하고 있다.
김동신 센드버드 대표는 "AI 기술은 어떤 제품을 어떻게 특성화하느냐가 중요한데 실리콘밸리는 이미 소형 전문화 모델이 대세"라고 설명했다. 그러면서 "경량화 모델은 기능은 전문적이지만 가격이 싸고 속도가 빨라 경쟁력이 있다"고 말했다.
KPI뉴스 / 김윤경 IT전문기자 yoon@kpinews.kr
[ⓒ KPI뉴스. 무단전재-재배포 금지]




