인공지능(AI)이 말하고 움직이기 시작했다. 거대언어모델(LLM), 거대멀티모달모델(LMM), 거대행동모델(LAM)로 이어지는 생성형(Generative) AI의 모델 발달사는 인류 문명의 대전환을 예고하고 있다. 초기 AI는 생각하는 기계(Thinking Machine)로 여겨졌다. 그런데 이제 사람처럼 오감(五感)을 갖추고 움직이는 인간형 로봇, 휴머노이드로 체화(體化)하고 있다. 물리적 인공지능(Physical AI)으로의 진화이다. 인간의 정신노동을 대체할 것이라는 당초 예상은 빗나가고 정교한 육체노동까지 대신해주는 진정한 조수로 거듭나고 있다.
![]() |
| ▲ 인공지능 관련 이미지. [게티이미지뱅크] |
AI는 원래 사람 대신 계산해주는 기계로 출발했다. 컴퓨터가 아직 세상에 존재하지 않던 1936년 영국의 앨런 튜링이 논문에서 제안한 가상의 논리 기계(Turing Machine)가 현대 AI의 개념적 원형이다. 사람이 기계와 문답을 주고받을 때 상대가 사람인지 기계인지 알아차릴 수 없으면 그 기계는 지능을 갖는 걸로 간주하자는 튜링 테스트도 여기서 유래됐다. 1946년 미국이 미사일 탄도 계산을 위해 세계 최초의 컴퓨터 애니악(ENIAC)을 만들고 존 폰 노이먼이 소프트웨어 프로그램 기반의 현대적 컴퓨터를 처음 제작한 이래, 과학자들은 1960년대 초기 컴퓨터로 틱택토나 체스 같은 보딩 게임에서 인간과 승부를 겨루는 AI 알고리즘을 설계했다.
기초적인 논리적 추론과 예측이 당시 AI의 주된 능력이었다. 우리가 2016년 알파고로 깜짝 놀랐던 것도 바로 이 추론 AI의 예측 성능 때문이었다. 이후 생성적 적대 신경망(GAN) 알고리즘이 나온 지 얼마 지나지 않아 구글의 한 천재 프로그래머가 만든 트랜스포머 AI 알고리즘은 거대언어모델(LLM)의 기반이 됐다. 수십 년 간 다른 AI 제작 방법론으론 답보 상태에 머물던 글 쓰는 텍스트 AI가 단숨에 탄생했다. 무수한 패턴을 딥러닝 방식으로 학습한 모델이 다음 빈칸에 들어갈 단어와 문장을 채우는 생성형 AI가 LLM이란 형태로 완성된 것이다. 이는 언어학자 노엄 촘스키의 이론을 따라 수학적 문법 규칙에 따라 제작하려던 종래의 언어 AI보다 훨씬 더 뛰어난 성능을 보여줬다. LLM은 번역의 질을 획기적으로 높이고 글 쓰는 AI의 대세로 자리 잡았다.
LLM은 인공지능 역사에서 혁명적인 사건이다. 단순한 작문 AI로 낮게 평가할 수 없다. 왜냐하면 인간의 모든 지능적 활동은 언어로 표현돼 있기 때문이다. 책이 그렇다. 아니, 인간이 만든 개념과 생각도 언어로 풀이된다. 이뿐 아니다. 컴퓨터 프로그램을 짜는 코딩 역시 기계언어의 번역 활동이다. LLM은 인간의 자연어 문장, 즉 글로 기계와 대화하는 길을 텄다. 우리는 그사이 기계와 소통하기 위해 0과 1로 된 디지털 신호를 사용했다. 전기나 자기를 저장하는 테이프, 디스크 같은 장치로 컴퓨터에 명령하고 출력을 받았다. 포트란, 알골 같은 초기 프로그래밍 언어가 기억나는가. DOS를 거쳐 윈도 그래픽 인터페이스로 좀 더 사용이 간편한 이미지 기반의 클릭 내지 터치 방식으로 기계언어는 발전했지만 컴퓨터와의 자유로운 의사소통에는 뚜렷한 한계가 있었다. 하지만 지금은 어떤가. PC나 스마트폰의 프롬프트 창에 글로 적으면 된다. 지금은 간단한 문답밖에 되지 않지만 곧 인간 동료와 대화하듯 자연스럽게 소통하는 수준까지 올라갈 것이다. LLM은 지능형 챗봇이란 완제품으로 시장에 선보여 이미 상담원과 마케팅 텔러 등의 직군을 대체하고 있다.
LLM과 거의 동시에 등장한 거대멀티모달모델(LMM)은 텍스트에서 이미지, 소리, 동영상으로 AI의 정보처리 능력을 확장했다. 글로 지시하면 주문대로 화가처럼 그림을 그려주는 미드저니, 달리 등 1세대 이미지 생성 AI가 출현했다. 처음엔 2차원 그림이나 사진만 생성하다가 요즘은 3차원 입체 동영상까지 만들어준다. 입출력도 다양화했다. 텍스트에서 이미지, 이미지에서 텍스트로 일방통행이 아니라 이미지에서 이미지, 혹은 텍스트와 이미지의 혼합 입출력도 가능하게 된 것이다. 이는 소리를 생성하는 사운드 AI도 마찬가지다. 글로 작곡 지시하면 음악을 만들어주던 초기 모델에서 입출력에 텍스트, 사운드를 섞어 쓰는 진정한 멀티 기능이 구현됐다. 지난해 11월 선보인 엔비디아의 사운드 AI '푸가토'는 소리에 관한 모든 조합을 생성, 변형할 수 있다.
이제 인공지능은 시각과 청각을 갖게 됐다. 인공지능에 눈과 귀, 입이 생긴 것이다. 보고 듣고 말하고 글을 쓴다. 좀 더 있으면 인간의 다섯 가지 감각 중 나머지 후각, 촉각, 미각까지 기계화될 것으로 예상한다. 시청각이 먼저 AI에 실현된 이유는 르네상스 시대 화가와 과학자들이 시각과 광학 연구에 선구적으로 몰두했고, 음악이 디지털 음원으로 넘어가는 비트(bit)화에 앞섰기 때문이다. 후각과 미각은 화학적 정보로 출발하지만 뇌신경에 전달되는 과정에서 전기적 디지털 신호로 바뀐다. 이미 전자 코, 전자 혀가 산업계에서 악취 탐지나 당도 감별 등에 사용되고 있고, 압력센서를 응용한 햅틱(haptic) 장비도 보급 중인 점에 비추어 통(通)감각적 AI가 출현하는 것은 시간문제로 보인다.
LLM이 인간의 글쓰기 능력을 기계화해 작가를 놀라게 했다면 LMM은 화가, 사진사, 영화감독, 작곡가 등 예술 종사자에게 위협 내지 도움이 될 것 같다. 텍스트, 이미지, 사운드에 더해 앞으로 맛, 향, 터치까지 디지털화하면 조향사, 요리사, 목수에게도 같은 일이 벌어질 것이다. 여기에 로봇에 장착되는 거대행동모델(LAM)까지 완성될 경우, 거의 모든 육체노동이 탈(脫)인간화할 수 있다.
LLM과 LMM은 그동안 지지부진하던 로봇의 개발 속도를 확 높였다. 로봇의 동작과 반응을 일일이 사람이 소프트웨어로 프로그래밍해주던 과거 입력 방식은 끝났다. 말로 설명하면 로봇이 말귀를 알아듣는다.
이뿐인가. 이미지를 시각적으로 인식하는 AI 로봇은 인간의 동작을 여러 번 눈 여겨 보다가 딥러닝 방식으로 동작 학습이 되면 곧 비슷하게 흉내 낸다. 인간 아기가 부모의 행동을 모방하는 것과 같다. 심지어 어렵고 복잡한 입체 동작을 물리적 현실세계에서 일일이 학습할 필요조차 없다. 생성 AI가 거의 현실에 가깝게 모사한 3D 합성 데이터로 온라인 시뮬레이션 학습을 하면 모델링에 비용과 시간이 훨씬 적게 든다. 이게 바로 거대행동모델(LAM)이다. 일론 머스크가 선보인 휴머노이드를 보면 카이스트의 휴보와는 움직임이 많이 다르다. 로봇을 움직이는 방식 자체가 근본적으로 다르기 때문이다.
다시 한 번 강조한다. 생각만 하던 AI가 이제 보고 듣고 말하고, 좀 있으면 맛보고 냄새까지 맡을 것이다. 인간의 오감을 모두 갖게 된다. 여기에 LAM으로 쉽게 동작을 가르칠 수 있게 된 AI 로봇은 시리나 알렉사처럼 우리 곁에 곧 다가올 것이다. AI가 생각하는 능력은 에이전트로 발전하고, 움직이는 능력은 로봇으로 발전할 것이다. 에이전트는 무형의 비서, 로봇은 실물 비서이다. 둘 다 주인과 말로 자유롭게 소통한다. 머지 않은 미래에 생각도, 움직임도 모두 비서의 도움을 받아 에너지를 절약할 수 있다면 인간의 잠재력은 어디를 향할지 자못 궁금하다.
![]() |
| ▲ 노성열 논설위원 |
● 노성열은
30여 년 경력의 경제부 기자로 산업계와 인공지능(AI) 분야를 주로 취재했다. 기획재정부, 산업통상자원부, 과학기술정보통신부 등 정부 부처 및 경제 5단체를 출입하면서 삼성, 현대, SK 등 대기업과 중소벤처업계 현장에서 발생하는 뉴스를 다루어왔다. 일본, 법제도, AI를 포함한 첨단 과학기술 등이 주 관심분야다. 언론계뿐 아니라 학계에도 진출해 지식재산권(IP) 인식 제고와 공학교육 개혁에 매진하고 있다.
△KAIST 공학석사, 한양대 국제학대학원 일본지역학 석사, 고대 법대 및 한국외국어대 일본어학과 학사 △1991년 문화일보 입사 △북리뷰팀, 법조팀, 산업팀장, 전국(지방자치)부 부장 △한국지식재산기자협회(KIPJA) 회장(2024~) △대구경북과학기술원(DGIST) 외부협력 총장 보좌역(2024.6~) △영국 옥스퍼드대 VOX(Voice From Oxford) 한국지부 대표(2024~) △한국과학기술단체총연합회 '과학과 기술' 편집위원(2023~) △국가녹색기술연구소 정간물 편집위원(2024~) △식품의약품안전처 정책자문위원(2020~2022) △한국과학기술정보연구원(KISTI) 데이터미래전략위원회 미래정책분과 자문위원(2021~2023) △한국지능정보사회진흥원(NIA) '인공지능 활성화 방안 연구' 총괄위원(2023) △주요 저서: 뇌 우주 탐험(이음, 2022), 인공지능 시대 내 일의 내일(동아시아, 2020)
[ⓒ KPI뉴스. 무단전재-재배포 금지]





