[노성열의 AI경제] 에너지 고갈에 이은 데이터 부족…AI의 돌파구는?
KPI뉴스
go@kpinews.kr | 2024-07-05 14:00:17
인공지능(AI)은 배고프다. 전기와 데이터가 먹이인데 슬슬 모자라기 시작해서다. 전기는 AI의 하드웨어 식량이다. AI 반도체에 전기를 공급해야 돌아가니까. 데이터는 AI의 소프트웨어 식량이다. AI 모델을 완성하려면 빅 데이터의 수집·학습·평가 과정이 필수이기 때문이다.
전기부터 보자. 2022년 생성형 AI 시대를 처음 연 챗GPT-3 언어 모델은 약 1750억 개의 파라미터(매개변수)를 갖고 있다. 파라미터는 사람 뇌의 시냅스(뇌세포 연결부위)에 해당한다. 인공신경망의 훈련 단위이다. 챗GPT-3를 학습시키는데 엔비디아의 반도체인 V100 GPU 1024개가 필요하다. 시간도 수십 일에서 수백일이 소요된다. 약 1개월(720시간)로 치고, 반도체 1개당 최대 300와트의 전기를 소모하는 걸로 계산하면 1287메가와트시(MWh)의 전기량이 나온다. 인구 4만 명의 도시에 1.5일 동안 전기를 공급할 수 있는 양에 해당한다. 이 계산을 확대해 보면 AI를 만들고 돌리는데 얼마나 많이 전기가 들어갈지 짐작할 수 있다.
AI가 '전기 먹는 하마'임이 밝혀지자 오픈AI, 마이크로소프트, 구글, 메타, 아마존 등 빅테크는 전력 공급원을 확보하기 위해 앞다퉈 나섰다. 발전소를 잇달아 사들이는가 하면, 차세대 원자로인 소형모듈원전(SMR)에 투자하고 심지어 핵융합 발전에도 관심을 보이고 있다. 배고픈 AI에게 전기를 먹여야 제대로 된 성능을 발휘할 수 있으니 당연한 일이다. 하지만 이처럼 대규모 에너지 소모형 기술로 판명 난 AI는 새 비판대에 오르고 있다. 지구 온난화를 막는 탄소중립 정신에 어긋난다는 비난이다. 실제로 비효율적인 전기 소모, 그리고 이에 따른 반도체의 발열(發熱), 이를 식히기 위한 대량의 물 소비는 벌써부터 환경단체의 공격 대상이 되고 있다. 저개발 국가의 귀중한 인명을 살릴 수 있는 막대한 에너지와 수자원이 기껏 인간의 궁금증을 해소하는 AI 답변 생성에 쓰여서야 되겠냐는 것이다.
테크기업들도 이를 의식해 저전력, 저발열 반도체 개발에 사활을 걸고 있다. 아예 AI의 상업 운용에 필요한 인터넷데이터센터(IDC)를 차가운 바다 속이나 극지방에 건설하기도 한다. 21세기 AI 시대가 본격적으로 열리려면 과도한 에너지를 소모한다는 반(反)녹색 비판은 반드시 극복해야 할 도전이다. 인간과 AI의 공존, 공(共)진화를 위해서라도 더욱 그렇다. 이를 우선순위 가치관 문제라고 한다. 과학자이자 SF 작가인 아이작 아시모프는 1950년 이미 로봇공학 3원칙을 통해 '인간 우선' 철학을 분명히 제시했다. 2024년에도 전기를 포함한 자원(resource)은 그리 긴급하지 않은 무생명체 AI의 영리한 답변을 얻는데 쓰기보다 배고프고 죽어가는 인간에게 먼저 가야 한다는 원칙은 마찬가지로 적용될 것이다.
다음은 AI의 소프트웨어 식량인 데이터 부족을 살펴보자. 데이터는 0과 1의 디지털 산식으로 표현할 수 있는 세상의 정보를 말한다. 컴퓨터가 발명되고 나서 디지털 계산을 위해 인간의 총체적 생활상이 데이터로 전환됐다. 처음에는 규칙적인 수의 반복으로 된 정형 데이터만 다루었으나 점차 파도나 대기의 움직임 같은 불규칙 비정형 데이터까지 처리할 수 있게 됐다. 인류가 지구상에 출현해 건설했던 전(全)문명사가 데이터로 전환되기까지 그리 긴 시간이 걸리지 않았다. 초기의 구글이 세상에 존재하는 책을 몽땅 데이터로 바꾸어 디지털 북 도서관을 만들겠다는 구글 북 프로젝트를 발표했던 게 기억난다. 저작권 때문에 일부만 실현이 됐지만 작가 보르헤스가 소설 '바벨의 도서관'에서 상상했던 세상의 모든 지식을 집대성한 성소(聖所)가 실현될 뻔했다.
그런데 AI가 출현하고 나서 바벨의 도서관이 텅 비어가고 있다. 무지막지한 AI의 데이터 흡수력이 인간이 유사 이래 축적해 온 거의 모든 정보를 고갈시키고 있는 것이다. AI는 아무 데이터나 공부할 수 있는 게 아니다. 우선, 컴퓨터가 읽을 수 있도록(readable) 디지털화할 수 있어야 한다. 디지털 데이터라도 너무 양이 적으면 안 된다. 드문드문 불규칙하게 존재하거나 들쭉날쭉한 이상 정보(outlier)도 걸러내야 한다. 이걸 데이터 정제라고 한다. 한마디로 AI는 식재료의 껍질을 다듬고 먹기 좋은 크기로 가지런히 자른 후 잘 익혀야 먹는 까다로운 식객이다. 게다가 데이터는 훈련용(training)과 검증용(validation), 평가용(testing)으로 나뉜다. AI 모델을 제작하는 훈련 데이터, 제대로 작동하는지 검사하는 검증 데이터, 완성된 모델의 일반화 성능을 평가하는 평가 데이터로 세분되기 때문에 더욱 많은 데이터가 필요하다.
현재 대규모 언어모델(LLM) 중 선두를 달리는 챗GPT-4o나 클로드 3.5는 웬만한 사람이 평생 읽고 습득한 지식의 양보다 더 많은 원(原)자료를 소화한 것으로 알려졌다. 이들 회사는 학습 데이터가 무엇인지 정확하게 공개는 않고 있지만 지구상에 존재하는 책과 백과사전, 뉴스 기사, 위키피디아, 메신저나 SNS에 올라온 대화와 게시물 등 디지털화할 수 있는 모든 말과 글을 AI에게 공급한다고 알려졌다. 인류가 지구에 출현한 후 축적한 모든 지식, 달리 말해 세상에 존재하는 데이터는 사람이 만든 '휴먼(human) 데이터'이다. 배울 만큼 배운 AI에게 추가로 공급할 휴먼 데이터가 거의 떨어져가고 있다. AI의 학습량이 방대하기도 하지만, 쓸 만한 양질의 데이터는 저작권료를 지불해야하기 때문에 맘껏 쓸 수 없다.
그래서 테크 기업들이 고안해 낸 게 합성(synthetic) 데이터이다. 합성 데이터는 휴먼 데이터를 재료로 만든 인공 데이터이다. 통계에 기반한 수학적 모델링, 시뮬레이션, 기계학습 등을 통해 실제 데이터와 유사한 가상의 데이터를 생성할 수 있다. 합성 데이터는 무엇보다 저작권이나 개인정보(프라이버시) 침해의 위험이 없이 무한하게 만들 수 있는 장점이 있다. 게다가 현실에 없는 시나리오와 변형 데이터셋으로 다양성도 확보할 수 있다. 지금은 주로 AI 모델의 성능 검증과 평가에 많이 쓰이고 있다. 벌써 합성 데이터 생산 전문기업들이 여럿 등장했을 정도로 시장 전망이 밝다. 그러나 위험도 공존한다. 합성 데이터는 말 그대로 현실 데이터를 갖고 인공적으로 합성해낸 데이터라서 정확도가 떨어진다. 원본을 카피한 복사본을 재료로 자꾸 새 복사본을 만들면 흐릿해지는 현상과 같다. 원본 데이터로 생성한 AI의 답변도 헛소리(hallucination)가 많아 주의해야하는데, 합성 데이터로 학습한 AI의 정확도는 더 떨어질 수밖에 없다. 추세는 휴먼 데이터와 합성 데이터의 하이브리드 학습으로 가겠지만, 어디까지 허용할지 한계를 정해야 할 것이다.
지구온난화로 인한 이상기후로 전 세계 식량 자원이 부족해지고 값도 오를 조짐을 보이고 있다. 사람이 먹는 식량뿐 아니라, AI가 먹을 전기와 데이터 부족을 어떻게 해결할지 인류에게 새로운 도전과제로 다가오고 있다.
[ⓒ KPI뉴스. 무단전재-재배포 금지]