2023년 10월 26일, 한국의 인공지능(AI) 스타트업이 AMD로부터 2200만 달러(약 300억원) 투자를 받았다는 내용이 주요 언론을 통해 보도됐다. 정확히는 AMD, KT 등의 기업이 참여한 시리즈B 투자였다.
AI 스타트업 ‘모레(Moreh)’를 단어 몇 글자로 설명하기는 부족하다. 하지만 ‘엔비디아 독주 막는 기업’이라는 표현으로 절반의 설명은 된다. 모레는 엔비디아처럼 AI 인프라 플랫폼을 제공하는 기업이다.
대다수 사람들은 엔비디아를 GPU(그래픽 처리장치)를 공급하는 기업으로 알고 있다. 하지만 이보다 더 중요한 요소는 개발자들이 GPU를 기반으로 AI 모델 학습을 시킬 수 있도록 연결시켜주는 ‘쿠다(CUDA)’를 보유하고 있다는 것이다. 현재 전세계 수많은 기업들이 엔비디아의 GPU 기반 AI 인프라 생태계에 갇혀 있는 이유이기도 하다.
모레는 엔비디아의 쿠다와 동일한 서비스를 제공하는 플랫폼을 개발했다. 이론대로라면 이제는 더 이상 쿠다에만 의존하지 않아도 된다는 것이다. AMD가 투자를 단행했던 이유도 이 때문이다. 하지만 ‘쿠다와 동일한 기능을 하는’ 정도로는 엔비디아 독주를 막기 힘들다. 그래서 모레는 그 이상의 기술을 내놨다. 조강원 대표에게 기술에 대한 자세한 이야기를 들어봤다.
AI 인프라 플랫폼의 역할은 무엇인가.
“우리가 AI라고 하면 GPU, 신경망처리장치(NPU) 등의 하드웨어와 거대언어모델(LLM)이라고 하는 AI 모델을 떠올린다. 하지만 개발자들이 AI 모델을 학습시키고 추론하기 위해 GPU 영역인 컴퓨팅 인프라를 사용하게 되는데, 그 사이를 연결해주는 소프트웨어가 AI 인프라 플랫폼이다.”
지난해 투자를 받았을 때 ‘엔비디아 독주 막는 모레’라는 수식어가 많이 달렸다.
“모레 플랫폼 ‘모아이(MoAI)’는 크게 두 가지로 설명할 수 있다. 먼저 AI 인프라 플랫폼을 제공한다는 것이다. 이 부분은 엔비디아의 쿠다를 대체하는 역할을 한다. 이 플랫폼을 사용하게 되면 엔비디아 GPU 외에도 AMD, 인텔, AI 반도체 기업들의 제품 모두를 사용할 수 있다. 사실 이 것만으로는 엔비디아 독주를 막는 기업으로 불리기에 무리가 있다.
두 번째가 중요하다. 이 부분은 엔비디아도 잘 하지 못하는 부분이다. 엔비디아 쿠다의 시작은 GPU를 잘 사용할 수 있도록 돕는 소프트웨어였다. 달리 말하면 단일 GPU에 대한 소프트웨어였다는 것인데, 이는 LLM 환경에서는 적합하지 않다는 단점이 있다.
초거대 AI 시대가 도래하면서 GPU를 적게는 수백 개, 많게는 수 만개까지 클러스터링(결합)해 사용한다. 단일 GPU에 특화된 소프트웨어로 제어하기에는 적합하지 않다는 것이다. 그래서 이 서비스를 요구하는 고객에게는 개별적으로 소프트웨어를 커스터마이징 해주는 방식으로 서비스하고 있는 실정이다.
모아이는 클러스터링 된 GPU 구조에서도 사용할 수 있는 인프라 소프트웨어다.”
두 번째 특성에 대해 자세히 설명해달라.
“크게 두 가지 포인트가 있다. 첫 번째는 단일 디바이스 추상화로, 쉽게 말해 1000개의 GPU가 있다면 한 개의 GPU처럼 처리한다는 개념이다. 특히 인프라를 증설하는 과정에서 다른 형태의 GPU가 추가로 장착될 수 있는데, 이 때도 단일 디바이스 추상화 방법을 사용할 수 있도록 하는 방법이다.
여기에는 차별점이 있다. 보통 AI 모델에서 연산 요청이 GPU로 들어가는 구조를 보면 중간에 이를 처리하는 장치가 없다. 그래서 GPU에 효율적으로 연산 요청을 분배하지 못하는 문제가 생긴다. 모레 플랫폼은 중간에 컴파일러를 마련해 받은 연산 요청을 효율적으로 분배시킨다.
두 번째는 애플리케이션 수준 가상화다. 가상 GPU(vGPU)를 제공해 물리 GPU처럼 사용할 수 있도록 하자는 것이다. 대신 가상 GPU와 물리 GPU 사이의 맵핑은 모아이가 자동으로 컨트롤하게 된다.
vGPU 기술은 GPU의 활용을 최적화 하는 데도 사용된다. 사용자들은 공급 받은 GPU를 항상 최대치로 사용하지는 않으며, 여러 이유로 쉬고 있는 경우가 생긴다. 전체적으로 보면 GPU 자원 활용률이 낮아진다는 것을 의미하는데, 이때 모아이는 vGPU와 동적할당 기술을 적용해 GPU 사용에 대해 최적화를 진행한다.”
AI 모델도 개발했다. 비즈니스 영역의 확장인가.
“모아이는 현재까지 인프라 소프트웨어로써 많은 실증을 했다. 지난 해 6월에는 KT와 1000 GPU 이상의 규모에서 220B 한국어 LLM을 사전학습 하는 실증을 진행했다. 이 외에도 라마2(메타), 미스트랄(미스트랄 AI), 큐원(알리바바) 등의 AI 모델들도 KT의 인프라 안에서 실제 사전학습, 미세조정 등의 활용을 하고 있다.
하지만 아직까지 새로운 소프트웨어이기 때문에 잘 구동되는지를 궁금해한다. 그래서 모아이 플랫폼에서 AI 모델을 잘 만들 수 있다는 것을 보여주기 위해 ‘모모-70B(MoMo-70B)’를 개발했고 오픈 LLM 리더보드 평가에서 1위에 올랐다.
이 모델을 개발하기까지 엔지니어 2명이서 3개월 걸렸다. 말씀드리고 싶은 부분은 엔지니어의 능력이 아니다. 모아이가 GPU 자원을 사용하는 부분에 대해 해결해줬기 때문에 AI 모델 개발에만 신경 쓸 수 있었다는 것을 말하고 싶다.
그리고 모모-70B를 만들면 사람들이 모아이 플랫폼을 더 많이 활용하지 않을까하는 목적도 있었다. 올해 상반기 오픈소스로 공개할 예정이며, 이후 멀티모달 AI 모델도 개발 중에 있다. 기술적인 측면에서는 모모-70B를 통해 사용자들로부터 인프라 소프트웨어 사용에 대한 피드백을 받고 이를 기반으로 기술 고도화를 하려는 목적도 있다.”
모레 솔루션은 어디에 활용되고 있나.
“KT에 공급하고 있다. 2021년 말부터 시작해서 KT클라우드의 ‘하이퍼스케일 AI 컴퓨팅 서비스(HAC)’를 제공하고 있다. 모아이 플랫폼은 굳이 엔비디아 GPU를 쓸 필요가 없기 때문에 AMD GPU를 사용해 클러스터를 구성하고 있다.
사용자는 KT의 ‘AI 엑셀러레이터’라는 가상의 가속기를 제공하게 된다. 이 가속기를 통해서는 앞서 설명처럼 원하는 GPU 연산 용량을 손쉽게 설정해 사용할 수 있다. 현재까지 100곳이 넘는 고객들이 모레 플랫폼 기반의 HAC를 사용하고 있는 것으로 안다. 또한 KT의 자체 LLM ‘믿음’의 인프라 소프트웨어로 모레 SW가 사용되고 있다. 참고로 이전까지는 믿음 모델도 엔비디아의 DGX 기반에서 운영됐었다.”
AMD와도 협업하고 있나.
“초반에 KT클라우드가 AI 인프라를 구축하는 데 AMD GPU 2000개를 구매했다. 사실 AMD가 후발 주자다보니 AI에서는 적용사례가 많지 않았다. 실제 AMD GPU로 이 정도(2000개 GPU) 규모로 이제 서비스형 인프라(IaaS)를 하는 것도 KT 클라우드가 처음이었다. 그런 인연이 투자로 이어졌다.
현재는 AMD가 가지고 있는 GPU 소프트웨어 ‘ROCm’과 모레 SW를 결합하는 방식을 논의하는 등의 협업을 진행하고 있다.”
사용자를 많이 늘려야 할 것 같다. 앞으로 계획은.
“올해부터는 해외 시장을 주 타깃으로 신규 고객을 확보하고자 한다. AI 분야는 R&D 커뮤니티에서 많은 일들이 일어난다. 그래서 커뮤니티에 모레 플랫폼 기반의 적용사례를 알리는 활동을 하려고 한다.
구체적으로는 데이터센터를 가지고 있는 고객들이 대상이고, 지역적으로 보면 아시아권 시장이다. 아무래도 엔비디아에 대한 접근성이 떨어지는 환경적 특성이 모레에게는 많은 기회로 작용하는 것이라고 본다. 특히 최근 국가별로 고유한 데이터센터를 구축하는 ‘소버린 AI’에 대한 니즈가 커지고 있기 때문에 그만큼 많은 기회가 생길 것으로 보고 있다.
가장 중요한 것은 ML(머신러닝) 엔지니어들이 모레의 플랫폼을 잘 알도록 하는 것이다. 결국 모레 플랫폼 위에서 연구 개발을 많이 하게 만들어야 의미가 있다.”
비즈니스를 진행하는 데 챌린지가 있다면.
“일반적으로 AI에 대해 반도체와 AI 모델을 떠올린다. 이 부분도 매우 중요한 요소이기 때문에 관심과 지원이 필요한 부분이다. 하지만 정작 이를 연결해주는 인프라 플랫폼에 대해서는 상대적으로 잘 모른다.
현재 엔비디아 생태계가 만들어진 핵심도 바로 인프라 플랫폼이다. 국내에서도 AI 반도체, 모델뿐만 아니라 인프라 플랫폼에 대한 인식 확산과 경쟁력을 갖추기 위한 노력(지원)이 있었으면 한다.”
조상록 기자 jsrok@chosunbiz.com
댓글0