구글이 차세대 거대 언어 모델(LLM) ‘제미나이’를 공개하면서 텍스트만이 아닌 그림이나 영상을 보거나 듣고 대화할 수 있는 인공지능(AI) 시대가 개막됐다. 구글은 사람을 뛰어 넘은 첫 생성형 AI라고 발표했고, 국내외 전문가들은 ‘성능이 개선됐지만 혁명적인 수준에는 이르지 못했다’라고 평가했다.
구글은 지난 6일(현지시간) 향후 AI 서비스의 기반이 될 LLM 제미나이를 공개했다. 제미나이는 시청각 등을 활용해 텍스트뿐만 아니라 이미지, 음성, 영상 등으로 상호작용할 수 있는 멀티모달 AI다.
구글은 제미나이를 개발 초기부터 다양한 모달리티로 학습시킨 ‘태생적 멀티모달’로 설계했다. 따라서 기존보다 개념적이거나 복잡한 추론도 가능하다고 밝혔다.
구글이 공개한 영상에서 제미나이는 사람이 그림을 그리는 모습을 촬영하면서 음성으로 실황을 중계했다. 또 컵 3개를 사용한 숨김 게임도 맞췄다. 숫자는 물론이고 도표와 그래프를 포함한 수학 문제도 풀 수 있다.
순다르 피차이 구글 최고경영자(CEO)는 “업계에 보급된 32개 성능 평가 지표 중 30개에서 앞섰다”며 현재까지 성능이 가장 우수하다고 평가되는 GPT-4보다 뛰어나다고 강조했다. 구글은 제미나이와 GPT-4 간 비교표도 공개했다.
구글은 최상위 모델 제미나이 울트라가 대규모 다중작업 언어 이해(MMLU)에서 90%의 정답률을 기록했다며 ‘인간 전문가 점수인 89.8%를 넘은 최초의 모델’이라고 설명했다. 오픈AI의 GPT-4는 86.4%를 기록했다.
구글은 또 제미나이 울트라가 고도의 추론 능력이 요구되는 다양한 영역에 걸친 멀티모달 작업으로 구성된 새로운 ‘MMMU’ 벤치마크에서 59.4%의 최상위 점수를 획득했다고 밝혔다. 이 테스트에서 오픈AI의 멀티모달 모델 GPT-4 터보는 56.8%를 기록해 제미나이에 비해 낮은 점수를 기록했다.
구글은 이처럼 제미나이의 우월함을 강조했지만 국내 업계는 제미나이가 멀티모달 AI 시대를 열었다는데는 동의하면서도 GPT-4를 성능에서 앞서지는 않는 것으로 봤다.
글로벌 AI 전문기업인 업스테이지의 박찬준 테크 리더는 “제미나이가 GPT-4를 완전히 능가했다고 보긴 어렵다”면서 “평가 방법에서 샷(Shot·문제)을 어떻게 주느냐에 따라서 GPT-4 성능이 더 좋을 수 있기 때문”이라고 말했다.
하정우 네이버클라우드 AI이노베이션 센터장도 “(구글이 공개한 제미나이 MMLU 성능을 보면) GPT-4는 5-샷(문제 해결 예시 5개를 모델에 제시하고 문제를 푸는 방식)을 기준으로 한 반면 제미나이는 연쇄적 사고(CoT)로 (문제 풀이를 32번 반복하는) ‘CoT@32’를 진행했기 때문에 공정한 비교가 아니다”라면서 “제미나이 프로 버젼은 GPT-3.5나 GPT-4 사이 수준으로 추정된다”고 말했다.
도원철 코난테크놀로지 LLM 개발총괄 상무는 “실제 제미나이를 테스트한 전문가 그룹에서는 GPT-4를 능가하더라도 큰 격차는 아니다라는 평가”라면서 “구글 측 발표가 어느 정도 과장돼 있는 면이 있는 것 같다”고 말했다.
업계는 당장 제미나이가 관련 산업과 생태계에 미치는 영향이 크지는 않을 것으로 내다봤다. 디바이스 자체에 접목되는 ‘제미나이 나노’를 쉽게 적용하기 힘들 것이라는 관측이다.
박 리더는 “온디바이스 시장을 포커싱한 ‘제미나이 나노’가 가장 눈에 띈다”면서 “하지만 ‘나노’라는 이름에 비해 1.8B 크기를 가진 모델인데 실제 칩에 심을 수 있는 크기인지는 의문”이라고 말했다.
해외 전문가들도 제미나이의 성능에 대해 물음표를 보였다. 미국 매사추세츠 공과 대학(MIT) 테크놀로지리뷰 사이트에서는 ‘제미나이가 놀라워 보이지만, 과대 광고 일 수 있다’는 전문가들의 의견을 게제했다.
멜라니 미첼 미국 싼타페연구소 AI 연구원은 “제미나이가 매우 정교한 AI 시스템인 것은 분명하다”면서도 “다만 제미나이가 실제로 GPT-4에 비해 월등히 우수한 능력을 갖고 있다는 확신은 못 받았다”고 말했다.
함봉균 기자 hbkone@etnews.com, 류태웅 기자 bigheroryu@etnews.com
댓글0