개발자 여러분, 안녕하세요!
AI & Machine Learning
Android
최신 개발자 문서에 대한 알림을 받아보려면, 여기에서 Google 개발자 프로필을 생성하여 손쉽게 살펴보세요. 다양한 개발자 학습 과정과 커뮤니티 이벤트에 참여하면 여러분의 프로필에 표시할 수 있는 온라인 인증 배지도 함께 드립니다.
Google for Developers
리턴제로 (ReturnZero)는 음성 인식과 텍스트 처리 솔루션을 제공하는 기업으로, Gemma 2를 한국어로 파인튜닝한 모델을 활용해 새로운 통화 요약 서비스를 개발했습니다. 리턴제로의 김동우, 하상천 담당자가 전하는 한국어 Gemma 2 파인튜닝 경험과 도쿄에서 열린 Gemma Developer Day 참여 후기를 자세히 확인해 보세요.
작성자: 리턴제로 김동우 (Senior Research Engineer), 하상천 (Researcher)
안녕하세요. 리턴제로는 음성인식 서비스로 시작하여 현재는 B2C STT ‘VITO’, B2B SaaS ‘Callabo’, B2B On-premise 솔루션 ‘RTZR STT’, ‘LEXINOS’ 등 다양한 인공지능 서비스를 제공하는 기업입니다. 클라우드로 음성인식 및 텍스트 분석 모듈을 제공하거나 설치형 솔루션도 제작하며, 주로 금융, 음성 녹음, 콜 센터 분야에서 음성 인식 및 텍스트 처리를 통해 기업의 생산성 향상과 디지털 자산화를 지원하고 있습니다.
리턴제로가 Gemma 2를 기반으로 한국어 파인튜닝 모델을 개발한 이유
저희는 리턴제로 서비스를 위해 여러 오픈 다국어 모델들을 테스트해봤는데, Gemma 2의 한국어 성능은 출시 시점부터 여타의 다른 모델들에 비해 월등하게 우수했으며 한국어 답변이 상용 서비스의 수준에 이르렀다는 느낌을 처음으로 받은 모델이었습니다. 또한 Gemma 2는 Colab 등에서 빠르게 파인튜닝되거나 모바일에서 구동이 가능한데요. 이처럼 기존의 다양한 프레임워크와 플랫폼에서 활용이 가능해, 새로운 기능과 서비스를 신속하게 개발하고 배포할 수 있는 점도 Gemma 2의 큰 장점이라 생각되었습니다.
그래서 저희는 Gemma 2 9B를 베이스 모델로 한국어 Vocab을 확장하고 CPT(Continuous Pre-training)를 진행하며, 한국어 토큰을 최적화했습니다. 이 과정을 거쳐 저희는 올해 초 Gemma 2 한국어 파인튜닝 모델 rtzr/ko-gemma-2-9b-it을 Huggingface를 통해 커뮤니티에 공개했습니다. Gemma 2 한국어 성능에 대한 저희의 주관적인 느낌은 해당 모델이 한국어 리더보드에서 정량적으로도 좋은 지표를 얻으면서 명확하게 확인할 수 있었습니다.
실제로 해당 모델을 저희 ‘VITO’ 서비스에 적용해보니 Gemma 2의 우수한 한국어 처리 능력으로 실질적인 이점을 얻을 수 있었습니다. 특히 일반 한국어 문어체 뿐 아니라, 구어체로 된 통화 데이터에서 대화 컨텍스트를 잘 이해하고 수준 높은 퀄리티로 요약이 가능해 저희 서비스 개발에 큰 도움이 되었습니다.
Gemma Developer Day에서 발표된 Gemma 2 최신 업데이트 및 Gemma 2 2B 일본어 파인튜닝 모델
10월 3일 Gemma Developer Day 참석 시 촬영한 기념 사진. (앞줄 가운데 김동우 리턴제로 Senior Research Engineer, 그 오른쪽이 하상천 리턴제로 Researcher)
이러한 노력으로 Google의 초청을 받아 지난 10월 3일 도쿄에서 열린 Gemma Developer Day에 다녀올 수 있었습니다.
행사에 깜짝 방문한 Google CEO Sundar Pichai의 환영사를 듣고 Google이 영어 외에 전 세계 다국어 커뮤니티에도 많은 관심을 갖고 있으며, Gemma 모델의 다국어 기능을 통해 개발자 생태계를 적극적으로 지원한다는 것을 크게 체감할 수 있었습니다. 특히 이 날 처음 공개된 Gemma 2 JPN Release는 2B 모델의 영어 성능을 그대로 유지하면서도 일본어에 특화된 모델이라 매우 인상적이었습니다.
또한, 학습할 때부터 성능 손실은 최소화하면서도 추론 능력을 최적화하는 최근 LLM 개발 동향이 Gemma 2에 많이 반영되었다고 느꼈습니다. 대표적인 예로 Arithmetic intensity를 줄이기 위해 기존의 Multi-head Attention(MHA) 기술이 아니라 Grouped Query Attention(GQA) 기술을 사용하고, Hidden dimension도 일반적으로 많이 사용하던 4096 차원에서 3584 차원으로 축소된 것을 확인할 수 있었습니다.
특히 Gemma를 한국어로 파인튜닝하면서 느꼈던 경험과 향후 제품에 대해 기대하는 부분들까지도 Google DeepMind 연구진 및 한국과 일본의 개발자들과 심도깊은 대화를 나눌 수 있어서, Gemma Developer Day 행사는 연구자 입장에서 너무나도 유익했던 시간이었습니다.
Gemma 2를 활용한 고품질 통화 요약 서비스 출시 및 향후 계획
리턴제로의 Gemma 2 한국어 파인튜닝 모델 rtzr/ko-gemma-2-9b-it을 토대로, 저희는 고품질 통화 요약 기능을 개발했고 내년 1월에 B2C STT ‘VITO’ 앱에서 프로모션과 함께 출시될 예정입니다. B2B 솔루션에서도 엔티티 추출, 텍스트 요약 등 기존 NLP/TA 모듈의 성능 개선에 해당 모델을 활용할 예정입니다. 2025년에는 Gemma-2-27B 모델을 통해 한국어 뿐만 아니라 여러 다국어를 다뤄보며 다양한 활용처를 발굴해 보고자 합니다.
Gemma Developer Day in Tokyo 행사의 주요 세션과 데모 영상은 여기서 시청하실 수 있으니, 영상으로 Gemma 최신 업데이트를 확인해보세요.
Gemma를 한국어 데이터 위주로 Continued Pre-training한 모델인 Gemma-KO를 개발한 이준범 AI/ML Google Developer Expert의 개발 스토리를 소개합니다. Gemma을 기반으로 제작한 이유와 지난 10월 도쿄에서 열린 Gemma Developer Day에 참석한 후기도 함께 살펴보세요.
작성자: 이준범 AI/ML Google Developer Expert (Software Engineer Lead, Channel Talk)
Gemma Developer Day에서 한국어 모델 개발 스토리를 공유하다
지난 10월 3일, 도쿄에서 열린 Gemma Developer Day에 한국을 대표하는 연사로 초청을 받았습니다. Google DeepMind와 Nvidia 등 다양한 회사에서 오신 훌륭한 연사자들과 같은 무대에서 제 프로젝트를 일본과 한국의 연구진 및 개발자들에게 소개할 수 있는 귀한 기회였기에 매우 뜻깊은 시간이었습니다.
이 세미나는 Google의 Gemma를 다루는 기반 기술과 응용 사례, 그리고 여러 핸즈온 프로그램으로 구성되었는데, Google의 Gemma 개발자들이 Pre-training과 Post-training을 어떤 방식으로 진행했는지에 대해 자세히 알 수 있었습니다. 또한 이 날 처음으로, 영어 위주로 학습된 Gemma-IT 모델을 일본어로 트레이닝한 Gemma-IT-JPN 모델이 공개되었습니다. 제게는 Gemma-IT-JPN 모델을 제작한 Post-training 기법이 굉장히 흥미롭게 느껴졌는데, 앞으로 Gemma-IT-KO 개발을 Post-training 기법과 유사한 RLHF 방식으로 계획하는데 큰 도움이 되었습니다.
오늘 저는, 제가 연사로 참여한 Fireside chat on Gemma's expansion to non-English languages 세션에서 공유드린 Gemma를 한국어로 CPT(Continuous Pre-training)한 Gemma-KO 개발기를 여러분들께 소개해드리려 합니다.
Gemma Developer Day 참석한 이준범 GDE 사진. 아래 사진에서는 왼쪽에서 두 번째가 이준범 GDE.
Gemma를 한국어로 Continuous Pre-training하여 만든 Gemma-KO 개발 과정
Gemma-KO와 Gemma-Mling 모델은 Gemma의 Instruct 모델이 아닌 Base 모델을 토대로 하여, 한국어가 포함한 여러 언어 데이터셋을 CPT 하여 만들었습니다. Gemma-KO는 주로 한국어 데이터를 위주로, Gemma-Mling은 CJK(Chinese, Japanese, Korean)를 포함한 여러 다국어로 학습되었습니다.
이전의 Llama-2-KO 시리즈에서는 토크나이저의 한국어 압축 효율이 높지 않아서, 한국어 토큰을 추가하고 임베딩 레이어를 확장해 추가로 학습을 진행해야 했습니다. 이 때문에 학습 효율이 다소 낮아지고, 기존 언어 모델에 내장된 지식을 활용하는 것이 상대적으로 어렵기도 했습니다.
반면, Gemma는 대다수의 한국어 글자가 모두 토크나이저에 포함되어 있었습니다. 제 경험으로는 Llama-2 대비 압축률이 약 2~3배 높았으며 Llama-2-KO와 비교해서도 20% 내외의 차이만 있어서, 별도의 토크나이저 확장 없이도 고효율의 CPT 진행이 가능했습니다.
다양한 방식과 분야로 더욱 확장되는 Gemma의 미래
Gemma 모델은 현재 기본 모델 위주로 공개되어 있으며, 이미 여러 분야에 걸쳐 많이 활용되고 있습니다. 향후 MoE(Mixture of Experts) 혹은 DUS(Depth Up-Scaling) 방식을 Gemma 모델에 적용하면, 더 다양한 모델로 확장되어 더 높은 성능을 이끌어낼 수 있을 것이라 생각합니다. 이러한 Gemma의 큰 가능성에 저 역시 많은 기대를 하고 있습니다.
특히 Gemma 2는 Gemma와 대비했을 때 사전 학습 양이 많아지고 모델 크기도 커지면서 많은 발전이 이뤄진 모델입니다. 특히 -IT로 끝나는 Instruction의 27B 모델은 상업적 용도의 라이선스를 가진 오픈 모델 중에서 상위권의 한국어 성능을 보여주고 있다고 생각합니다.
현재 Google Gemma 팀에서는 기본 모델 외에도 DataGemma, PaliGemma, RecurrentGemma 등 다양한 방식의 언어 모델을 공개하고 있습니다. 오픈 언어 모델 Gemma의 가능성과 범주를 더욱 더 넓게 확장해 나가고 있기에, 머지않아 2B와 같은 가벼운 모델을 활용한 온디바이스 서비스도 등장할 수 있지 않을까 기대됩니다.
앞으로도 많은 개발자 분들을 통해서 Gemma를 활용한 다채로운 서비스와 방법론들이 끊임없이 이어지길 기대하고 있겠습니다.
Google Play
Flutter
Firebase