이 글의 원문은 여기서 확인하실 수 있습니다.
Google Research 팀의 새롭고 흥미로운 작업에 대한 블로그 연재가 시작됩니다.
해당 시리즈에 관심이 있으시다면 Google Developers에 'Google Research, 2022 & Beyond'라는 제목으로 올라오는 글을 확인해 주시기 바랍니다.
저는 늘 컴퓨터에 지대한 관심이 있었습니다. 컴퓨터는 사람들이 자신을 둘러싼 세계를 더 잘 이해하도록 도와주는 도구로, 지난 10년간 Google에서도 이를 지표로 삼아 사람들이 주변 세계를 잘 이해하고 더 나아가 다양한 작업을 수행할 수 있도록 많은 연구를 수행했습니다. 저희는 종류를 불문하고 사람들이 더욱 다양한 작업을 수행할 수 있도록 돕는 고성능의 기계를 개발하고자 합니다. 저희가 목표로 하는 작업에는 정보를 찾아야 하는 복잡한 작업이나 작곡, 그림 그리기, 동영상 제작 같은 창의적인 작업, 혹은 단 몇 줄의 가이드라인만으로 새 문서나 이메일을 작성하고 인간과 협력해 소프트웨어를 개발하는 등 분석적이고 종합적인 작업이 포함됩니다. 또한, 복잡한 수학 및 과학 문제를 해결하고, 문장의 양태를 변경하고, 전 세계의 언어로 정보를 번역하고, 복합적인 질병을 진단하고, 우리가 사는 물리적인 세계를 이해하고, 소프트웨어가 속한 가상 세계와 로봇 공학이 속한 현실 세계 모두에서 복잡한 다단계 작업을 척척 해내는 시스템을 개발하는 것도 저희의 목표입니다.
저희는 연구 아티팩트에서 이러한 기능 중 몇 가지를 초기 버전으로 시연했으며, Google의 여러 제품 관련 팀과 협력하여 이미 수십억 명의 사용자를 만나 보기도 했습니다. 그러나 여러분이 기대하실 가장 흥미로운 여정은 아직 시작되지 않았습니다.
이 게시물을 필두로 Google Research 팀원들이 2022년에 일궈낸 흥미로운 성과들을 집중 조명하고 2023년과 그 이후의 비전을 제시하는 시리즈의 연재를 시작합니다. 우선, 언어와 컴퓨터 비전, 멀티 모달 모델, 생성 머신러닝 모델에 대한 논의로 출발해 보겠습니다. 앞으로 몇 주에 걸쳐 책임감 있는 AI부터 다양한 알고리즘과 컴퓨터 시스템, 과학, 건강, 로봇 공학까지 다양한 연구 주제에 대해 논의할 것입니다. 그럼 지금부터 시작하겠습니다!
언어 모델
언어 모델에서 이룬 엄청난 발전은 지난 10년간 ML(머신러닝) 연구에서 가장 흥미로운 영역 중 하나였습니다. 그 과정에서 거둔 중요한 성과로 시퀀스-투-시퀀스 모델과 지난 몇 년간 언어 모델 분야 발전의 근간을 이루는 Google의 트랜스포머 모델 같은 새로운 접근 방식을 꼽을 수 있습니다. 언어 모델은 선행 토큰이 주어진 텍스트 시퀀스에서 다음 토큰을 예측하는 것처럼 놀랍도록 단순한 목표를 바탕으로 학습됩니다. 하지만 크고 다양한 텍스트 코퍼스를 기반으로 대규모 모델을 학습한다면 해당 언어 모델은 일관적이고 상황에 적합하며 자연스러운 답변을 생성할 수 있고, 창의적 콘텐츠 생성, 언어 간 번역, 코딩 작업 지원, 질문에 알맞게 답변하기 등 광범위한 작업에 사용될 수 있습니다. 현재 진행 중인 LaMDA 연구에서는 이러한 모델을 안전하고 논리적이며 수준 높은 대화에 사용해서 상황에 적합한 대화를 여러 차례 주고받는 방법을 모색하고 있습니다.
자연스러운 대화는 사람들이 컴퓨터와 상호 작용하는 중요하고도 새로운 방식입니다. 덕분에 인간의 대화 형식을 왜곡하지 않고도 컴퓨터와 자연스러운 방식으로 소통하며 광범위한 작업을 수행할 수 있습니다. 저희는 LaMDA를 더욱 유용하고 현실성 있는 서비스로 발전시킬 수 있어 큰 보람을 느낍니다.
2022년 4월, PaLM 연구 진행 상황을 설명해 드린 바 있습니다. PaLM은 Pathways 소프트웨어 인프라를 사용해 개발되고 여러 TPU v4 Pod에서 학습된, 매개변수 5,400억 개를 지닌 대규모 언어 모델로서, 저희는 PaLM 연구를 통해 다음과 같은 사실을 증명했습니다. 복잡한 자연어 처리나 번역 및 코딩 작업이 아닌 다음 토큰을 예측하는 단순한 목표로만 학습했을 때도, 대량의 다국어 데이터와 소스 코드를 기반으로 학습한 대규모 언어 모델은 해당 작업 전반에서 SOTA(state-of-the-art) 모델(현재 최고 수준의 결과를 보여주는 모델)로 발전할 가능성을 보였습니다. 이 연구로 인해 언어 모델 및 학습 데이터의 규모가 클수록 기능이 크게 향상된다는 점이 다시 한번 증명되었습니다.
|
Big-bench 제품군에서 실행된 58개 작업에 대한 PaLM 540B 매개변수 모델과 이전 SOTA 모델 간의 성능 비교. (자세한 내용은 이 논문을 참조하세요.)
|
'ML 강화 코드 완성 기능으로 개발자 생산성 개선(ML-Enhanced Code Completion Improves Developer Productivity)'에서 설명한 대로, 자연어 텍스트 데이터 대신 소스 코드를 기반으로 학습된 LLM(대규모 언어 모델) 사용도 상당한 성공을 거두어, 내부 개발자의 업무를 지원할 수 있게 되었습니다. IDE에서 이 모델을 사용하는 Google 소프트웨어 개발자 10,000명으로 구성된 동질 집단에서 5억 개의 매개변수가 있는 언어 모델의 다양한 코드 완성 제안을 사용한 결과, 이 모델에서 생성된 제안으로 전체 코드의 2.6%를 작성했고, 코딩을 반복하는 데 드는 시간이 6% 감소했습니다. 저희는 현재 개발 중인 이 모델의 향상된 버전을 더 많은 개발자에게 배포할 수 있기를 바랍니다.
인공지능 연구자들이 당면한 주요 과제 중 하나는 다단계 추론을 수행하여 복잡한 문제를 작은 단위의 작업으로 세분화하고, 작은 단위의 해결책을 결합해 더 큰 문제를 해결할 수 있는 시스템을 구축하는 것입니다. 언어 모델이 새로운 문제를 해결하면서 '작업 내용을 표시'하도록 하는 Chain of Thought 프롬프트 표시(4학년 수학 교사가 학생에게 문제의 답만 적는 것이 아니라 풀이 과정을 자세히 적으라고 하는 것과 유사함)와 관련해 진행 중인 최근 연구는 언어 모델이 논리적인 사고의 연결 고리에 따라 더 구조적이고 조직적이며 정확한 답변을 생성하도록 하는 데 도움이 됩니다. 4학년 학생이 수학 문제의 풀이 과정을 적는 것처럼, 이는 문제 해결 방식을 훨씬 더 해석하기 쉽게 만들 뿐만 아니라 여러 단계의 추론이 필요한 복잡한 문제의 정답을 찾을 가능성도 높여줍니다.
|
표준 프롬프트 표시를 사용하는 모델은 다단계 추론 문제에 대한 정답을 바로 제시합니다. 반대로, Chain of Thought 프롬프트 표시는 모델이 문제를 중간 추론 단계로 분해하여 최종 정답에 더 잘 도달할 수 있도록 가르칩니다.
|
Minerva 연구에서는 범용 PaLM 언어 모델을 선택해 arXiv의 대규모 수학 문서 자료 및 과학 연구 논문 코퍼스를 기반으로 모델을 미세 조정한 다음 Chain of Thought 프롬프트 표시와 자가 일관성 디코딩을 사용함으로써 SOTA 모델과 비교해 폭넓고 다양한 과학 및 수학 관련 성능 측정치에서 수학적 추론과 과학적 문제 해결 능력이 상당히 개선되었음을 입증할 수 있었습니다.
Minerva 540B는 STEM 평가 데이터 세트에서 SOTA 모델의 성능을 대폭 개선합니다.
Chain of Thought 프롬프트 표시는 새로운 작업 처리 능력을 향상하기 위해 모델의 자연어 프롬프트와 예시 학습을 돕는 한 가지 방법입니다. 이와 유사한 학습된 프롬프트 조정은 대규모 언어 모델을 문제 영역별 텍스트 코퍼스에서 미세 조정하는 것으로, 앞으로 더욱더 발전할 가능성이 있습니다. '대규모 언어 모델을 이용한 임상 지식 인코딩(Large Language Models Encode Clinical Knowledge)'에서, 학습된 프롬프트 조정이 상대적으로 적은 예를 사용하여 범용 언어 모델을 의료 영역에 맞춰 조정할 수 있고, 그 결과로 얻은 모델이 미국 의사 면허 시험 문제(MedQA)에서 67.6%의 정확도로 정답을 찾아낼 수 있음을 입증한 바 있습니다. 이는 이전의 ML SOTA 모델을 17% 이상 능가하는 성능입니다. 임상의에 비해서는 여전히 부족하지만 이해력, 기억력, 의학적 추론 능력이 모두 모델의 규모 확대 및 지침 프롬프트 조정과 함께 향상되고 있으며, 이는 의학 분야에서 LLM이 유용하게 사용될 잠재력이 있음을 시사합니다. 관련 연구가 꾸준히 이어진다면 임상 적용을 위한 안전하고 유용한 언어 모델을 구축하는 데 도움이 될 것으로 전망합니다.
여러 언어를 기반으로 학습된 대규모 언어 모델은 텍스트를 번역하는 학습을 하지 않고도 한 언어에서 다른 언어로 번역하는 일을 도울 수 있습니다. 전통적인 기계 번역 시스템은 보통 병렬 텍스트(번역된 텍스트)에 의존해 한 언어에서 다른 언어로 번역하는 방법을 학습합니다. 하지만 상대적으로 적은 수의 언어만이 병렬 텍스트를 가지므로, 기계 번역 시스템에서는 대체로 많은 언어의 번역을 지원하지 않습니다. 'Google 번역에서 새로운 언어를 지원하기 위한 제로 리소스 기계 번역의 잠재력 활용(Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate)' 및 관련 논문인 '미적용 언어를 위한 기계 번역 시스템 개발(Building Machine Translation Systems for the Next Thousand Languages)'과 '미적용 언어를 위한 다국어 기계 번역: 지도 학습과 자기 지도 학습 간의 시너지 효과 탐색(Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning)'에서는 단일 언어(비병렬) 데이터 세트에서 학습된 대규모 다국어 언어 모델을 사용해 Google 번역에 3억 명의 사람들이 쓰는 24가지 새로운 언어를 추가하는 일련의 기술을 설명합니다.
|
언어당 단일 언어 데이터와 병렬 데이터의 양 비교. 대량의 병렬 데이터가 있는 언어는 소수지만 단일 언어 데이터만 있는 언어는 다수입니다.
|
또 다른 접근 방식은 학습된 소프트 프롬프트를 활용합니다. 프롬프트를 나타내는 새 입력 토큰을 구성하는 대신 몇 가지 작업 예제를 통해 학습 가능한 작업 하나당 소수의 조정 가능한 매개변수를 추가하는 것입니다. 이 방식은 소프트 프롬프트를 학습한 작업에서 전반적으로 좋은 성과를 내는 동시에, 사전 학습된 대규모 언어 모델을 수천 개의 서로 다른 작업에서 공유할 수 있도록 해줍니다. 이는 작업 어댑터의 보다 일반적인 기법과 관련한 구체적인 예로, 이를 통해 큰 비중의 매개변수를 작업 간 공유하면서 동시에 작업별로 적용 및 조정할 수 있습니다.
|
프롬프트 조정(고정 모델이 조정 가능한 소프트 프롬프트를 사용하는 조건)은 모델 조정보다 사용하는 매개변수가 25,000개 더 적지만 규모가 커질수록 이에 필적하는 성능을 냅니다. |
새로운 기능이 추가되면서, 언어 모델의 크기가 증가함에 따라 그 유용성도 크게 증가한다는 흥미로운 가능성이 제시되었습니다. '대규모 언어 모델에서 나타나는 창발 현상(Characterizing Emergent Phenomena in Large Language Models)'에서는 이러한 모델이 특정 규모에 도달하기 전까지는 복잡한 특정 작업을 효과적으로 수행하기 어렵지만, 학습량(작업량에 따라 상이)이 임계치에 도달하면 복잡한 작업을 정확하게 수행하는 능력이 크게 향상된다는 점을 설명합니다(아래 그림 참조). 앞으로 이러한 모델을 계속해서 학습시킨다면 어떤 작업을 새로이 수행할 수 있을지 무척 기대가 됩니다.
|
다단계 연산을 수행하는 능력(왼쪽), 대학 수준의 시험을 성공적으로 치르는 능력(중간), 문맥을 고려하여 단어의 의미를 식별하는 능력(오른쪽)은 모두 큰 규모의 모델에서만 입증되었습니다. 제시된 모델에는 LaMDA, GPT-3, Gopher, Chinchilla, PaLM이 있습니다. |
또한, 특정 규모 이상의 언어 모델은 새로운 정보와 작업을 학습하고 적응하는 능력이 있어, 훨씬 더 다양한 작업을 능숙하게 수행할 수 있습니다. 이러한 모델이 발전을 거듭하며 더욱 정교해진다면, 우리 생활의 많은 면에서 점점 더 중요한 역할로 자리 잡을 것입니다.
처음부터 보기
컴퓨터 비전
컴퓨터 비전은 계속 진화하며 빠르게 발전하고 있습니다. 2020년에 저희가 비전 트랜스포머를 연구하면서 생겨난 한 가지 트렌드는 컴퓨터 비전 모델에서 컨볼루션 신경망이 아닌 트랜스포머 아키텍처를 사용하는 것이었습니다. 컨볼루션의 로컬 기능 추상화는 많은 컴퓨터 비전 문제를 해결할 수 있는 강력한 접근 방식이지만, 트랜스포머의 일반적인 어텐션 메커니즘은 모델 전체에서 이미지에 대한 로컬 정보와 비로컬 정보를 모두 활용할 수 있어 훨씬 유연합니다. 하지만 완전한 어텐션 메커니즘은 이미지 크기의 제곱에 비례하므로 더 높은 해상도의 이미지에는 적용하기 어렵습니다.
'MaxViT: 다중 축 비전 트랜스포머(MaxViT: Multi-Axis Vision Transformer)'에서 저희는 비전 모델의 각 단계에서 로컬 정보와 비로컬 정보를 모두 결합하되, 기존 비전 트랜스포머 작업에서의 완전한 어텐션 메커니즘보다 더 효율적으로 확장하는 접근 방식을 연구했습니다. 이 방식은 ImageNet-1k 분류 작업과 다양한 객체 감지 작업에서 다른 SOTA 모델보다 우수한 성능을 보이며, 알고리즘의 계산 비용 또한 무척 낮습니다.
|
MaxViT에서 다중 축 어텐션 메커니즘은 차단된 로컬 어텐션과 확대된 전역 어텐션을 순차적으로 수행하며, 각 어텐션 직후에는 선형 복잡성만 있는 FFN을 수행합니다. 같은 색상에 속한 픽셀이 함께 어텐션됩니다.
|
'Pix2Seq: 객체 감지를 위한 언어 모델링 프레임워크(Pix2Seq: A Language Modeling Framework for Object Detection)'에서는 완전히 다른 관점에서 간단하고 일반적인 방법으로 객체 감지에 접근합니다. 작업별로 다른 기존의 접근 방식과는 달리, 이미지에서 관심 있는 객체에 대한 위치 및 기타 속성을 '읽도록' 학습된 모델을 사용해, 관찰된 픽셀 입력을 조건으로 하는 언어 모델링 작업으로서 객체 감지를 캐스팅합니다. Pix2Seq는 기존의 고도로 전문화되고 최적화된 감지 알고리즘에 비해 대규모 객체 감지 COCO 데이터 세트에서 우수한 결과를 보여줍니다. 또한 더 큰 객체 감지 데이터 세트에서 모델을 사전 학습시킴으로써 성능을 더욱 향상할 수 있습니다.
|
객체 감지를 위한 Pix2Seq 프레임워크. 신경망은 이미지를 인식하고 경계 상자와 클래스 라벨에 해당하는 각 객체에 대해 일련의 토큰을 생성합니다.
|
컴퓨터 비전의 또 다른 도전 과제는 하나 이상의 2차원 이미지를 활용해 실제 객체의 3차원 구조를 더 잘 이해하는 것입니다. 저희는 이 분야의 발전을 위해 여러 가지 방식을 시도해왔습니다. '큰 모션 프레임 보간(Large Motion Frame Interpolation)'에서는 중요한 움직임이 생략된 경우에도 프레임 간격이 큰 두 사진 사이를 보간하여 짧은 슬로우 모션 동영상을 만드는 과정을 시연했습니다. '트랜스포머로 합성 이미지 보기(View Synthesis with Transformers)'에서는 LFNR(Light Field Neural Rendering)과 GPNR(Generalizable Patch-based Neural Rendering)이라는 두 가지 새로운 기법을 결합하여 컴퓨터 비전의 오랜 도전 과제인 특정 사진을 새로운 뷰로 합성하는 방법을 보여줍니다. LFNR은 특정 픽셀 색상을 결합하는 방식을 학습한 트랜스포머를 사용하여 뷰 종속 효과를 정확하게 재현하는 기법으로, 단일 장면에서는 잘 작동하지만 새로운 장면까지 포함하는 데는 한계가 있습니다. GPNR은 트랜스포머 시퀀스와 함께 일련의 장면들을 기반으로 학습된 정규화된 위치 인코딩으로 이런 한계를 극복하고 새로운 장면의 뷰를 합성합니다. 이 두 가지 기법을 함께 사용하면 아래에서 볼 수 있듯이 단 몇 개의 이미지만으로 새로운 장면을 고화질로 합성할 수 있습니다.
|
LFNR과 GPNR을 결합함으로써 적은 수의 이미지만 가지고도 새로운 뷰를 생성할 수 있습니다. 이러한 모델은 테스트 튜브의 굴절 및 반투명도 같은 뷰 종속 효과를 처리할 때 특히 효과적입니다. 출처: NeX/Shiny 데이터 세트의 스틸 이미지. |
여기서 한 발 더 나아가 'LOLNerf: 한 번 보고 학습하기(LOLNerf: Learn from One Look)'에서는 한 장의 2차원 이미지로 고화질의 표현을 학습하는 방식을 연구합니다. 특정 범주의 객체(예: 다른 고양이를 찍은 여러 장의 단일 이미지)를 보여주는 다양한 예를 기반으로 객체의 예상 3차원 구조에 대해 충분히 학습하여 새로운 범주의 단일 이미지(예: 아래의 LOLCats 클립처럼 특정 고양이를 찍은 단일 이미지)에서 3차원 모델을 생성할 수 있습니다.
|
위: AFHQ의 고양이 이미지 예. 아래: LOLNeRF로 합성한 새로운 3차원 뷰. |
이 연구의 취지는 컴퓨터가 3차원 환경을 더 잘 이해하도록 지원하는 기법을 개발하는 것으로, 이는 컴퓨터 비전 분야에서 오랫동안 꿈꿔왔던 일입니다.
처음부터 보기
멀티 모달 모델
기존의 ML 연구는 대부분 단일 형식의 데이터를 다루는 모델(예: 언어 모델, 이미지 분류 또는 음성 인식 모델)을 중심으로 이루어졌습니다. 지금까지 이 분야에서 놀라운 성과들이 있었지만, 저희가 지향하는 바는 입력과 출력 모두에서 다양한 형식을 동시에 유연하게 처리할 수 있는 멀티 모달 모델을 더욱더 활용하는 것입니다. 지난 한 해 동안 저희는 이러한 목표를 이루기 위해 다방면으로 노력했습니다.
|
차세대 멀티 모달 모델은 특정 작업이나 영역에 맞춤형으로 제공되는 개별 모델에 의존할 필요 없이 주어진 문제에 필요한 모델 경로만 활성화하여 다양한 형식을 동시에 처리합니다. |
멀티 모달 모델 개발 시 크로스 모달 기능 및 학습을 최대한 활용하려면 먼저 다음 두 가지 질문을 던져야 합니다.
학습된 표현을 병합하기 전에 얼마나 많은 형식별 처리를 수행해야 하는가?
표현을 혼합하는 가장 효과적인 방법은 무엇인가?
'멀티 모달 병목 현상 트랜스포머(Multi-modal Bottleneck Transformers)'에 대한 연구와 그에 수반된 논문 '멀티 모달 융합을 위한 어텐션 병목 현상(Attention Bottlenecks for Multimodal Fusion)'에서 이러한 상충 관계를 살펴본 결과, 몇 가지 형식별 처리 레이어를 거친 후 형식을 한데 모은 다음 병목 현상 레이어를 통해 서로 다른 형식의 기능을 혼합하는 것이 다른 기법보다 더 효과적이었습니다(아래 그림의 Bottleneck Mid Fusion 참고). 이 접근 방식은 분류 결정을 내리기 위해 데이터의 여러 형식을 사용하는 방법을 학습함으로써 다양한 동영상 분류 작업의 정확도를 크게 개선해 줍니다.
|
멀티 모달 트랜스포머 인코더를 위한 샘플 어텐션 구성. 빨간색과 파란색 점으로 이루어진 선들은 인코더 레이어를 나타냅니다. 멀티 모달 트랜스포머 인코더 기능의 융합('완전 융합')에 대한 일반적인 접근 방식은 레이어에 숨겨진 유닛 전반에서 쌍별 셀프 어텐션을 사용합니다(왼쪽). 병목 현상 융합(중간)에서는 어텐션 병목 현상이라고 부르는 밀집한 잠재 유닛을 통해 레이어 내의 어텐션 흐름을 제한합니다. 병목 현상 중간 융합(오른쪽)은 최적의 성능을 위해 모델의 후반 레이어에만 병목 현상 융합을 적용합니다.
|
형식을 결합하면 단일 형식 작업에서의 정확도를 더욱 향상시킬 수 있습니다. 이는 저희가 오랫동안 연구해온 분야로서, 이러한 모델의 예시로는 이미지 분류 정확도를 향상하기 위해 이미지 표현과 단어 삽입 표현을 결합하는 DeViSE가 있습니다. 이 개념을 보다 현대적으로 변형한 방식이 기존의 사전 학습된 이미지 모델에 언어의 이해 능력을 추가하는 LiT(Locked-image Tuning)입니다. LiT에서 텍스트 인코더는 사전 학습된 이미지 인코더의 이미지 표현과 대응하는 내용을 대조 학습합니다. 이 간단한 방법으로 데이터와 컴퓨팅의 효율이 증대했고, 기존의 대조 학습 접근 방식에 비해 제로 샷 이미지 분류 성능이 크게 향상되었습니다.
|
LiT 조정은 사전 학습된 이미지 인코더에 맞춰 텍스트 인코더를 대조 학습합니다. 텍스트 인코더는 학습을 통해 이미지 인코더와 일치하는 표현을 계산합니다.
|
멀티 모달 모델에서 단일 모달 유틸리티를 관찰할 수 있는 또 다른 예는 이미지와 동영상처럼 서로 관련 있는 형식에서 공동 학습을 수행하는 경우입니다. 이 경우, (특히 한 가지 형식의 학습 데이터가 제한적일 때) 동영상 데이터만으로 학습하는 것과 비교해 동영상 속 동작 분류 작업의 정확도가 향상됩니다.
언어와 다른 형식 간의 결합은 사용자가 컴퓨터와 상호 작용하는 방식을 개선하기 위해 꼭 필요한 연구입니다. 2022년, 다양한 방법으로 이 분야를 탐색한 결과 가장 흥미로웠던 연구는 언어와 비전 입력(스틸 이미지 또는 동영상)을 결합하는 것이었습니다. 'PaLI: 언어-이미지 학습 확장(PaLI: Scaling Language-Image Learning)'에서는 100개 이상의 언어로 많은 작업을 수행하도록 학습된 통합 언어-이미지 모델을 소개했습니다. 이러한 작업의 종류에는 비전, 언어, 그리고 멀티 모달 이미지와 언어 적용이 있으며, 구체적인 작업 예시로는 시각적 질문 답변, 이미지 캡션, 객체 감지, 이미지 분류, 광학 문자 인식, 텍스트 추론 등이 있습니다. 비전 트랜스포머(ViT)를 텍스트 기반 트랜스포머 인코더와 결합한 다음 트랜스포머 기반 디코더와 결합하여 텍스트 답변을 생성하고, 여러 작업을 엔드 투 엔드 방식으로 동시에 학습함으로써, 다양한 벤치마크에서 최고 수준의 성과를 낼 수 있습니다.
예를 들어, PaLI는 다국어 멀티 모달 기능 테스트인 CrossModal-3600 벤치마크에서 35개 언어 평균 CIDEr 점수가 53.4점(이전 최고 기록은 28.9점)으로 최고 수준의 결과를 보였습니다. 아래 그림처럼 단일 모델이 다수의 형식과 언어를 동시에 이해하고 캡션 및 질문 답변처럼 여러 작업을 처리하도록 학습시킨다면, 서로 다른 종류의 감각 입력에 대해 자연스러운 문장으로 질문에 적절한 답변을 해 주는 컴퓨터 시스템이 등장할 것입니다. (예: “이 이미지에서 테이블 위에 있는 것이 무엇인지 태국어로 말해 주세요”, “나뭇가지에 앉아 있는 잉꼬는 모두 몇 마리인가요?”, “스와힐리어로 이 이미지를 설명해 보세요”, “이 이미지에 어떤 힌디어 텍스트가 있나요?”)
|
PaLI 모델은 동일한 API를 사용하여 언어-이미지, 언어 전용, 이미지 전용 분야에서 광범위한 작업(예: 시각적 질문 답변, 이미지 캡션, 장면 텍스트 이해 등)을 처리합니다. 이 모델은 100개 이상의 언어를 지원하도록 학습되었으며 복수의 언어-이미지 작업을 위해 다국어로 수행하도록 조정되었습니다. |
FindIt에서도 마찬가지로 시각 이미지에 대한 자연어 질문을 다양한 유형의 그라운딩 및 감지 쿼리에 유연하게 답변할 수 있는 범용 및 멀티태스크 시각 그라운딩 모델을 통해 답변하는 연구를 진행 중입니다.
|
FindIt은 표현 이해(1열), 텍스트 기반 위치 측정(2열), 객체 감지 작업(3열)을 수행하는 통합 모델로, '책상 찾기'(4열)처럼 학습하지 않은 객체 유형과 클래스에 대해서도 정확히 답변합니다. 비교 데이터는 MattNet 결과를 참고하세요. |
동영상 질문 답변 영역(예: 베이킹 동영상을 보고 "그릇에 두 번째로 넣은 재료는 무엇인가요?”와 같은 질문에 답할 수 있음)에서는 텍스트 답변을 하기 위해 텍스트 입력(질문)과 동영상 입력(관련 동영상)을 모두 이해할 수 있는 능력이 필요합니다. '공동 토큰화 반복을 통한 효율적인 동영상-텍스트 학습(Efficient Video-Text Learning with Iterative Co-tokenization)'에서 설명하듯, 동일한 동영상 입력의 여러 버전(예: 고해상도 저프레임, 저해상도 고프레임)인 멀티 스트림 동영상 입력은 텍스트 입력과 효율적으로 융합되어 디코더에 의한 텍스트 기반 답변을 생성합니다. 입력을 직접 처리하는 대신, 동영상-텍스트 공동 토큰화 반복 모델은 융합된 동영상-언어 입력에서 유용한 토큰을 학습하고, 이때 학습하는 토큰의 수는 반복을 거듭할수록 감소합니다. 이 과정을 통해 현재의 기능 토큰화가 다음 토큰 선택에 영향을 미쳐 더욱 정교한 선택을 할 수 있습니다.
고화질 동영상 콘텐츠를 만드는 과정에는 동영상 캡처부터 동영상 및 오디오 편집까지 여러 단계가 포함되는 경우가 많습니다. 어떤 경우에는 대화를 스튜디오에서 재녹음해서(대화 교체, 사후 동기화 또는 더빙) 이를 소음이 많거나 이상적이지 못한 환경에서 녹음된 원본 오디오와 교체해 품질을 높이는 과정이 포함됩니다. 하지만 이는 새로 녹음된 오디오가 동영상과 잘 동기화되도록 입이 움직이는 정확한 타이밍에 맞춰 수차례 편집해야 하는, 복잡하고 어려운 작업입니다. 'VDTTS: 시각 기반 텍스트 음성 변환(VDTTS: Visually-Driven Text-To-Speech)'에서는 이 작업을 더 쉽게 수행하기 위해 멀티 모달 모델을 접목했습니다. 원하는 텍스트와 화자의 원본 동영상 프레임이 입력되면, 이 모델은 동영상과 일치하는 텍스트의 음성 출력을 생성하는 동시에 타이밍이나 감정처럼 운율과 관련된 부분을 복구하기도 합니다. 이 시스템은 동영상 동기화, 음성 품질, 음성의 고저와 관련된 다양한 측정항목에서 두드러진 개선점을 보였으며, 학습 과정에서의 손실이나 명시적인 제약 조건 없이도 동영상에 동기화된 음성을 생성할 수 있었습니다.
(왼쪽부터 Original, VDTTS, VDTTS video-only, TTS 영상)
원본은 원본 동영상 클립을 표시합니다. VDTTS는 동영상 프레임과 텍스트에서 예측된 오디오를 표시합니다. VDTTS 동영상 전용은 동영상 프레임에서 예측된 오디오를 표시합니다. TTS는 텍스트에서 예측된 오디오를 표시합니다. 스크립트: "경력은 없지만 춤추는 걸 정말 좋아해요"
'보고 대화하기: Google 어시스턴트와의 자연스러운 대화(Look and Talk: Natural Conversations with Google Assistant)'에서는 동영상 및 오디오 입력을 모두 사용하는 온디바이스 멀티 모달 모델이 어떤 방식으로 Google 어시스턴트와 훨씬 더 자연스럽게 상호 작용하는지 보여줍니다. 이 모델은 시선의 방향, 근접성, 안면 매칭, 음성 매칭, 의도 분류와 같은 여러 시청각 단서를 사용하여 근처에 있는 사람이 Google 어시스턴트 기기와 실제로 대화를 시도하는 것인지, 아니면 기기를 사용할 의도 없이 단순히 말하고 있는 것인지를 더 정확하게 파악하는 방법을 학습합니다. 시각 혹은 청각 중 한 가지 정보만으로는 이런 결정을 내리도록 학습하기 훨씬 어려울 것입니다.
멀티 모달 모델은 단순히 자연어나 이미지 같은 인간 지향적 형식을 결합하는 작업에만 제한되지 않고, 자율 주행 차량 및 로봇 공학 응용 분야에서 그 중요도가 점점 더 커지고 있습니다. 이 모델은 자율 주행 차량에 설치된 Lidar 장치의 3차원 포인트 클라우드 데이터같이 인간의 감각과는 전혀 다른 센서의 원시 출력을 카메라 같은 다른 센서의 데이터와 결합하여 주변 환경을 더 잘 파악하고 더 나은 의사 결정을 내릴 수 있습니다. '실시간 3차원 및 이미지 입력의 멀티 모달 조정을 학습하기 위한 4D-Net(4D-Net for Learning Multi-Modal Alignment for 3D and Image Inputs in Time)'에서는 서로 다른 레이어에서 어떻게 기능들이 혼합되고 가중치가 부여되는지를 제어하는 셀프 어텐션 메커니즘을 이용해 Lidar의 3차원 포인트 클라우드 데이터가 카메라의 RGB 데이터와 실시간으로 융합되는 과정을 소개합니다. 다양한 형식과 시간 지향 기능을 서로 결합하면 두 형식 중 하나를 단독으로 사용하는 것보다 3차원 객체 인식의 정확도가 크게 향상됩니다. Lidar-카메라 융합에 대한 비교적 최근 연구에서는 3차원 객체 인식의 정확도를 더 높이기 위해 역증강을 통한 학습 가능한 정렬과 더 나은 기하학적 처리를 적용했습니다.
|
4D-Net은 실시간 3D LiDAR 포인트 클라우드와 동영상으로 실시간 스트리밍되는 RGB 이미지를 효과적으로 결합하여 다양한 센서와 이 센서들이 가진 기능 표현 간의 연결을 학습합니다.
|
다양한 형식을 유연하고 적절하게 해석하여 맥락에 맞는 다양한 종류의 출력(예: 언어, 이미지, 음성)을 생성하는 단일 모델을 통해 ML을 더욱더 유용하게 활용할 수 있습니다. 이 모델을 이용해 건강, 과학, 창의성, 로봇 공학 등의 분야에서 발전을 이루고, 수많은 Google 제품에서 새롭고 흥미로운 애플리케이션을 만나볼 수 있도록 더욱 노력하겠습니다.
처음부터 보기
생성 모델
이미지, 동영상, 오디오에 대한 생성 모델의 품질과 기능은 2022년 한 해 동안 참으로 놀랍고 특별한 발전을 거듭했습니다. 생성 모델은 복잡한 데이터 세트(예: 자연스러운 이미지)를 모델링하는 방법을 학습하는 모델로, 이에 대한 접근 방식은 매우 다양합니다. 2014년에 개발된 생성적 적대 신경망은 서로 대항하며 작동하는 두 가지 모델을 설정합니다. 하나는 사실적으로 보이는 이미지(생성할 이미지의 범주같이 모델에 대한 입력을 조건으로 함)를 생성하는 생성기이고, 다른 하나는 생성된 이미지와 실제 이미지를 받아서 둘 중 어느 것이 생성된 이미지이고 어느 것이 실제 이미지인지 판별하는 판별기로, 둘은 적대적 측면을 지닙니다. 각 모델은 상대 모델과의 경쟁에서 이기고자 계속해서 노력하고, 그 결과 두 모델의 작업 성능이 크게 향상하여 결국에는 생성 모델의 단독 사용만으로 이미지를 생성할 수 있게 됩니다.
2015년에 '비평형 열역학을 사용한 심층 비(非)지도 학습(Deep Unsupervised Learning using Nonequilibrium Thermodynamics)'에서 소개된 확산 모델은 반복적인 순방향 확산 프로세스를 통해 데이터 분포의 구조를 서서히 체계적으로 파괴합니다. 그런 다음 이 모델은 높은 수준의 노이즈에서도 손실된 데이터의 구조를 복원할 수 있는 역확산 프로세스를 학습합니다. 순방향 프로세스로 역확산 프로세스에 대한 노이즈 시작점을 생성할 수 있는데, 이때 역확산(생성) 프로세스는 유용하고 제어 가능한 여러 입력을 조건으로 하여 제어가 가능해집니다. 이로써 모델에 '자몽 이미지 생성'을 요청할 수 있게 되는데, 실제로 필요한 것이 자몽 이미지의 샘플링일 경우 단순히 '이미지 생성'을 요청하는 것보다 훨씬 더 효율적입니다.
다양한 양식의 자기회귀 모델도 이미지 생성 작업에 적용되었습니다. 2016년에 'Pixel 순환 신경망(Pixel Recurrent Neural Networks)'에서는 순환 아키텍처인 PixelRNN과 컨볼루션 아키텍처인 PixelCNN을 소개했습니다. 이는 PixelRNN과 유사하지만 더 효율적인 아키텍처로, 'PixelCNN 디코더를 사용한 조건부 이미지 생성(Conditional Image Generation with PixelCNN Decoders)'에서도 살펴본 바 있습니다. 이 두 가지 아키텍처는 심층 신경망을 사용하는 픽셀 수준 생성의 기초를 다지는 데 유용하게 사용되었습니다. 2017년에는 '신경 개별 표현 학습(Neural Discrete Representation Learning)'에서 제안된 VQ-VAE(벡터 양자화 변이 자동 인코더)가 그 뒤를 이었으며, 이를 PixelCNN과 결합해 고화질 이미지를 생성했습니다. 다음 해인 2018년에는 이미지 트랜스포머(Image Transformer)가 자기회귀 트랜스포머 모델을 사용해 이미지를 생성했습니다.
비교적 최근까지 이러한 모든 이미지 생성 기법은 실제 이미지에 비해 상대적으로 저화질 이미지만을 생성했습니다. 하지만 최근 여러 기술이 발전하면서 훨씬 더 고화질의 이미지를 생성할 수 있는 길이 열렸습니다. 그중 하나가 CLIP(Contrastic Language-Image Pre-training)으로, [이미지, 텍스트] 쌍 예측을 위해 이미지 인코더와 텍스트 디코더를 공동으로 학습하는 사전 학습 방식입니다. 어떤 캡션이 어떤 이미지와 어울릴지 예측하는 이 사전 학습 작업은 이미지 표현을 학습하는 효율적이고 확장 가능한 방식임이 입증되었고 ImageNet 같은 데이터 세트에서 우수한 제로 샷 성능을 발휘했습니다.
CLIP 외에도 최근에 생성 이미지 모델의 툴킷이 성장세를 보이고 있습니다. 대규모 언어 모델 인코더는 단순히 제한된 수의 사전 설정된 이미지 범주가 아니라 긴 자연어 설명을 입력했을 때 이미지 생성을 더욱 효과적으로 수행하는 것으로 나타났습니다. 이미지와 이를 설명하는 캡션(텍스트→이미지 변환을 위해 순서 변경 가능)이 포함된 대규모 학습 데이터 세트의 전반적인 성능도 개선되었습니다. 이러한 모든 요소가 더해져 매우 상세한 프롬프트에도 높은 일치도를 보이는 고해상도 이미지 생성을 위한 다양한 모델이 생겨났습니다.
이와 관련해서는 Google Research의 여러 팀에서 최근에 선보인 두 가지 성과, Imagen과 Parti에 초점을 맞춰 설명하겠습니다.
Imagen은 앞서 설명한 확산(Diffusion) 작업을 기반으로 합니다. 2022년에 발표된 논문 '심층 언어 이해를 통한 사실적 텍스트-이미지 확산 모델(Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding)'에서 저자는 텍스트 전용 코퍼스를 기반으로 사전 학습된 일반적인 대규모 언어 모델(예: T5)이 이미지 합성을 위한 텍스트 인코딩에 놀라울 정도로 효과적임을 보여줍니다. 놀랍게도 Imagen에서 언어 모델의 크기를 키우면 이미지 확산 모델의 크기를 증가시킬 때보다 샘플 충실도와 이미지-텍스트 정렬 측면에서 성능이 훨씬 크게 개선됩니다. 이 연구를 통해 확산 기반 이미지 생성이 여러 측면에서 발전을 이루었는데, 그중에는 학습 중에 때때로 조건화 정보를 '삭제'하여 성능을 개선하는 효율적인 U-Net(Efficient U-Net)과 분류기 없는 확산 가이드(Classifier-Free Diffusion Guidance)라는 새로운 메모리 효율적 아키텍처가 포함되어 있습니다. 분류기 없는 가이드는 모델이 입력 데이터만으로 생성하는 방법을 학습하도록 강제하여, 조건화 정보에 지나치게 의존함으로써 발생하는 문제를 예방합니다. '가이드: 확산 모델의 치트 코드(Guidance: a cheat code for diffusion models)'에 보다 자세한 설명이 게재되어 있습니다.
Parti는 자기회귀 트랜스포머 아키텍처를 사용하여 텍스트 입력을 기반으로 이미지 픽셀을 생성합니다. 2021년에 공개된 '향상된 VQGAN을 사용한 벡터 양자화 이미지 모델링(Vector-quantized Image Modeling with Improved VQGAN)'에서는 비전 트랜스포머를 기반으로 한 인코더가 벡터 양자화 GAN 모델인 VQGAN의 출력을 크게 향상시키는 것으로 나타났습니다. 더 나아가 2022년에 공개된 '콘텐츠가 풍부한 텍스트-이미지 생성을 위한 자기회귀 모델 확장(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)'에서는 트랜스포머 인코더-디코더를 200억 개의 매개변수로 확장하여 훨씬 훌륭한 성과를 얻었습니다. Parti는 또한 앞서 설명한 분류기 없는 가이드를 사용하여, 생성된 이미지를 선명하게 만듭니다. 언어 모델이므로 놀라운 일은 아니지만, Parti는 특히 프롬프트에서 미묘한 신호를 매우 잘 포착합니다.
왼쪽: Imagen이 생성한 이미지. (프롬프트: "왕궁의 벽에 그림이 두 개 걸려 있습니다. 왼쪽 그림은 너구리 왕을 상세하게 묘사한 유화입니다. 오른쪽 그림은 너구리 여왕을 상세하게 묘사한 유화입니다.")
오른쪽: Parti가 생성한 이미지. (프롬프트: "뉴욕시의 한 택시 위에서 오토바이 헬멧을 쓰고 망토를 걸친 채 자동차 서핑을 하는 테디 베어. dslr 사진.")
사용자 컨트롤
앞서 설명한 기술 진보 덕분에 텍스트 설명을 기반으로 사실적인 스틸 이미지를 생성할 수 있게 되었습니다. 하지만 때로는 원하는 것을 만들어내기에 텍스트만으로 충분치 않습니다(예: "해변에서 유니콘에게 쫓기는 개" vs. "해변에서 유니콘에게 쫓기는 나의 개"). 그래서 저희는 사용자가 생성 프로세스를 제어할 수 있는 새로운 방법을 찾기 위해 후속 연구를 수행했습니다. 'DreamBooth: 주제 중심 생성을 위한 텍스트-이미지 확산 모델 미세 조정(DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation)'에서는 사용자가 Imagen 또는 Parti와 같이 학습된 모델을 미세 조정하여 텍스트와 사용자 제공 이미지의 조합을 기반으로 새로운 이미지를 생성할 수 있다고 설명합니다(아래 그림 참고. DreamBooth 사이트에 더 자세한 내용 및 예시 게재). 이로써 사용자는 자신(또는 반려동물)의 이미지를 생성된 이미지에 배치하여 더욱 강력한 사용자 컨트롤을 얻게 됩니다. 이러한 예시는 사용자가 "자동차를 자전거로 만들기" 같은 텍스트 프롬프트를 사용하여 이미지를 편집할 수 있는 '크로스 어텐션 컨트롤을 사용한 프롬프트 간 이미지 편집(Prompt-to-Prompt Image Editing with Cross Attention Control)'과 텍스트 프롬프트를 사용하여 마스킹된 영역을 채워 이미지를 반복적으로 편집할 수 있는 Imagen 편집기에서 확인할 수 있습니다.
|
DreamBooth를 사용하면 입력 이미지와 텍스트 프롬프트를 모두 사용하여 이미지 생성 프로세스를 제어할 수 있습니다. |
생성 동영상
저희가 다음으로 도전하고자 하는 연구 과제 중 하나는 고해상도, 고화질에 높은 수준의 제어 능력과 시간적 일관성을 갖춘 동영상 생성 모델을 만드는 것입니다. 원하는 속성을 생성된 픽셀과 일치시키는 것이 주된 과제였던 이미지와 달리, 동영상에는 시간이라는 차원이 추가되므로 이는 매우 어려운 분야입니다. 각 프레임의 모든 픽셀은 해당 순간의 장면과 정확히 일치해야 할 뿐 아니라, 매우 정제된 수준(몇 프레임 이내로 모션이 부드럽고 자연스러워 보임)과 거친 수준(비행기 이륙, 선회, 착륙 과정을 담은 2분짜리 동영상을 요청한 경우 이 높은 수준의 동영상 목표에 맞는 수천 개의 프레임을 만들어야 함) 둘 다에서 다른 프레임과도 일치해야 합니다. 올해 저희는 여러 면에서 이 야심 찬 목표를 향한 흥미로운 진전을 이루었고 그 과정에서 각각 다른 접근 방식을 사용하는 두 가지 모델인 Imagen Video와 Phenaki를 활용했습니다.
Imagen Video는 계단식 확산 모델을 사용하여 고해상도 동영상을 생성합니다(자세한 설명은 'Imagen Video: 확산 모델에서 고화질 동영상 생성(Imagen Video: High Definition Video Generation from Diffusion Models)' 참고). 첫 번째 단계는 입력 텍스트 프롬프트("생일 축하 모자를 쓰고 바닷속을 행복하게 걷고 있는 코끼리")를 가져와 T5 텍스트 인코더를 사용해 텍스트 임베딩으로 인코딩하는 것입니다. 그런 다음 기본 동영상 확산 모델이 40x24 해상도에 초당 3프레임으로 매우 대략적인 16프레임짜리 스케치 동영상을 생성합니다. 이후에 다중 TSR(Temporal Super-Resolution) 및 SSR(Spatial Super-Resolution) 모델이 1280×768 해상도에 초당 24프레임으로 128프레임짜리 최종 동영상을 업샘플링 및 생성하고 나면 5.3초의 고화질 동영상이 탄생합니다. 최종 동영상은 고해상도에 시공간적 일관성을 갖췄으며, 길이는 5초 이하로 짧습니다.
2022년에 공개된 'Phenaki: 개방형 도메인 텍스트 설명으로 가변 길이 동영상 생성(Phenaki: Variable Length Video Generation From Open Domain Textual Description)'에서는 동영상 표현 학습을 위한 새로운 트랜스포머 기반 모델을 소개합니다. 이 모델은 동영상을 개별 토큰으로 구성된 작은 표현으로 압축합니다. 텍스트 조건부는 텍스트 설명을 기반으로 동영상 토큰을 생성하도록 양방향 트랜스포머 모델을 학습함으로써 구현되며, 생성된 동영상 토큰은 실제 동영상을 생성하도록 디코딩됩니다. 이 모델은 시간을 인과적으로 해석하여 가변 길이 동영상을 생성합니다. 비로소 멀티 프롬프트 스토리텔링 시대가 열린 것입니다(아래 동영상 참고).
Phenaki 동영상. (프롬프트: "사실적으로 구현된 테디 베어가 샌프란시스코의 바다에서 수영을 하고 있습니다. 테디 베어가 물속으로 들어갑니다. 테디 베어가 다채로운 색의 물고기들과 함께 물속에서 계속 헤엄칩니다. 판다가 물속에서 수영을 하고 있습니다.")
Imagen Video 모델과 Phenaki 모델을 결합하여 Imagen의 고해상도 개별 프레임과 Phenaki의 긴 동영상 형식을 모두 활용할 수 있습니다. 이를 가장 간단하게 수행하는 방법은 Imagen Video를 사용하여 짧은 동영상 세그먼트의 초고해상도를 처리하는 동시에 자기회귀 Phenaki 모델을 사용해 장시간의 동영상 정보를 생성하는 것입니다.
생성 오디오
저희는 시각적 생성 모델 외에 오디오 생성 모델에서도 상당한 진전을 이루었습니다. '오디오 생성에 대한 언어 모델링 접근 방식 AudioLM(AudioLM, a Language Modeling Approach to Audio Generation)'과 관련 논문에서는 언어 모델링의 발전을 통해 주석이 달린 데이터 학습 없이도 오디오를 생성하는 방법을 설명합니다. 텍스트 데이터가 아닌 원시 오디오 데이터에 언어 모델링 접근 방식을 사용하면 해결해야 할 갖가지 난제가 발생합니다.
첫째, 오디오의 데이터 속도가 텍스트보다 훨씬 더 높아서 시퀀스가 더욱더 길어집니다. 텍스트로 작성된 문장은 수십 개의 문자로 표현할 수 있지만 오디오 파형에는 일반적으로 수십만 개의 값이 포함됩니다. 둘째, 텍스트와 오디오 사이에 일대다 관계가 있어 똑같은 문장도 화자의 말하는 스타일, 감정의 상태, 기타 오디오 배경 조건 등에 따라 각기 다르게 발화될 수 있습니다.
이 문제를 해결하기 위해 저희는 오디오 생성 프로세스를 두 단계로 구분했습니다. 첫 번째 단계는 긴 시퀀스를 모델링할 수 있도록 오디오 신호를 다량으로 다운샘플링하는 한편, 국부적 종속성(예: 말의 음성학적 특성, 피아노 음악의 부분적 멜로디)과 장기간의 전역적 구조(예: 말의 구문과 의미론적 내용, 피아노 음악의 화음과 리듬)를 모두 캡처하는 정제되지 않은 거친 의미 체계 토큰으로 구성된 시퀀스를 포함합니다. 이 모델의 일부는 이러한 토큰의 과거 시퀀스에 따라 조건화된 거친 의미 체계 토큰으로 구성된 시퀀스를 생성합니다. 그런 다음 거친 토큰 시퀀스를 사용해 최종적으로 생성된 파형에 가깝게 정제된 오디오 토큰을 생성할 수 있는 모델의 한 부분을 활용합니다.
말에 대한 학습이 이루어지고 스크립트나 주석이 없는 상태에서, AudioLM은 보이지 않는 화자의 특징과 운율을 유지하면서 구문론/의미론적으로 그럴듯한 음성을 연속으로 생성합니다. 음악을 구성하는 요소를 학습하지 않고도, AudioLM은 응집력 있는 피아노 음악을 연속으로 생성합니다. 더 많은 샘플은 여기에서 확인하실 수 있습니다.
생성 모델에 대한 결론
2022년 한 해 동안 미디어 생성 분야에서 여러 가지 흥미로운 발전이 있었습니다. 이제 컴퓨터는 자연어와 상호 작용하면서 창작 과정 및 창작 대상을 더 잘 이해할 수 있습니다. 덕분에 기존 도구의 한계를 뛰어넘어 새롭고 흥미로운 방식으로 이미지, 동영상, 음악을 손쉽게 생성할 수 있는 시대가 찾아왔습니다.
이에 따라 연구자들은 사용자가 생성 프로세스를 제어하는 방법에 대해 더욱 뜨거운 관심을 갖게 되었습니다. 텍스트를 이미지나 동영상으로 바꾸는 기술의 발전 덕분에 생성을 제어하는 강력한 수단으로서 언어가 가진 잠재력이 부상했고, Dream Booth 같은 작업을 통해서는 사용자가 가진 이미지를 이용해 새로운 미디어를 생성할 수 있게 되었습니다. 2023년부터는 미디어 생성의 품질과 속도가 눈에 띄게 발전하고, 더욱 창의적인 표현이 가능한 새로운 사용자 경험이 등장할 것입니다.
이러한 창작 도구는 인간의 창의적인 작업을 도와주는 역할을 하지만 다양한 종류의 유해 콘텐츠를 생성하거나 실제와 구별하기 어려운 가짜 이미지나 오디오 콘텐츠를 생성할 수도 있다는 우려 또한 존재합니다. 따라서 이러한 모델을 배포하기 전에 관련 문제를 신중하게 고려해야 합니다.
처음부터 보기
책임감 있는 AI
AI 개발에는 반드시 책임 의식이 수반되어야 합니다. 강력한 언어 모델은 많은 작업에서 인간에게 도움을 줄 수 있지만, 주의하지 않으면 잘못된 정보나 유해한 텍스트를 생성할 수도 있습니다. 생성 모델은 훌륭하고 창의적인 목적으로 사용되어 사람들이 새롭고 놀라운 방식으로 상상력을 펼치도록 도와줄 수도 있지만, 유해한 유해한 이미지나 가짜 이미지를 만드는 데 사용될 수도 있습니다.
이 복잡한 문제를 해결하기 위해서는 많은 노력이 필요하며, ML 및 AI 분야의 리더들이 나서서 기술뿐 아니라 책임 및 이행 측면에서도 최첨단 접근 방식을 주도해야 합니다. Google은 2018년에 이로운 사용, 사용자, 안전, 피해 방지를 최우선으로 삼는 AI 원칙을 명시한 최초의 기업 중 하나로서 모델과 데이터 카드의 사용 같은 많은 모범 사례를 선도해 왔습니다. 저희는 단순히 그럴싸한 말을 늘어놓기보다 AI 원칙을 실제로 적용하기 위해 힘씁니다. 텍스트-이미지 생성 모델에 대한 사례 연구, 번역에서 성별 편향을 피하는 기법, 보다 포괄적이고 공정한 피부 톤 감지 등의 내용이 담긴 AI 원칙 발전에 관한 최신 정보를 여기에서 확인하실 수 있으며, 유사한 문서가 2021년, 2020년, 2019년에도 게시된 바 있습니다. 대범하면서도 책임감 있는 태도로 AI를 연구하기 위해 저희는 사용자, 다른 연구자, 영향을 받는 커뮤니티, 과거 경험으로부터 끊임없이 배우고 노력합니다.
Google의 책임감 있는 AI 접근 방식의 내용은 다음과 같습니다.
사용자와 사회에 유용하고 이로운 AI에 중점을 둡니다.
연구 우선순위 설정부터 상품화와 사용을 아우르는 전 과정에서 (유익한 사용과 피해 방지에 기반을 둔) AI 원칙, 프로세스, 거버넌스를 적용합니다.
연구 엄격성, 동료 평가, 준비 상태 검토, 액세스 및 구현에 대한 책임감 있는 접근 방식을 고려하여 AI R&D에 과학적 방법을 적용합니다.
사회과학자, 윤리학자 및 사회 기술적 지식을 갖춘 전문팀 등 여러 분야의 전문가와 협업합니다.
개발자, 사용자, 정부, 영향을 받는 커뮤니티 대표자의 의견을 청취하고 배우며 이를 기반으로 개선해 나갑니다.
AI 연구, 애플리케이션 개발 및 사용 사례를 정기적으로 검토하고, 이를 통해 배운 바를 투명하게 공개합니다.
향후 발전 과정에서 발생할 수 있는 우려 사항과 위험성(예: 안전, 편향성, 유해성)을 제대로 파악하고 이 같은 위험이 발생할 시 적극적으로 해결, 연구, 혁신합니다.
위험을 완화하면서 혁신을 장려하고 AI의 이점을 극대화하는 책임감 있는 거버넌스, 책임, 규제를 선도하고 구축하도록 돕습니다.
사용자와 사회가 무엇이 AI이고 무엇이 AI가 아닌지 이해하고 그 잠재력을 최대한 활용할 수 있도록 돕습니다.
후속 블로그 게시물에서는 Responsible AI 팀의 리더들이 2022년에 수행했던 연구를 더 자세히 논의하고 앞으로의 비전을 제시할 예정입니다.
결론
저희는 지금까지 논의한 혁신적인 연구 성과를 검색, 어시스턴트, 광고, 클라우드, Gmail, 지도, YouTube, Workspace, Android, Pixel, Nest, 번역 등 Google의 다양한 서비스에 적용해서 수십억 명의 사용자에게 도움을 드리고 있습니다. 이처럼 최신 기술이 점점 발전하여 실제 사용자 환경에 접목되면서 인간과 컴퓨터와의 상호 작용 방식이 극적으로 변화할 것으로 예상합니다.
언어 모델 영역에서는 트랜스포머 모델의 발명과 시퀀스-투-시퀀스 학습 같은 발전 덕분에 사람들이 컴퓨터와 자연스러운 대화를 나누고 훌륭한 답까지 얻게 되었습니다. 컴퓨터 비전 영역에서는 새로운 접근 방식의 등장으로 인해 사람들이 컴퓨터를 이용해 2차원이 아닌 3차원으로 창작하고 상호 작용할 수 있었습니다. 그리고 생성 모델 영역의 새로운 발전으로 인해, 이전에 전통적인 도구(예: 키보드와 마우스)로는 불가능했던 방식으로 이미지, 동영상, 오디오를 만들 수 있게 되었습니다. 자연어 이해 능력 같은 기술 진보와 함께라면, 컴퓨터는 사용자가 무엇을 만들고자 하는지 정확히 이해하고 놀라울 정도로 멋진 결과를 구현하도록 도와주는 훌륭한 도구가 될 것입니다.
인간과 컴퓨터의 상호 작용 방식을 변화시키는 또 다른 혁신적 변화는 바로 멀티 모달 모델의 기능 확대입니다. 저희는 연구를 통해 각각의 양식이 특정 맥락에서 무엇을 나타내는지 이해하고 해당 맥락에서 다양한 모드를 생성할 수 있는, 즉 다양한 형식을 유동적으로 이해할 수 있는 단일 모델을 개발하고 있으며, 이 방면에서 지금껏 많은 성과를 이뤘습니다. 예를 들어, 저희는 다양한 벤치마크 전반에서 최고 성능으로 100여 가지 언어에 대해 비전, 언어, 질문 답변, 객체 감지 작업을 수행할 수 있는 통합 언어 모델을 도입했습니다. 미래에는 "이 이미지를 스와힐리어로 묘사해 주세요"처럼 간단한 문장으로도 원하는 작업을 컴퓨터에 지시할 수 있습니다. 저희는 온디바이스 멀티 모달 모델을 통해 Google 어시스턴트와 더 자연스럽게 상호 작용할 수 있음을 입증했으며, 자연어, 이미지, 오디오에 의해 제어되는 이미지, 동영상, 오디오를 다양한 조합으로 생성할 수 있는 모델도 시연했습니다. 앞으로도 보여드릴 것이 많으니 기대해 주시기 바랍니다.
혁신을 추구하는 과정에서, 저희는 AI 원칙에 따라 이러한 신기술이 사용자와 사회에 미칠 영향에 대해 심사숙고합니다. 저희는 단지 최첨단 기술을 개발하는 것에서 멈추지 않고, 이러한 기술을 세상에 널리 선보이기 전에 안전성을 확보해야 한다는 막중한 책임감을 느끼고 있습니다.
AI의 혁신적인 발전으로 인해 컴퓨터가 인간의 작업 수행을 돕는 방식에 새롭고 흥미로운 길이 열렸습니다. Google은 전 세계의 정보를 체계적으로 구성하고 누구나 접근 가능하며 유용하게 활용할 수 있도록 한다는 저희의 오랜 사명을 시대에 맞게 발전시키고 바꾸어 나갈 것입니다. 이런 사명으로 출범한 지 20여 년이 지난 현재, 저희는 이 사명이 그 어느 때보다 대담한 비전을 담고 있다고 믿습니다. 저희는 오늘날 AI 분야의 다양한 발전을 통해 사용자 환경을 향상 및 변화시키고, 사람들이 자신을 둘러싼 세계를 더 잘 이해하고 다양한 작업을 수행할 수 있도록 도울 수 있어서 무척 기쁩니다. 컴퓨터에 대한 제 오랜 꿈이 이뤄진 것입니다!
감사의 말
훌륭한 연구 성과를 보여주신 Google Research 커뮤니티 여러분께 감사드립니다. 또한 Martin Abadi, Ryan Babbush, Vivek Bandyopadhyay, Kendra Byrne, Esmeralda Cardenas, Alison Carroll, Zhifeng Chen, Charina Chou, Lucy Colwell, Greg Corrado, Corinna Cortes, Marian Croak, Tulsee Doshi, Toju Duke, Doug Eck, Sepi Hejazi Moghadam, Pritish Kamath, Julian Kelly, Sanjiv Kumar, Ronit Levavi Morad, Pasin Manurangsi, Yossi Matias, Kathy Meier-Hellstern, Vahab Mirrokni, Hartmut Neven, Adam Paszke, David Patterson, Mangpo Phothilimthana, John Platt, Ben Poole, Tom Small, Vadim Smelyanskiy, Vincent Vanhoucke, Leslie Yeh 등, 이 게시물을 포함해 앞으로 이어질 시리즈 작성에 도움을 주신 많은 Google 직원 여러분께 특별히 더 깊은 감사의 마음을 전합니다.