Google for Developers Korea Blog: 동영상 이해를 위해 최적의 네트워크 아키텍처를 자동으로 검색하기

동영상 이해를 위해 최적의 네트워크 아키텍처를 자동으로 검색하기

2019년 11월 20일 수요일

.post-body span { white-space: normal !important; } <블로그 원문은 이곳에서 확인하실 수 있으며 블로그 번역 리뷰는 강재욱(Machine Learning GDE)님이 참여해 주셨습니다>
게시자: Michael S. Ryoo(연구원), AJ Piergiovanni(학생 연구자) - Google Robotics 부문
동영상의 이해는 까다로운 문제입니다. 동영상에는 시공간 데이터가 포함되므로 외관 및 모션 정보를 모두 추상화하려면 특징 표현이 필요합니다. 이는 웹 동영상 분류 또는 스포츠 활동 인식과 같이, 동영상의 시맨틱 콘텐츠를 자동으로 이해하는 데 필수적일 뿐 아니라, 로봇 인식 및 학습에도 매우 중요합니다. 인간과 마찬가지로, 로봇에 장착된 카메라에서 전송되는 입력 신호가 세상의 모습을 담은 정적 스냅샷인 경우는 거의 없고 연속적인 동영상 형식을 띱니다.
오늘날의 딥 러닝 모델이 가지는 능력은 이들 모델의 신경 아키텍처에 크게 좌우됩니다. 동영상용 컨벌루션 신경망(CNN)은 보통 Inception 및 ResNet과 같이 알려진 2D 아키텍처를 3D로 수동으로 확장하거나 외관 및 모션 정보를 모두 함께 융합하는 두 스트림으로 구성된 CNN 아키텍처를 신중하게 디자인하는 방법으로 빌드됩니다. 하지만 동영상에 포함된 시공간 정보를 최선으로 활용하는 최적의 동영상 아키텍처 디자인은 아직도 풀리지 않은 문제로 남아 있습니다. 적당한 아키텍처를 발견하기 위한 신경 아키텍처의 검색(예: Zoph 외, Real 외)은 이미지에 대해서는 폭넓게 이루어졌지만, 동영상에 대해 머신에 최적화된 신경 아키텍처는 아직 개발되지 않았습니다. 동영상 CNN은 일반적으로 계산 및 메모리 집약적이므로, 동영상 CNN의 고유한 속성을 포착하는 동시에 이들을 효율적으로 검색하기 위한 접근 방식을 고안하기 어려웠습니다.
우리는 이런 난제에 대응하기 위한 동영상 이해를 위해 최적의 네트워크 아키텍처를 자동으로 검색하는 기술에 대한 연구를 수행했습니다. 우리는 학습 계층과 이런 계층의 모듈 구성(EvaNet), 다중 스트림 연결 학습(AssembleNet), 계산상 효율적이고 콤팩트한 네트워크의 빌드(TinyVideoNet)라는 세 가지 다른 신경 아키텍처의 진화 알고리즘을 보여 드립니다. 우리가 개발한 동영상 아키텍처는 공개된 여러 가지 데이터세트를 기반으로 수작업으로 만든 기존 모델을 상당한 격차로 능가하는데, 네트워크 런타임의 경우 10~100배 정도 개선된 것으로 나타납니다.
EvaNet: 최초의 진화된 동영상 아키텍처 우리가 ICCV 2019의 'Evolving Space-Time Neural Architectures for Videos(동영상용으로 진화하는 시공간 신경 아키텍처)'에서 소개하는 EvaNet은 동영상 아키텍처를 위한 신경 아키텍처 검색 설계를 최초로 시도합니다. EvaNet은 시공간 컨벌루션 계층의 유형뿐 아니라 이런 계층의 순차적 구성이나 병렬 구성을 찾는 데 초점을 맞춘 모듈 레벨 아키텍처 검색입니다. 돌연변이 연산자를 포함한 진화 알고리즘이 검색에 사용되어 아키텍처 모집단을 반복적으로 업데이트합니다. 이를 통해 검색 공간을 병렬 방식으로 더욱 효율적으로 탐색할 수 있는데, 이 검색 공간은 동영상 아키텍처 검색에서 다양한 시공간 계층과 이들 계층의 조합을 고려하기 위해 필요합니다. EvaNet은 (네트워크 내의 다양한 위치에 있는) 여러 모듈을 진화시켜 다양한 아키텍처를 생성합니다.
우리의 실험 결과에 따르면, 유형이 다른 모듈을 진화시켜서 얻는 이러한 동영상 CNN 아키텍처의 이점이 확인됩니다. 이 접근 방식에서 여러 개의 병렬 계층으로 구성된 중요한 모듈이 수동으로 디자인한 모듈에 비해 빠르고 더 우수한 성능을 나타내므로 가장 효과적이라는 점을 종종 발견합니다. 또 다른 흥미로운 면은 비슷하게 좋은 성능을 발휘하지만 추가적인 계산 없이도 진화의 결과로서 다양한 아키텍처를 여럿 얻는다는 점입니다. 이런 아키텍처로 앙상블을 형성하면 성능이 더욱 향상됩니다. 이런 아키텍처의 병렬 특성 덕분에, 모델의 앙상블이 (2+1)D ResNet과 같은 다른 표준 동영상 네트워크보다 계산상 더 효율적이기까지 합니다. 우리는 해당 코드를 오픈소스로 공개했습니다.

다양한 EvaNet 아키텍처의 예. 색칠된 (크거나 작은) 각 상자는 상자의 색으로 유형을 표시하는 계층을 나타내는데, 3D 변환(파란색), (2+1)D 변환(주황색), iTGM(녹색), 최대 풀링(회색), 평균(자주색), 1x1 변환(분홍색)입니다. 계층은 종종 그룹화되어 모듈(큰 상자)을 형성합니다. 각 상자 내부의 숫자는 필터 크기를 표시합니다.

AssembleNet: 더 강하고 나은 (다중 스트림) 모델 빌드 'AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures(AssembleNet: 동영상 아키텍처에서 다중 스트림 신경 연결 검색)'에서는 다양한 입력 형식(예: RGB 및 광학 흐름)과 시간 해상도를 가진 다양한 하위 네트워크 융합의 새로운 방법을 살펴봅니다. AssembleNet은 대상 작업에 맞춰 최적화되는 동안 다양한 입력 형식에 걸친 특징 표현 중에서 '연결성'을 학습하기 위한 일반적인 접근 방식을 제공하는 학습 가능 아키텍처로 구성된 '패밀리'입니다. 다양한 형식의 다중 스트림 CNN을 상위 레벨 네트워크 연결을 탐색하기 위한 효율적인 진화 알고리즘과 결합된 방향성 그래프로 표현할 수 있게 하는 일반적인 방법을 소개합니다. 동영상에서 외관 및 모션의 시각적 실마리에 대해 더 나은 특징 표현을 학습하는 것이 이 방법의 목적입니다. 늦은 융합이나 고정된 중간 융합을 사용하는 이전의 수동 디자인된 두 스트림이 있는 모델과는 달리, AssembleNet은 과도하게 연결된 다중 스트림, 다중 해상도 아키텍처로 구성된 모집단을 진화시키는 동시에 연결 가중치 학습으로 돌연변이들을 안내합니다. 우리는 처음으로 다양한 중간 연결을 포함해 네 스트림이 있는 아키텍처를 살펴보고 있는데, RGB 및 광학 흐름마다 두 개의 스트림이 있으며 각각 시간 해상도가 다릅니다.
아래 그림은 50~150라운드에 걸쳐 임의의 초기 다중 스트림 아키텍처의 풀을 진화시켜서 찾아낸 AssembleNet 아키텍처의 예를 보여줍니다. 우리는 매우 인기 있는 두 동영상 인식 데이터세트 Charades와 Moments-in-Time(MiT)에서 AssembleNet을 테스트했습니다. MiT에서는 처음에 34% 이상의 성능을 보였습니다. Charades에서의 성능은 58.6% mAP(mean Average Precision)에서 훨씬 더 인상적인 결과가 나왔는데, 이전의 테스트에서 최고로 알려진 결과였던 42.5와 45.2에 비하면 크게 향상된 수치입니다.

대표적인 AssembleNet 모델은 Moments-in-Time 데이터세트를 사용하여 진화했습니다. 노드는 시공간 컨벌루션 계층으로 구성된 블록에 상응하는데, 각 에지는 연결성을 지정합니다. 어두운 에지는 더 강력한 연결을 의미합니다. AssembleNet은 대상 작업을 위해 최적화된 학습 가능 다중 스트림 아키텍처의 패밀리입니다.

Charades(왼쪽) 데이터세트와 Moments-in-Time(오른쪽) 데이터세트에 대해 AssembleNet과 수작업으로 디자인한 최신 모델을 비교한 그림. AssembleNet-50 또는 AssembleNet-101은 두 스트림이 있는 ResNet-50 또는 ResNet-101과 같은 수의 매개변수가 있습니다.

작은 동영상 네트워크: 가장 빠른 동영상 이해 네트워크 동영상 CNN 모델이 로봇에서 필요한 것과 같이 실제 환경에서 작동하는 기기에 유용하게 쓰이려면, 효율적인 실시간계산이 필요합니다. 하지만 동영상 인식 작업에서 최신 결과를 얻으려면 깊고 큰 네트워크가 필요한데, 종종 수십에서 수백 개의 컨벌루션 계층이 있으며 이런 계층에 많은 입력 프레임이적용됩니다. 결과적으로, 이런 네트워크는매우 느린 런타임 문제를 야기하며, 최신형 GPU에서는 1초의 동영상 스니펫당 500ms 이상, GPU에서는 2,000ms 이상이 필요하게 됩니다. 우리는 작은 동영상 네트워크에서 계산 비용의 일부만으로 비슷한 성능을 제공하는 네트워크를 자동으로 디자인함으로써 이 문제를 해결합니다. 우리의 작은 동영상 네트워크(TinyVideoNets)는 비슷한 정확도를 달성하고 최대 1초의 동영상에 대해 CPU에서는 37~100ms, GPU에서는 10ms 내에 실시간이나 더 나은 속도로 효율적으로 작동하여 사람이 디자인한 다른 최신 모델보다 수백 배 더 빠른 속도를 실현합니다.
아키텍처 진화 중에 모델 런타임을 명시적으로 고려하고, 계산을 줄이기 위해서 공간 또는 시간 해상도와 채널 크기를 검색 공간으로 탐색하는 알고리즘을 강제 적용하여 이런 성능 이득을 얻습니다. 아래 그림은 TinyVideoNet가 찾아낸 간단하지만 매우 효과적인 두 아키텍처를 보여줍니다. 흥미롭게도, 학습된 모델 아키텍처는 전형적인 동영상 아키텍처보다 컨벌루션 계층 수가 적습니다. 작은 동영상 네트워크는 2D 풀링, 게이팅 계층, squeeze-and-excitation(SE) 계층과 같은 가벼운 요소를 선호합니다. 게다가, TinyVideoNet은 매개변수와 런타임을 공동으로 최적화하여 미래의 네트워크 탐색에서 사용할 수 있는 효율적인 네트워크를 제공할 수 있습니다.

TinyVideoNet(TVN) 아키텍처는 계산 시간을 원하는 제한 범위 내로 유지하면서도 인식 성능을 극대화하도록 진화했습니다. 예를 들어 TVN-1(상단)은 CPU에서는 37ms, GPU에서는 10ms에서 작동합니다. TVN-2(하단)는 CPU에서는 65ms, GPU에서는 13ms에서 작동합니다.

이전 모델과 비교한 TinyVideoNet 모델의 CPU 런타임(왼쪽) 및 (2 + 1)D ResNet 모델과 비교한 TinyVideoNets의 런타임 대 모델 정확도(오른쪽). TinyVideoNet은 이 시간-정확도 공간에서 다른 모델은 존재하지 않는 부분, 즉 극히 빠르면서도 여전히 정확한 공간을 차지합니다.

결론 우리가 아는 한, 이 연구는 동영상 이해를 위한 신경 아키텍처 검색에 관한 최초의 작업입니다. 우리의새로운 진화 알고리즘으로 생성하는 동영상 아키텍처는 공개 데이터세트를 기반으로 사람이 직접 디자인한 CNN 아키텍처 중 가장 잘 알려진 아키텍처를 상당한 격차로 능가합니다. 또한 아키텍처 진화와 함께 계산상 효율적인 동영상 모델인 TinyVideoNet을 학습하는 것이 가능하다는 점도 보여줍니다. 이번 연구는 동영상 이해를 위한 새로운 방향을 제시하고 머신으로 진화된 CNN의 장래성을 잘 보여줍니다.