한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
AVA 발표: 인간 행동의 이해를 위해 섬세하게 레이블이 지정된 동영상 데이터세트
2017년 11월 2일 목요일
<블로그 원문은
여기
에서 확인하실 수 있으며, 블로그 번역 리뷰는
전태균(Machine Learning GDE)
님이 참여해 주셨습니다.>
게시자: Chunhui Gu와 David Ross, 소프트웨어 엔지니어
동영상 속 인간 행동을 이해하도록 기계를 교육하는 것은 컴퓨터 비전의 근본적 연구 과제로서, 맞춤형 동영상 검색, 스포츠 분석 및 동작 인터페이스와 같은 애플리케이션에 필수적입니다. 지난 몇 년 동안 이미지에서
객체를 분류
하고
찾는
기술이 흥미롭고도 획기적인 발전을 이루었지만, 인간 행동을 인식하는 것은 여전히 큰 해결 과제로 남아 있습니다. 이는 동영상 내에서 인간 행동이 그 본질상 물체에 비해 명확히 한정되지 않으므로, 섬세하게 레이블 지정된 액션 비디오 데이터세트를 구성하기 어렵기 때문입니다. 다수의 벤치마킹 데이터세트(예:
UCF101
,
ActivityNet
및 DeepMind의
Kinetics
)에서 이미지 분류에 대한 레이블 지정 체계를 채택하고 이러한 데이터세트에서 각각의 동영상 또는 동영상 클립마다 하나의 레이블을 할당하고 있지만, 각기 다른 행동을 취할 수 있는 여러 사람을 포함하는 복잡한 장면을 다루는 데이터세트는 존재하지 않습니다.
인간 행동 인식에 대한 향후 연구를 용이하게 하기 위해 우리는 긴 동영상 시퀀스에 포함된 각 사람의 여러 가지 행동 레이블을 제공하는 새로운 데이터세트인, '원자성 시각적 행동'을 기반으로 구축된 AVA를 출시했습니다. AVA는 YouTube를 통해 공개적으로 시청할 수 있는 동영상의 URL로 구성되어 있습니다. 이는 공간-시간적으로 국부화된 80가지의 원자성 행동(예: '걷기', '(물체를) 발로 차기', '악수하기')으로 구성된 세트로 주석 처리되어 있어, 동영상 세그먼트 57,600개, 레이블 지정된 인간 행동 9,600가지, 그리고 총 21만 개의 행동 레이블로 분류됩니다.
웹사이트
를 탐색하여 데이터세트를 살펴보면서 주석을 다운로드할 수 있으며, 데이터세트의 설계 및 개발에 대해 설명하는
arXiv 문서
를 읽어볼 수 있습니다.
다른 행동 데이터세트와 비교하여 AVA는 다음과 같은 주요 특징을 갖추고 있습니다.
사람 중심적 주석.
각 행동 레이블은 동영상 또는 클립이 아니라 사람과 연결되어 있습니다. 따라서 꽤 흔한 경우지만, 같은 장면에서 각기 다른 행동을 하는 여러 명의 사람에게 각기 다른 레이블을 할당할 수 있습니다.
원자성 시각적 행동.
행동 레이블을 제한하여 시간적 척도를 세분화합니다(3초). 이 경우 행동은 기본적으로 물리적 특성이므로 뚜렷한 시각적 특징을 가지게 됩니다.
사실적인 동영상 자료.
다양한 장르와 제작 원산지에서 추출한 동영상을 AVA의 소스로 활용합니다. 그 결과, 광범위한 인간 행동이 데이터에 나타납니다.
각 동영상 세그먼트의 가운데 프레임에 경계 상자 주석이 있는 3초짜리 동영상 세그먼트(출처:
동영상 소스
)의 예. (명확히 보여주기 위해 각 예제마다 하나의 경계 상자만 표시되어 있습니다.)
AVA를 만들기 위해, 우리는 먼저 YouTube에서 수많은 다양한 국적의 전문 배우가 출연하는 '영화'와 '텔레비전' 범주에 집중하여 장편의 다양한 콘텐츠 세트를 수집했습니다. 각 동영상에서 15분짜리 클립을 분석했으며 각각을 300개의 서로 겹치지 않는 3초짜리 세그먼트로 균일하게 분할했습니다. 이 샘플링 전략에 따라 일관성 있는 시간적 컨텍스트에서 행동 시퀀스를 유지할 수 있었습니다.
다음으로, 각 3초짜리 세그먼트의 가운데 프레임에 있는 사람의 경계 상자를 전부 수동으로 레이블 지정했습니다. 경계 상자에 있는 각각의 사람에 대해 주석 처리자는 세그먼트 내에서 사람의 행동을 설명하는, 미리 정의된 원자성 행동 어휘(80개 클래스 포함)에서 레이블(개수는 가변적)을 선택했습니다. 이러한 행동은 포즈/움직임 행동, 사람과 물체의 상호 작용, 사람과 사람의 상호 작용이라는 세 그룹으로 나뉘었습니다. 모든 행동을 취하는 모든 사람들에 대해 철저히 레이블을 지정했으므로 아래 요약된 것과 같이 AVA 레이블의 빈도는 롱테일(long-tail) 분포를 따랐습니다.
AVA 원자성 행동 레이블의 분포. x축에 표시되어 있는 레이블은 전체 어휘 중 일부에 불과합니다.
AVA의 고유한 디자인에 따라 기존의 다른 데이터세트에서는 사용할 수 없는 몇 가지 흥미로운 통계량을 도출할 수 있습니다. 예를 들어, 둘 이상의 레이블이 지정된 다수의 사람이 있다고 가정할 경우, 행동 레이블의 동시 발생 패턴을 측정할 수 있습니다. 아래 그림에서는 AVA에서 가장 많이 동시 발생하는 행동 쌍과 해당 동시 발생 점수를 보여줍니다. 여기서는 사람들이 노래를 부를 때 악기를 자주 연주하고, 아이들과 놀 때 아이를 안아 올리고, 키스할 때 포옹하는 등의 예상되는 패턴을 확인했습니다.
AVA에서 가장 많이 동시 발생하는 행동 쌍.
AVA 데이터세트에 대한 인간 행동 인식 시스템의 유효성을 평가하기 위해 훨씬 더 작은
JHMDB 데이터세트
에서는 고도의 경쟁력 있는 성능을 획득하는 기존의 기준 딥 러닝 모델을 구현했습니다. 확대/축소, 어수선한 배경 요소, 영화 촬영술, 모양 변화와 관련한 까다로운 변화 때문에, 이 모델은 AVA에서 행동을 정확히 식별할 때 상대적으로 그다지 높지 않은 수준의 성능을 실현합니다(18.4%
mAP
). 이는 AVA가 앞으로 수년간 새로운 행동 인식 아키텍처와 알고리즘을 개발하고 평가하는 데 사용할 수 있는 유용한 시험대가 될 것임을 시사합니다.
AVA 출시가 인간 행동 인식 시스템 개발을 향상시키는 데 도움이 되고 개인의 행동 수준에서 공간적-시간적으로 세분화된 레이블을 기반으로 복잡한 활동을 모델링할 수 있는 기회를 제공하기를 바랍니다. 우리는 계속해서 AVA를 확장하고 향상할 것이며, 향후 나아갈 방향을 안내하는 데 도움이 되도록 커뮤니티의 의견을 듣고 싶습니다. AVA 사용자
메일링 리스트
에 가입하여 데이터세트 관련 업데이트를 받고 이메일을 보내 피드백을 제공해 주시기 바랍니다.
감사의 말
AVA를 담당한 핵심 팀에는 Chunhui Gu, Chen Sun, David Ross, Caroline Pantofaru, Yeqing Li, Sudheendra Vijayanarasimhan, George Toderici, Susanna Ricco, Rahul Sukthankar, Cordelia Schmid, Jitendra Malik 등이 참여하고 있습니다. 많은 Google 동료와 주석 처리를 맡아주신 분들께 이 프로젝트에 헌신적으로 지원해주신 데 대한 감사 인사를 드립니다.
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2024
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed