한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
오픈 글로벌 데이터세트를 탐구하고 시각화하는 과정에 대해 확인해 보세요.
2017년 9월 28일 목요일
<블로그 원문은
여기
에서 확인하실 수 있으며, 블로그 번역 리뷰는
곽동현(Machine Learning GDE)
님이 참여해 주셨습니다.>
게시자: Reena Jana(Business Inclusion 크리에이티브 책임자), Josh Lovejoy(Google Research UX 디자이너)
기계 학습 시스템은 점점 더 일상 생활의 많은 측면에 영향을 미치고 있으며, 전 세계 사람들에게 서비스를 제공하는 하드웨어 및 소프트웨어 제품에서 모두 활용되고 있습니다. 따라서
모든 이
에게 유용하고 접근성이 뛰어난 제품을 만들려고 애쓰는 연구자와 디자이너는 보통 전 세계 사용자의 다양성과 배경을 반영하는 데이터세트를 찾아야 하는 과제에 직면할 때가 많습니다. 이러한 기계 학습 시스템을 훈련시키기 위해서는 전 세계적으로 공개되어 있는데다, 점점 더 늘어나는 데이터세트가 필요합니다.
최근 6개월 동안 우리는
Quick, Draw!
의 사용자를 통해 이러한 데이터세트가 생성되는 것을 지켜보았습니다. Quick, Draw!는 전 세계의 폭넓은 잠재고객들이 신경망의 작동 방식을 이해하는 데 도움을 주기 위해 Google이 택한 최신 접근 방식입니다.
Google 직원으로 구성된 그룹
이 누구나 나무와 머그잔 같이 흔히 볼 수 있는 물체를 그려서 재미있게 기계 학습 시스템과 상호작용할 수 있는 방법으로 Quick, Draw!를 설계했습니다. 이 시스템은 그림이 묘사하는 것이 무엇인지 20초 내에 알아맞히려고 시도합니다. Quick, Draw!의 목표는 단순히 기계 학습을 기반으로 실행되는 재미있는 게임을 만드는 것이었지만, 그 결과 브라질에서 일본, 그리고 미국을 거쳐 남아프리카에 이르기까지 100개국에서 2천만 명의 사람들로부터 8억 개의 그림을 확보했습니다.
이제 우리는 전 세계 사람들이 이러한 데이터를 활용하여 분석하고 제품 디자인에 기여할 수 있도록 광범위하게 확보한 그림을 기반으로 오픈 데이터세트를 선보이려고 합니다. 이 데이터세트에는 현재 Quick Draw! 게임 플레이어들이 생성한 5천만 개의 그림이 포함되어 있습니다(앞으로도 계속해서 일정 기간 동안 8억 개의 그림을 더 공개할 예정).
이는 상당한 양의 데이터이며, (1) 기술적 배경에 관계없이 기계 학습 시스템을 훈련시키고 (2) 폭넓은 범위의 문화와 관점을 반영하는 오픈 데이터세트를 구축하는 데 다양한 사람들이 참여하도록 유도한 방법을 볼 수 있는 절호의 기회이기도 합니다.
국가별 및 전 세계적 차원의 패턴을 한눈에 보기
이 데이터세트 내에서 시각적 패턴을 빠르고 효율적으로 파악하기 위해, 우리는 아티스트인 Kyle McDonald 씨와 협력하여 전 세계에서 확보한 수천 개의 그림을 오버레이했습니다. 이 작업은 우리가 합성 이미지를 만들고 국가별 추세는 물론 전 세계적인 추세를 파악하는 데에도 도움이 되었습니다. 우리는 이 데이터를 통해 시각적 추세를 찾아낸 방법을 보여 주기 위해 전 세계적으로 확보한 고양이와 의자 그림 1,000개를 각각 겹쳐서 애니메이션을 제작했습니다(아래 참조).
전 세계에서 확보한 1,000개의 그림으로 만든 고양이 모습:
전 세계에서 확보한 1,000개의 그림으로 만든 의자 모습:
고양이(또는 나무, 무지개, 해골 등)와 같이 원래 많이 그려지는 물체를 대강 그린 그림은 여러 문화권에서 대동소이하게 보이는 경우가 많았습니다.
하지만 특정 문화권에서만 친숙하고 다른 문화권에서는 그렇지 않은 물체는 눈에 띄는 차이를 보였습니다. 샌드위치는 윤곽이 뚜렷한 형태를 띠거나 선이 마구 뒤섞인 형태였으며, 머그잔 손잡이는 방향이 서로 반대로 그려지기도 했고, 의자는 정면 방향이나 측면 방향으로 그려져 있었습니다.
모든 상황에 맞는 해답이란 없음
우리는 이러한 합성 그림이 샌드위치에 사용된 빵의 종류부터 커피잔의 모양, 그리고 시각적으로 눈길을 끌도록 물체를 묘사하는 방법을 나타내는 미적 요소에 이르기까지 다양한 지역의 잠재고객 사이에서 관점과 선호 사항이 어떻게 다른지를 드러낼 수 있다는 사실을 깨달았습니다. 예를 들어, 일부 국가에서는 더 간단하게 표현되는 정면 모습을 그리는 일관된 경향이 나타난 반면에, 측면 모습을 그리는 일관된 경향성이 보이는 국가도 있었습니다.
이러한 이미지를 오버레이함으로써 데이터의 다양성이 부족할 때 신경망을 훈련시키는 방식을 개선할 방법도 알 수 있었습니다. 참고로, 데이터 다양성 부족 문제는 전 세계에서 확보한 대규모 오픈 데이터세트에서 조차 나타납니다. 예를 들면, Quick, Draw! 데이터세트에서 115,000개가 넘는 신발 그림을 분석한 결과, 스니커와 비슷한 형태의 단 한 가지 신발 스타일이 압도적으로 많이 표현된 것을 확인했습니다. 이 신발 스타일이 많이 그려졌기 때문에 신경망은
이
스타일만 '신발'로 인식하도록 학습되었습니다.
하지만 실제 세계에서와 마찬가지로, 데이터 훈련 영역에서도 모든 상황에 맞는 해답이란 건 없습니다. 우리는 '어떻게 하면 일관되면서도 효율적으로 데이터세트를 분석하여 잠재적 편향을 파악할 수 있는 단서를 찾을 수 있을까?' 라고 자문했습니다. 그리고 '팀이 다양성이 부족한 데이터세트를 기반으로 분류기를 만든다면 어떻게 될까?' 라는 질문에 대해서도 생각해 봤습니다.
데이터의 포괄성 진단
Google
PAIR
이니셔티브의 일환으로 지난달에 발표한 오픈소스 도구인
Facets
를 사용하면 대규모 데이터세트에서 패턴을 신속하게 파악할 수 있습니다. 이 도구의 목표는 Quick, Draw! 데이터세트와 같이 대규모 데이터세트의 대표성을 효율적이고 시각적으로 진단하는 것입니다.
다음은 Facets 도구 내의 Quick,Draw! 데이터세트를 보여 주는 스크린샷입니다. 이 도구는 수천 개의 그림을 국가(최대 100개국까지 지원)와 같은 특징 값을 기준으로 여러 차원에 'faceting' 하여 배치하는 데 도움이 되었습니다. 또한, 10개의 국가를 포함하는 뷰에서 '임의의 얼굴'과 같은 특징을 필터링한 후 100개의 국가로 확장할 수도 있습니다. 이에 따라 국가별 표현이 차지하는 비율을 한눈에 파악할 수 있습니다. 뿐만 아니라, 각각의 개별 그림을 확대하여 세부 사항을 확인함으로써 하나의 데이터 요소를 더욱 상세히 분석할 수도 있습니다. 이는 연구자가 미묘한 차이점 또는 이적인 부분을 찾아내거나 대규모 데이터세트 내에서 나중에 패턴으로 등장할 수 있는 아주 작은 시각적 추세에 대한 플래그 지정을 시작할 수 있도록 하므로, 특히 Quick, Draw!와 같은 대규모 시각적 데이터세트로 작업할 때 유용합니다.
다음은 '임의의 얼굴'에 대한 동일한 Quick, Draw! 데이터가 94개 국가에 대해 faceted되고 또 다른 뷰에 표시된 형태입니다. 아주 잠깐만 봐도 Facets이 그림을 로드한 이 새로운 시각화 형태에서 미국과 유럽 국가를 나타내는 데이터가 압도적으로 많다는 점이 분명히 드러납니다. 이는 Quick, Draw! 게임이 현재 영어로만 제공된다는 점을 간주하면 논리적으로 당연한 결과입니다. 우리는 차츰 언어를 더 추가할 계획입니다. 하지만 이 시각화에서는 데이터 내에서 영어 이외의 언어를 모국어로 사용하는 국가 중 브라질과 태국이 상대적으로 제대로 표현된 국가인 것처럼 보입니다. 이는 디자이너가 인터페이스 디자인의 어느 요소가 이러한 국가에서 제대로 작동했을지 분석할 여지가 있음을 시사했습니다. 그런 다음, 우리는 이 정보를 활용하여 전 세계에서 영어 이외의 언어를 모국어로 사용하는 다른 잠재고객에 대해 다음에 반복해서 이루어질 과정에서 Quick,Draw!를 향상시킬 수 있을 것입니다. 또한, 앞으로의 번역 작업에서 어떤 현지 언어를 우선적으로 처리할 지 결정하는데 도움이 되도록 이처럼 faceted된 데이터를 활용하고 있습니다.
Quick, Draw! 데이터의 포괄성을 진단하는 데 Facets을 사용하여 얻은 또 다른 성과는 누구나 데이터의 다양성을 향상시킬 수 있는 확실한 방법을 파악하고 잠재적인 편향을 확인하는 것이었습니다. 다음과 같은 개선 사항이 포함될 수 있습니다.
데이터가 현지 또는 전 세계인을 더욱 정확하게 나타내도록 데이터 또는 콘텐츠 생성에 대한 인적 평가의 프로토콜 변경
데이터의 하위 그룹을 분석하고 시각적 패턴 내에서 드러나는 '교차성'과 동일한 데이터베이스 식별
더욱 포괄적일 수 있도록 데이터 증대 및 가중치 조정
우리는 이러한 데이터세트와 Facets 등의 도구를 발표함으로써 기계 학습에 더욱 포괄적인 접근 방식 탐구를 촉진하고 이러한 관찰을 혁신을 이룰 수 있는 기회로 바꿀 수 있기를 바랍니다. 우리는 Quick, Draw!와 Facets를 통해 이제 막 통찰력 있는 정보를 도출하기 시작했습니다. 여러분도 우리와 함께 더 많은 결과를 끌어내는 활동에 동참하시기 바랍니다.
감사의 말
Jonas Jongejan, Henry Rowley, Takashi Kawashima, 김종민, Nick Fox-Gieg 씨에게 Google Creative Lab 및 Google의 Data Arts Team과 협력하여 Quick, Draw!를 빌드해 주신 점에 대해 감사의 인사를 드립니다. 기계 학습의 공정성에 대한 동영상을 제작해 주신 Google Creative Lab의 Teo Soares, Alexander Chen, Bridget Prophet, Lisa Steinman 및 JR Schmidt 씨에게도 감사의 말을 전합니다. PAIR의 James Wexler, Jimbo Wilson 및 Mahima Pushkarna 씨에게는 Facets를 설계해 주신 점에 대해, Google Brain 팀의 선임 연구원인 Martin Wattenberg 및 Fernanda Viégas 씨와 UX 연구원인 Jess Holbrook 씨에게는 프로젝트를 이끌어 주신 점에 대해 감사의 인사를 드립니다. Google Cloud 팀의 Ian Johnson 씨에게는 오버레이된 그림에 대한 시각화 작업에 한몫을 해 주신 점에 대해 고맙다는 인사를 드립니다.
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2024
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed