한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
음성 명령 데이터셋이 출시되었습니다!
2017년 9월 7일 목요일
<블로그 원문은
여기
에서 확인하실 수 있으며, 블로그 번역 리뷰는 권순선(Google)님이 참여해 주셨습니다.>
게시자: Pete Warden, Google Brain 팀 소프트웨어 엔지니어
Google에서는 키워드 또는 명령어 감지와 같이 음성 및 기타 오디오 인식 문제에 딥 러닝을 어떻게 사용하기 시작할 수 있을지에 대한 질문을 종종 받습니다. 신경망을 구성 요소로 사용할 수 있는
Kaldi
와 같은 훌륭한 오픈소스 음성 인식 시스템이 몇 가지 공개되어 있지만, 이러한 시스템의 정교한 기능으로 인해 시스템을 더욱 단순한 작업으로 안내하는 가이드로 사용하기 어려워집니다. 아마도 더 중요한 점은 초보자 가이드로 바로 사용하거나(많은 데이터셋의 경우 전처리를 거쳐야만 이를 기반으로 신경망 모델을 빌드할 수 있음) 간단한 키워드 감지에 적합한 무료 공개 데이터셋이 많이 없다는 점일 것입니다.
이러한 문제를 해결하기 위해
TensorFlow
및
AIY
팀은
음성 명령 데이터셋
를 만들고 이를 사용하여
학습
*
및
인터페이스
샘플 코드를 TensorFlow에 추가했습니다. 이 데이터셋에는 30개의 짤막한 단어에 대해 65,000가지의 1초짜리 발성이 포함되어 있는데, 이는
AIY 웹사이트를 통해 수천 명의 일반 사용자가 참여한 결과로 구축한 자료입니다
. 이 데이터셋은
Creative Commons BY 4.0 라이선스
하에 출시되었으며, 점점 더 많은 사용자가 프로젝트에 기여하고 있으므로 향후 릴리스에서 계속 확장될 예정입니다. 이 데이터셋은 '예', '아니요'와 같이 흔히 사용되는 단어와 숫자, 그리고 지시를 포함하여 애플리케이션에 대한 기본적이지만 유용한 음성 인터페이스를 빌드할 수 있도록 설계되었습니다. 이 데이터를 생성할 때 사용한 인프라도
오픈소스로 제공
되었으므로 더욱 폭넓은 커뮤니티에서 자체적인 버전을 생성하고, 특별히 서비스가 제공되지 않는 언어 및 애플리케이션을 지원하는 데 이 데이터가 활용되기를 바랍니다.
직접 시험해 보려면
미리 빌드된 TensorFlow Android 데모 애플리케이션 세트
를 다운로드하고 'TF Speech'를 열어 보시기 바랍니다. 그러면 마이크 액세스 권한을 요청하는 메시지가 표시된 후 10개의 단어로 구성된 목록이 표시됩니다. 이 목록에 포함된 단어를 말하면 해당 단어에 불이 들어옵니다.
결과는 음성 패턴이 데이터셋에 포함되어 있는지 여부에 따라 달라지므로 완벽하지 않을 수 있습니다. 상업용 음성 인식 시스템은 이 교육용 예제보다 훨씬 더 복잡합니다. 하지만 점점 더 많은 액센트와 변형된 발성이 데이터셋에 추가되고 있으며 커뮤니티의 기여로 TensorFlow 모델이 계속 향상되고 있으므로, 앞으로도 계속해서 기능이 개선되고 확장되는 것을 볼 수 있을 것입니다.
또한,
TensorFlow.org에서 제공하는 새로운 오디오 인식 가이드
를 통해 이 모델에 따라 개발자가 스스로 빌드한 자체 버전을 훈련시키는 방법도 배울 수 있습니다.
최신 개발 버전의 프레임워크
와 최신 데스크톱 시스템을 사용하여 데이터셋을 다운로드하고 단 몇 시간 만에 이 모델을 훈련시킬 수 있습니다. 뿐만 아니라, 여러 가지 문제에 맞게 신경망을 사용자설정하고 각기 다른 플랫폼에서 실행되도록 지연 시간, 크기 및 정확성을 적절히 조정할 수 있는 매우 다양한 옵션도 확인할 수 있을 것입니다.
이 데이터셋과 가이드를 활용하여 어떤 애플리케이션을 새로 빌드할 수 있을지 무척 기대됩니다. 인식 프로젝트에 본격적으로 착수하여 몰입해 보시기 바랍니다!
* 이 네트워크의 바탕이 되는 아키텍처에 대한 설명은
Interspeech 2015
에서 발표된
Convolutional Neural Networks for Small-footprint Keyword Spotting
에서 확인할 수 있습니다.↩
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2024
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed