한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
Live Transcribe를 이용한 실시간 연속 음성 자막 처리에 대해 알아보세요
2019년 5월 29일 수요일
<블로그 원문은
이곳
에서 확인하실 수 있습니다>
게시자: Sagar Savla, 기계 인지 제품 관리자
세계보건기구
(WHO)는 전 세계적으로 청각 장애인과 난청 환자의 수가 4억 6천 6백만 명 정도 있는 것으로
추정
합니다. 이런 사람들이 원활히 소통하고 세상의 정보에 소외되지 않고 올바로 접근할 수 있도록 하기 위한 결정적인 기술이 바로
자동 음성 인식
(ASR) 기술이며, 이 기술 덕분에 컴퓨터가 음성 언어를 감지하여 읽을 수 있는 텍스트로 변환해 자막으로 표시해 줄 수 있습니다.
Youtube의 자동 자막
,
Slides의 프레젠테이션
그리고 전화 통화에도
Google의 ASR
기술이 숨은 활약을 펼치고 있습니다. 하지만 ASR이 지난 2, 3년간
여러 가지로 향상
되었는데도 청각 장애인과 난청 환자들은 여전히 미국에서는
CART
, 영국에서는
Palantypist
또는 다른 국가에서는
STTR
과 같은 수동 자막 서비스에 주로 의존하고 있습니다. 이런 서비스는 보통 사람은 엄두가 나지 않을 정도로 비싸고 종종 훨씬 미리 전부터 예약해야 하는 경우가 많아, 청각 장애인과 난청 환자가 즉석 대화뿐 아니라 사교 행사에도 참가할 기회를 축소시킵니다. 우리는 기술이 이러한 격차를 해소하고 청각 장애인 및 난청 환자 커뮤니티에 큰 힘이 될 것이라 믿습니다.
오늘 우리는 자동 자막 처리 능력을 일상적 대화에 적용함으로써 그들이 실제 대화에 실시간으로 더욱 쉽게 접근할 수 있도록 도와주는 무료 Android 서비스인
Live Transcribe
를 발표할 예정입니다.
Google Cloud
로 지원되는 Live Transcribe는 음성 대화를 실시간으로 자막으로 변환해 주며, 전 세계 인구의 80%가 사용하는 70여 가지 언어를 지원합니다. 어떤 앱을 사용하고 있든, 그 내부에서 작업 표시줄에 있는 접근성 아이콘에서 한 번만 탭하면 Live Transcribe를 바로 실행할 수 있습니다.
Live Transcribe 빌드
이전의 ASR 기반 자막 시스템에서는 대체로 계산 집약적 모델, 철저한 사용자 연구, 값비싼 연결 액세스가 필수적이었는데, 그 모든 것은 자동화된 연속 자막 기술의 채택을 가로막습니다. 이러한 문제를 해결하고 합리적 수준에서 정확한 실시간 자막 변환을 보장하기 위해, Live Transcribe는 광범위한 사용자 환경(UX) 연구 결과를 음성 처리 서버에 대한 빈틈없고 지속 가능한 연결성과 결합해 줍니다. 그뿐 아니라, 우리는 이러한 서버에 연결하느라 사용자에게 지나친 데이터 사용량을 유발하지 않도록 할 필요가 있었습니다.
클라우드 ASR에 의존하면 정확도가 더욱 높아지지만, 우리는 Live Transcribe를 사용하는 데 필요한 네트워크 데이터 사용량을 줄이고 싶었습니다. 우리는 이를 위해
AudioSet
를 이용한
우리의 이전 작업
을 기반으로 빌드한 온디바이스 신경망 기반 음성 감지기를 구현했습니다. 이 네트워크는 우리가
게시한 VGGish 모델
과 유사한 이미지 같은 모델로, 음성을 감지하고 클라우드 ASR 엔진에 대한 네트워크 연결을 자동으로 관리하여 장시간 사용하는 동안 데이터 사용량을 최소화합니다.
사용자 환경
우리는 Live Transcribe를 최대한 직관적으로 만들기 위해
갤로뎃 대학
과 제휴해 핵심적인 사용자 니즈를 충족시키면서도 기술의 잠재력을 극대화해 줄 사용자 환경 연구 협력 프로젝트에 시동을 걸었습니다. 우리는 여러 가지 다양한 모달리티, 컴퓨터, 태블릿, 스마트폰,
심지어 소형 프로젝터
까지 고려하여 청각 정보와 자막을 표시할 방법을 반복적으로 실험했습니다. 마침내, 우리는 스마트폰 폼 팩터에 초점을 맞추기로 했는데, 이러한 기기 유형의 급속한 보급률 증가와 성능 향상을 고려했기 때문입니다.
이런 방향성을 정한 후, 우리는 자막 신뢰도 표시라는 또 다른 중요한 문제를 다루어야 했습니다. 예전부터 사용자에게 유용한 것으로 간주되어 온 것으로, 우리 연구팀은 단어 수준 신뢰도나 구문 수준 신뢰도를 표시할 필요성이 실제로 있는지 여부를 탐구했습니다.
자막의 신뢰도 수준 표시. 노란색은 높은 신뢰도, 녹색은 보통 신뢰도, 파란색은 낮은 신뢰도를 나타냅니다. 흰색은 신뢰도를 최종 판단하기 전에 맥락이 파악되기를 기다리는 새 텍스트를 나타냅니다. 왼쪽은 구문 수준으로 색이 표시되는 예이고 오른쪽은 단어 수준으로 색이 표시되는 예입니다.
1
연구팀은 이런 신뢰도 수준 표시가 대화에 가치를 더해주기는커녕 오히려 사용자의 주의를 분산시킨다는 사실을 파악했습니다.
이전에
이 공간에서 이루어진 UX 연구
를 보강하는 우리의 연구 결과에 따르면, 자막을 이러한 신호로 레이어링하지 않을 때 가장 쉽게 읽을 수 있는 것으로 밝혀졌습니다. 대신에, Live Transcribe는 텍스트를 더 나은 방식으로 제공하고 음성 이외의 다른 청각 신호로 그 내용을 보완해주는 데 초점을 맞춥니다.
또 다른 유용한 UX 신호는 현재 환경의 소음 레벨입니다.
칵테일 파티 문제
로 알려져 있는 이 문제는, 컴퓨터가 떠들썩한 실내에서 말하는 화자의 말을 이해하는 것이 크나큰 난제라는 점입니다. 우리는 이 문제를 다루기 위해 배경 소음 대비 사용자의
상대적
음량을 시각화하는 표시기를 만들었습니다. 이 표시기는 기기에 장착된 마이크가 화자의 말을 얼마나 잘 수신하고 있는지 사용자에게 즉각적인 피드백을 제공하기도 하므로, 사용자가 스마트폰의 위치를 적절히 조정해 화자의 말을 좀 더 또렷이 수신하도록 할 수 있습니다.
소리 강도 및 소음 표시기는 두 개의 동심원으로 소음 레벨을 표시해 줍니다. 노이즈 플로어를 나타내는 안쪽의 밝은 원은 청각 장애 사용자에게 현재 주변 환경이 얼마나 시끄러운지 알려줍니다. 바깥쪽 원은 화자의 음성이 얼마나 잘 수신되는지 보여줍니다. 두 원이 합쳐져 두 가지 소리의 상대적 차이를 직관적으로 알 수 있게 시각적으로 보여줍니다.
향후 작업
모바일 기반 자동 음성 자막 변환에서 앞으로 개선 여지가 있는 부분으로는
온디바이스 인식
,
화자 분리
,
음성 강화
등이 있습니다. 자막에만 오롯이 의존하다 보면 잘못된 의사소통으로 이어질 위험이 있을 수 있습니다. 우리가 갤로뎃 대학과 함께 진행한 연구 결과, 자막을 다른 청각 신호(예: 음성 감지 및 소리 강도 표시기)와 결합하면 사용자를 위한 커뮤니케이션 옵션에 명백히 유의미한 변화가 있는 것으로 나타났습니다.
Live Transcribe는 현재 Play Store에 단계적으로 출시되고 있고 최신 업데이트를 포함한 모든 Pixel 3 기기에는 사전 설치되어 제공됩니다. 접근성 설정을 통해 Live Transcribe를 사용할 수 있습니다.
The Keyword
에서 이에 대한 자세한 정보를 읽어보실 수도 있습니다.
감사의 말
Live Transcribe는 연구원인 Chet Gnegy, Dimitri Kanevsky, Justin S. Paul이 Android Accessibility 팀원인 Brian Kemler, Thomas Lin, Alex Huang, Jacqueline Huang, Ben Chung, Richard Chang, I-ting Huang, Jessie Lin, Ausmus Chang, Weiwei Wei, Melissa Barnhart, Bingying Xia와의 협업을 통해 만든 제품입니다. 우리와 절친한 갤로뎃 대학의 파트너이신 Christian Vogler, Norman Williams, Paula Tucker에게도 감사의 말씀을 드립니다.
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2024
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed