한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
AI 기반 음성 기술의 접근성 향상 - 더 많은 옵션, 더욱 저렴한 가격 및 새로운 언어와 음성 지원합니다
2019년 6월 3일 월요일
<블로그 원문은
이곳
에서 확인하실 수 있습니다>
음성 인식 및 합성 능력은 휴먼-머신 상호작용을 자연스럽고 수월하고 일상적인 모습으로 만드는 데 매우 중요하지만, 아직은 사용 사례가 드뭅니다. 현재 우리는 더 많은 기능, 더 많은 음성(대략 2배 증가), 더 많은 국가에서 더 많은 언어(50% 이상 증가), 그리고 더 낮은 가격(어떤 경우에는 최대 50% 인하)으로 전 세계 기업들에게
Cloud STT(Speech-to-Text)
및
TTS(Text-to-Speech)
제품의 접근성을 더욱 높이기 위해 노력하고 있습니다.
기업을 위한 Cloud STT(Speech-to-Text)의 접근성 향상
지능형 음성 애플리케이션을 만들 때는 음성 인식 정확도가 결정적으로 중요한 요소입니다. 90%의 정확도에서도 유용한 대화를 하기는 어렵습니다. 안타깝게도 많은 회사가 전화선을 통해 실행해야 하는 데다 불필요한 요소가 많이 섞인 결과를 생성하는 음성 애플리케이션을 빌드하는데, 여기서 얻은 데이터는 AI 기반 음성 기술로 해석하기 어렵다는 사실이 이미 과거 기록으로 드러났습니다.
일부 데이터에 노이즈가 있는 이런 상황을 위해 우리는 작년에
동영상과 향상된 전화를 위한 베타 버전의 프리미엄 모델
을 발표했는데, 모델 정확도를 더욱 높이는 데 도움을 주고자 데이터 로그 기록을 통해 사용 데이터를 공유하기로 선택한 고객들과 함께 개발한 모델입니다. 그 결과로 성능이 향상된 전화 모델에서 이제는 받아쓰기 오류가 62% 감소했고(작년의 54%에서 개선됨), YouTube가
자동 캡션 처리
를 위해 사용하는 것과 유사한 기술을 기반으로 하는
동영상 모델
은 오류가 64% 감소했다는 사실을 오늘 이렇게 알려드리게 되어 기쁩니다. 그 밖에도, 동영상 모델은 회의 또는 팟캐스트처럼 화자가 여러 명인 상황에서도 훌륭하게 작동합니다.
향상된 전화 모델
은 처음에는
작년에 발표한
옵트인 데이터 로그 기록 프로그램에 참여한 고객만 사용할 수 있었습니다. 하지만 많은 대기업이 데이터 로그 기록을 옵트인하지 않고 향상된 모델을 사용하기 위한 옵션을 요구해오고 있습니다. 오늘부터는 누구든 향상된 전화 모델에 액세스할 수 있고 데이터 로그 기록 옵션을 선택하는 고객은 더 낮은 가격으로 이용할 수 있으므로, 더 많은 사용자가 향상된 정확도의 혜택을 누릴 수 있게 되었습니다.
두 프리미엄 모델의 정식 출시 외에, 우리는 Cloud Speech-to-Text API가 여러 오디오 채널(예: 여러 사람이 대화하는 상황)을 구분하는 데 도움을 주어 통화 분석이나 회의 분석, 여러 참가자가 관련된 다른 사용 사례의 분석 수행에 매우 유용한
다중 채널 인식
의 정식 출시도 발표할 예정입니다. 정식 출시와 함께 이 모든 기능들이 이제 SLA와 다른 엔터프라이즈급 보장을 받을 자격을 갖출 수 있게 되었습니다.
LogMeIn의 Cloud Speech-to-Text
LogMeIn
은 정확도와 엔터프라이즈 스케일의 두 가지를 모두 요구하는 고객의 사례로 들 수 있는 회사입니다. 전 세계 수많은 회사에서 수백만의 직원이 매일같이 LogMeIn의 GoToMeeting 제품을 사용해 온라인 회의에 참석합니다. LogMeIn은 Cloud Speech-to-Text를 사용하여 엔터프라이즈 GoToMeeting 고객의 대화 내용을 자동으로 작성해 주므로, 사용자들이 더욱 효과적으로 협업할 수 있습니다.
“LogMeIn은 Google Cloud와의 협업과 시장을 주도하는 Google Cloud의 동영상 및 실시간 Speech-to-Text 기술에 계속 감탄하고 있습니다. 우리는 최상의 Speech-to-Text 동영상 파트너에 대한 광범위한 시장 조사를 마친 후 Google이 최고의 자질을 갖추고 있고 유용한 관련 기술을 다양하게 구비하고 있다는 사실을 알았습니다. 우리는 고객들로부터 이러한 기능들이 회의 중 대화 내용을 포착해 회의 후에 사용 및 공유 가능한 자료로 만들어 주므로 상당히 유용한 기능이라는 얘기를 지속적으로 듣고 있습니다. 우리와 Google Cloud의 협력은 지능적 협업을 우리 제품의 기반으로 삼아서 궁극적으로 전 세계 UCC 고객을 위한 더 많은 가치를 추가하겠다는 우리의 약속을 확인해 주는 것입니다.”
- Mark Strassman, LogMeIn UCC(Unified Communications and Collaboration) SVP 겸 총괄 매니저.
가격을 더욱 낮춰(최대 50% 인하) Cloud Speech-to-Text의 접근성 향상
Cloud Speech-to-Text의 접근성을 더욱 높이기 위한 우리의 또 다른 방안이 바로 가격 인하입니다. 지금부터 다음과 같은 가격 정책을 시행합니다.
표준 모델과 프리미엄 동영상 모델의 경우, 데이터 로그 기록 프로그램에 옵트인하는 고객은 이제부터 이 프로그램을 통해 이루어지는 모든 서비스 이용에 대해 33% 할인된 요금 적용을 받으시게 됩니다.
우리는 이미 프리미엄 동영상 모델 가격을 25% 인하한 바 있으므로, 현재 동영상 모델 고객이 데이터 로그 기록에 옵트인하면 총 50%를 절감하는 혜택을 누리게 됩니다.
더 많은 국가에서 Cloud Text-to-Speech의 접근성 향상
또한 우리가 음성 합성 분야에서 일군 연구 성과와 경험이 고객 기업에 도움이 되고 있다는 점이 무척 뿌듯합니다.
Google Cloud TPU
로 구동되는
WaveNet
기술에 고유한 방식으로 액세스하는 덕분에, 우리는 업계의 통상적인 수준보다 빠르고 수월하게 새로운 음성과 언어를 빌드할 수 있습니다. 우리는 작년 8월에
업데이트
한 이후로 Cloud Text-to-Speech에서 극적인 발전을 이루었는데, 전체 음성, WaveNet 음성, WaveNet 언어의 수가 대략 2배로 늘었고 지원되는 언어의 수도 전체적으로 50%까지 늘었으며 다음과 같은 언어가 포함됩니다.
덴마크어, 포르투갈어, 러시아어, 폴란드어, 슬로바키아어, 우크라이나어, 노르웨이어(복말)를 포함한 7가지 새로운 언어 또는 언어 변형을 지원합니다(전부 베타 버전임). 이 업데이트로 지원 언어 목록이 21개 언어로 확장되며 수백만의 신규 최종 사용자를 위한 애플리케이션을 지원할 수 있습니다.
이들 신규 언어에 대해 31가지의 새로운
WaveNet
음성(24가지의 새로운 표준 음성도 지원). 이로 인해 전 세계적으로 더 많은 기업이
평균 평점
을 기반으로 하고 사람의 음성과의 품질 격차를 이미 70%나 해소한 우리의 음성 합성 기술을 이용할 수 있게 되었습니다.
여기
에서 전체 언어 및 음성 목록을 확인하실 수 있습니다.
불과 1년 전에 Cloud Text-to-Speech를 발표했을 때는 WaveNet 음성으로 1개 언어만 지원했는데, 작년 8월에 9개로 늘어난 데 이어, 이제는 20개의 언어와 언어 변형을 지원하며 국제적으로 폭넓은 확장세를 보이고 있습니다.
그 밖에도, 다양한 유형의 하드웨어에서 오디오 재생을 최적화하는 Cloud Text-to-Speech
Device Profiles
기능이 정식 출시됩니다. 예를 들어 콜 센터 애플리케이션을 보유한 일부 고객은 대화식 음성 응답(IVR)을 최적화하는 반면, 콘텐츠와 미디어(예: 팟캐스트)에 주력하는 다른 고객은 헤드폰에 맞게 최적화합니다. 모든 경우에 오디오 효과는 하드웨어에 맞춤설정됩니다.
지금 시작하세요
Cloud Speech 제품은 쉽게 시험 사용해보실 수 있습니다.
Cloud Speech-to-Text
및
Cloud Text-to-Speech
방문 페이지에서 간단한 데모를 확인해 보세요. 마음에 드실 경우 300달러의 GCP 크레딧을 사용해 테스트를 시작하실 수 있습니다. 늘 그렇듯이, 매달 Cloud Speech-to-Text로 처리하는 오디오 중 최초 60분 분량에 대해서는 무료로 서비스를 제공해 드립니다.
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2024
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed