Google for Developers Korea Blog: AI 기반 음성 기술의 접근성 향상 - 더 많은 옵션, 더욱 저렴한 가격 및 새로운 언어와 음성 지원합니다

Google for Developers Korea Blog

한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.

AI 기반 음성 기술의 접근성 향상 - 더 많은 옵션, 더욱 저렴한 가격 및 새로운 언어와 음성 지원합니다

2019년 6월 3일 월요일

.post-body span { white-space: normal !important; } <블로그 원문은 이곳에서 확인하실 수 있습니다> 음성 인식 및 합성 능력은 휴먼-머신 상호작용을 자연스럽고 수월하고 일상적인 모습으로 만드는 데 매우 중요하지만, 아직은 사용 사례가 드뭅니다. 현재 우리는 더 많은 기능, 더 많은 음성(대략 2배 증가), 더 많은 국가에서 더 많은 언어(50% 이상 증가), 그리고 더 낮은 가격(어떤 경우에는 최대 50% 인하)으로 전 세계 기업들에게 Cloud STT(Speech-to-Text) 및 TTS(Text-to-Speech) 제품의 접근성을 더욱 높이기 위해 노력하고 있습니다. 기업을 위한 Cloud STT(Speech-to-Text)의 접근성 향상 지능형 음성 애플리케이션을 만들 때는 음성 인식 정확도가 결정적으로 중요한 요소입니다. 90%의 정확도에서도 유용한 대화를 하기는 어렵습니다. 안타깝게도 많은 회사가 전화선을 통해 실행해야 하는 데다 불필요한 요소가 많이 섞인 결과를 생성하는 음성 애플리케이션을 빌드하는데, 여기서 얻은 데이터는 AI 기반 음성 기술로 해석하기 어렵다는 사실이 이미 과거 기록으로 드러났습니다.
1.Accuracy rates are for illustration purposes only.gif

1.Accuracy rates are for illustration purposes only.gif

일부 데이터에 노이즈가 있는 이런 상황을 위해 우리는 작년에 동영상과 향상된 전화를 위한 베타 버전의 프리미엄 모델을 발표했는데, 모델 정확도를 더욱 높이는 데 도움을 주고자 데이터 로그 기록을 통해 사용 데이터를 공유하기로 선택한 고객들과 함께 개발한 모델입니다. 그 결과로 성능이 향상된 전화 모델에서 이제는 받아쓰기 오류가 62% 감소했고(작년의 54%에서 개선됨), YouTube가 자동 캡션 처리를 위해 사용하는 것과 유사한 기술을 기반으로 하는 동영상 모델은 오류가 64% 감소했다는 사실을 오늘 이렇게 알려드리게 되어 기쁩니다. 그 밖에도, 동영상 모델은 회의 또는 팟캐스트처럼 화자가 여러 명인 상황에서도 훌륭하게 작동합니다.
2. transcription quality.png

2. transcription quality.png

향상된 전화 모델은 처음에는 작년에 발표한 옵트인 데이터 로그 기록 프로그램에 참여한 고객만 사용할 수 있었습니다. 하지만 많은 대기업이 데이터 로그 기록을 옵트인하지 않고 향상된 모델을 사용하기 위한 옵션을 요구해오고 있습니다. 오늘부터는 누구든 향상된 전화 모델에 액세스할 수 있고 데이터 로그 기록 옵션을 선택하는 고객은 더 낮은 가격으로 이용할 수 있으므로, 더 많은 사용자가 향상된 정확도의 혜택을 누릴 수 있게 되었습니다. 두 프리미엄 모델의 정식 출시 외에, 우리는 Cloud Speech-to-Text API가 여러 오디오 채널(예: 여러 사람이 대화하는 상황)을 구분하는 데 도움을 주어 통화 분석이나 회의 분석, 여러 참가자가 관련된 다른 사용 사례의 분석 수행에 매우 유용한 다중 채널 인식의 정식 출시도 발표할 예정입니다. 정식 출시와 함께 이 모든 기능들이 이제 SLA와 다른 엔터프라이즈급 보장을 받을 자격을 갖출 수 있게 되었습니다.
LogMeIn의 Cloud Speech-to-Text LogMeIn은 정확도와 엔터프라이즈 스케일의 두 가지를 모두 요구하는 고객의 사례로 들 수 있는 회사입니다. 전 세계 수많은 회사에서 수백만의 직원이 매일같이 LogMeIn의 GoToMeeting 제품을 사용해 온라인 회의에 참석합니다. LogMeIn은 Cloud Speech-to-Text를 사용하여 엔터프라이즈 GoToMeeting 고객의 대화 내용을 자동으로 작성해 주므로, 사용자들이 더욱 효과적으로 협업할 수 있습니다. “LogMeIn은 Google Cloud와의 협업과 시장을 주도하는 Google Cloud의 동영상 및 실시간 Speech-to-Text 기술에 계속 감탄하고 있습니다. 우리는 최상의 Speech-to-Text 동영상 파트너에 대한 광범위한 시장 조사를 마친 후 Google이 최고의 자질을 갖추고 있고 유용한 관련 기술을 다양하게 구비하고 있다는 사실을 알았습니다. 우리는 고객들로부터 이러한 기능들이 회의 중 대화 내용을 포착해 회의 후에 사용 및 공유 가능한 자료로 만들어 주므로 상당히 유용한 기능이라는 얘기를 지속적으로 듣고 있습니다. 우리와 Google Cloud의 협력은 지능적 협업을 우리 제품의 기반으로 삼아서 궁극적으로 전 세계 UCC 고객을 위한 더 많은 가치를 추가하겠다는 우리의 약속을 확인해 주는 것입니다.” - Mark Strassman, LogMeIn UCC(Unified Communications and Collaboration) SVP 겸 총괄 매니저. 가격을 더욱 낮춰(최대 50% 인하) Cloud Speech-to-Text의 접근성 향상 Cloud Speech-to-Text의 접근성을 더욱 높이기 위한 우리의 또 다른 방안이 바로 가격 인하입니다. 지금부터 다음과 같은 가격 정책을 시행합니다.

표준 모델과 프리미엄 동영상 모델의 경우, 데이터 로그 기록 프로그램에 옵트인하는 고객은 이제부터 이 프로그램을 통해 이루어지는 모든 서비스 이용에 대해 33% 할인된 요금 적용을 받으시게 됩니다.

우리는 이미 프리미엄 동영상 모델 가격을 25% 인하한 바 있으므로, 현재 동영상 모델 고객이 데이터 로그 기록에 옵트인하면 총 50%를 절감하는 혜택을 누리게 됩니다.

3. pricing model.png

더 많은 국가에서 Cloud Text-to-Speech의 접근성 향상 또한 우리가 음성 합성 분야에서 일군 연구 성과와 경험이 고객 기업에 도움이 되고 있다는 점이 무척 뿌듯합니다. Google Cloud TPU로 구동되는 WaveNet 기술에 고유한 방식으로 액세스하는 덕분에, 우리는 업계의 통상적인 수준보다 빠르고 수월하게 새로운 음성과 언어를 빌드할 수 있습니다. 우리는 작년 8월에 업데이트한 이후로 Cloud Text-to-Speech에서 극적인 발전을 이루었는데, 전체 음성, WaveNet 음성, WaveNet 언어의 수가 대략 2배로 늘었고 지원되는 언어의 수도 전체적으로 50%까지 늘었으며 다음과 같은 언어가 포함됩니다.

덴마크어, 포르투갈어, 러시아어, 폴란드어, 슬로바키아어, 우크라이나어, 노르웨이어(복말)를 포함한 7가지 새로운 언어 또는 언어 변형을 지원합니다(전부 베타 버전임). 이 업데이트로 지원 언어 목록이 21개 언어로 확장되며 수백만의 신규 최종 사용자를 위한 애플리케이션을 지원할 수 있습니다.

이들 신규 언어에 대해 31가지의 새로운 WaveNet 음성(24가지의 새로운 표준 음성도 지원). 이로 인해 전 세계적으로 더 많은 기업이 평균 평점을 기반으로 하고 사람의 음성과의 품질 격차를 이미 70%나 해소한 우리의 음성 합성 기술을 이용할 수 있게 되었습니다. 여기에서 전체 언어 및 음성 목록을 확인하실 수 있습니다.

불과 1년 전에 Cloud Text-to-Speech를 발표했을 때는 WaveNet 음성으로 1개 언어만 지원했는데, 작년 8월에 9개로 늘어난 데 이어, 이제는 20개의 언어와 언어 변형을 지원하며 국제적으로 폭넓은 확장세를 보이고 있습니다.

4. cloud text-to-speech.png

그 밖에도, 다양한 유형의 하드웨어에서 오디오 재생을 최적화하는 Cloud Text-to-Speech Device Profiles 기능이 정식 출시됩니다. 예를 들어 콜 센터 애플리케이션을 보유한 일부 고객은 대화식 음성 응답(IVR)을 최적화하는 반면, 콘텐츠와 미디어(예: 팟캐스트)에 주력하는 다른 고객은 헤드폰에 맞게 최적화합니다. 모든 경우에 오디오 효과는 하드웨어에 맞춤설정됩니다. 지금 시작하세요 Cloud Speech 제품은 쉽게 시험 사용해보실 수 있습니다. Cloud Speech-to-Text 및 Cloud Text-to-Speech 방문 페이지에서 간단한 데모를 확인해 보세요. 마음에 드실 경우 300달러의 GCP 크레딧을 사용해 테스트를 시작하실 수 있습니다. 늘 그렇듯이, 매달 Cloud Speech-to-Text로 처리하는 오디오 중 최초 60분 분량에 대해서는 무료로 서비스를 제공해 드립니다.

Contents

ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase

검색

Tag

Archive

2026
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2025
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2024
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2023
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2022
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2021
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2020
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2019
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2018
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2017
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2016
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2015
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2014
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2013
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2012
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 3월
- 2월
- 1월

2011
- 12월
- 11월

Feed

Google
Privacy
Terms