하지만 음성 응답은 디스플레이에 표시되는 결과와는 무척 다릅니다. 화면에 표시되는 항목을 유용한 음성 정보로 변환해야합니다. 게다가, 음성 응답 내용의 출처가 웹인 경우도 있으며, 이 경우 사용자에게 원본 출처의 링크를 제공하는 것이 중요합니다. 휴대기기를 보고 있는 사용자는 링크를 클릭하여 원본 웹페이지를 볼 수 있지만 아이프리 환경에서는 어떻게 해야할까요? 최적의 오디오 응답을 생성하기 위해 문법에 맞고 유창하며 간결한 응답을 계속 제시할 수 있도록
명시적 언어 지식 및 딥 러닝 솔루션을 조합하여 사용하고 있습니다.
모든 응답 유형 및 언어 품질과 관련한 사용자의 기대 수준을 지속적으로 충족하고 있다는 점을 어떻게 보장할 수 있을까요? 수단 중 하나는 사람에 의한 평가입니다. 이런 평가에서는 평가자에게 응답이 다음과 같은 여러 차원에서 만족스러운지 확인해 줄 것을 요청합니다.
- 정보 만족도: 응답 내용이 사용자가 요구하는 정보 기준을 충족해야 합니다.
- 길이: 표시된 응답이 너무 길 때는 사용자가 응답을 빠르게 눈으로 훑어서 관련된 정보를 찾을 수 있습니다. 하지만 음성 응답에서는 불가능한 일입니다. 따라서 도움이 되면서도 적절한 분량의 정보를 제공하는 것이 훨씬 더 중요합니다. 너무 길거나 너무 짧지 않도록 하는 것이 좋습니다. 이전에 개발한 방식이 몇 가지가 응답에서 가장 관련성이 높은 부분을 식별하는 데 현재 사용되고 있습니다.
- 명확한 어구 표현: 문법이 맞지 않는 음성 응답보다는 형편없이 작성된 서면 응답을 이해하는 게 훨씬 쉽습니다. 따라서 음성 응답에 문법적 오류가 없도록 하는 데 더 많은 주의를 기울여야 합니다.
- 발성: 음성 응답은 발음과 운율이 정확해야 합니다. WaveNet 및 Tacotron 2와 같이 TTS(텍스트 음성 변환) 생성 기술이 향상됨에 따라 사람이 직접 발성할 때와의 격차가 빠르게 좁혀지고 있습니다.
최신 버전의 가이드라인은
여기서 확인할 수 있습니다. 물론, 가이드라인은 자주 업데이트되며 계속 변화하며 발전하고 있는 평가 방식을 간단히 보여주는 것에 불과합니다!