한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
AutoML로 문서 태깅 구현하기
2019년 9월 4일 수요일
<블로그 원문은
이곳
에서 확인하실 수 있으며 블로그 번역 리뷰는 김택민(MachineLearning GDE)님이 참여해 주셨습니다>
기업에서 송장 처리, 애플리케이션 검토, 계약 분석 등의 작업을 지원하기 위해서는 사진, 문서, 메모 등 여러 유형의 컨텐츠를 디지털화하는 것이 선행되어야 합니다. Google Cloud에서는 고객이 컨텐츠를 디지털화할 수 있는 여러 방법을 제공합니다. 사전에 훈련된 머신러닝 API 를 사용할 수도 있고 AutoML Suite를 기반으로 Document Understanding AI를 적용할 수도 있습니다.
이번 글에서는 문서 처리를 목적으로 하는 Cloud AutoML 기반의 문서 태깅 (Document Tagging)에 대해서 알아보겠습니다. 문서 태깅은 문서에서 의미를 가지는 응답(혹은 값)이나 고객, 계좌 번호, 총액 등과 같은 필드(또는 태그)를 뽑아내어 키-값의 쌍의 형태로 구성하는 것을 의미합니다. 여기서 ‘태그’란 분석하고자 하는 항목이고 ‘값’은 그 태그에 대응하는 실제 결과입니다. 아래 예제를 통해 AutoML을 사용하여 문서 형태의 이미지에서 서명, 도장, 사각형 영역 등 문서 처리에 필요한 주요 정보를 뽑아보겠습니다.
기존의 솔루션
몇 년 전까지만 하더라도 문서를 디지털화한다는 것은 단순히 문서를 스캔하여 클라우드에 이미지 형태로 저장한다는 의미였습니다. 현재는 더 나은 도구와 기법들 특히, 머신러닝 덕분에 서류 뭉치들을 분석 가능한 구조적 데이터로 변환하고 이로부터 유용한 정보를 얻어낼 수 있습니다.
최근까지는 사전에 정의된 문서에 대해서만 정규 표현식이나 OCR 과 같은 규칙 기반 (rule-based)의 알고리즘을 사용하여 문서를 디지털화할 수 있었습니다. 새로운 형식의 문서에 대해서는 적용하기 어려울 수도 있고 키워드 매칭이나 텍스트 기반 NLP 모델에서 문제가 될 수도 있습니다. 물체 인식 (Object Detection) 및 개체 인식 (Entity Recognition)은 지난 몇 년간 많은 주목을 받았으며 이 분야에서 상당한 개선을 이루었습니다. Cloud AutoML이라고 불리는 AI 서비스 집합은 최소한의 머신러닝 지식만 가지고도 고객에게 고품질의 머신러닝 모델을 제공할 수 있습니다.
GCP 솔루션: 대규모의 AutoML
고유한 비즈니스 문제를 해결하는 모델을 만들기 위한 토대로 삼을 수 있는
폭넓고 다양한
AutoML 서비스가 있습니다. 예를 들어, 문서 디지털화의 경우 아래와 같은 구조를 가집니다.
이런 형태의 구조는 쉽게 이해할 수 있을 뿐만 아니라 프로덕션 환경에 배포하기도 쉽습니다. 모든 구성 요소는 확장 가능하고 서버리스 (serverless) 형태이며, 기존 GCP를 기반으로 프러덕션 환경에서 사용 가능합니다.
태깅된 문서
—이미 주석 처리된 데이터가 없으면
AI Platform Data Labeling Service
를 사용할 수 있습니다.
OCR 및 객체 감지
—
Vision API
와 최근에 AutoML 제품군에 추가된
AutoML Vision Object Detection
으로 이 기능을 수행할 수 있습니다.
병합 및 특징 처리
—간단한 Jupyter 노트북이나 Python을 기반으로 컨테이너화된 솔루션을 사용하는 것처럼, 이 기능을 수행할 수 있는 여러 가지 다른 방법이 있습니다.
개체 인식
—최근에 AutoML 제품군에 추가된
AutoML Natural Language
의 새로운 기능인
개체 추출
을 사용하여 수행할 수 있는 기능입니다.
후처리
—특징 처리와 비슷한 방식으로 수행할 수 있는 기능입니다.
전체 파이프라인은 Cloud Composer를 사용하여 구성하거나 Google Kubernetes Engine(
GKE
)을 사용하여 배포할 수 있습니다. 하지만 일부 비즈니스 제약 조건 (예: GCP에 대한 맞춤설정 내부 데이터화 파이프라인 빌드, 법률 문서에서 규칙 추출, 문서에서 민감한 정보를 수정한 후 파싱 등)에서는 위에 언급한 아키텍처 외에 개발할 수 있는 추가 맞춤설정이 필요합니다. 이와 같은 요구 사항에 관한 자세한 내용과 지원은
판매팀
에 문의하실 수 있습니다.
값 생성
서로 다른 머신러닝 솔루션은 저마다의 비즈니스 혹은 기술적인 장점이 있고, 우리 고객 중 상당수가 이와 같은 솔루션을 사용하여 사용자 경험 개선, 운영 비용 절감, 전체 오류 감소 등의 다양한 목적을 달성해왔습니다. 이 글에서 설명하는 솔루션과 같이 의료, 금융 서비스 및 미디어 등 여러 분야에 적용될 수 있습니다. 예를 들어, 다음과 같은 사례들이 있습니다.
EHR (Electronic Health Records)에서 자동으로 지식 추출.
영수증에서 주요 키-값 쌍 생성.
금융 문서에서 필드 가져오기.
고객 불만 사항에 관한 텍스트 이해.
은행 수표, 전표 및 기타 데이터의 태그 지정.
다음 단계
딥러닝의 시대에는 전이 학습 (Transfer Learning)과 같이 훈련 과정을 간소화하는 방법이 점점 요구되고 있습니다. 이 글에서 소개한 문서 태그 지정도 수천 장의 이미지 없이도 문서를 디지털화할 수 있었으며 테스트를 거쳐 성공적으로 실무 환경에 배포되었습니다. 머신러닝 기반의 솔루션에서는 데이터 가변성은 여전히 중요한 요소이지만 AutoML은 자동적으로 기본적인 문제들을 해결해주고 수천 장 정도의 적은 이미지만 사용해서 모델을 훈련할 수 있습니다.
고객이 문서를 처리하도록 돕은 일은 전 세계의 정보를 정리하고 구성하여 누구든 손쉽게 접근하고 이를 유용하게 활용할 수 있도록 하겠다는 Google 사명에 완벽히 부합하는 일입니다. 이 글을 공유함으로써, 우리는 더 많은 조직에서 클라우드로의 전환을 고려하는 계기가 될 수 있으면 좋겠습니다. Cloud AutoML Vision, Cloud AutoML Natural Language, Cloud Storage와 같은 도구는 데이터셋을 구성하고 사용자 환경을 개선하는 데 도움이 될 수 있습니다.
이 글의 예제인 문서 태그 지정은 특정 문제에 대해 간단하고 대상이 정해진 문제입니다. 좀 더 다양하고 강력한 문서 처리 및 정보 추출 기술에 관해서는 Google의
Document Understanding AI
솔루션을 참고해주세요. AutoML은 파터사를 통해 솝쉽게 배포할 수 있고 별도의 머신러닝 지시기 없더라도 End-to-end Document Unerstanding AI 솔루션의 핵심 요소입니다.
당사
웹사이트
에서 더 자세히 알아보실 수 있습니다.
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2024
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed