Google for Developers Korea Blog: TensorFlow Hub와 Estimator로 텍스트 분류 모델 빌드하기

TensorFlow Hub와 Estimator로 텍스트 분류 모델 빌드하기

2019년 3월 28일 목요일

.post-body span { white-space: normal !important; } 게시자: Sara Robinson, 디벨로퍼 어드보케

우리는 종종 컴퓨터 비전 모델에 전이 학습이 적용되는 것을 보지만, 텍스트 분류에 전이 학습을 사용하는 건 어떨까요? TF 모델 향상을 위한 라이브러리인 TensorFlow Hub로 들어가 전이 학습을 사용해 TF 모델을 강화해 봅시다. 전이 학습은 수많은 데이터에 대해 이미 훈련된 기존 모델의 가중치와 변수를 선택하여 자체 데이터와 예측 작업에 이를 활용하는 과정입니다. 전이 학습의 많은 이점 중 하나는 처음부터 시작할 경우만큼이나 많은 자체 훈련 데이터를 제공할 필요가 없다는 점입니다. 하지만 이런 기존 모델은 어디서 오는 것일까요? 바로 이 지점에서 TensorFlow Hub를 유용하게 활용할 수 있습니다. 이미지, 텍스트 등 다양한 유형의 모델에 대해 기존 모델 검사점의 전체 저장소를 제공하기 때문입니다. 이 글에서는 TensorFlow Hub 텍스트 모듈을 사용하여 어떤 영화에 대한 설명으로부터 그 영화의 장르를 예측하는 모델을 빌드하는 과정을 안내하겠습니다. Colab을 사용하여 제로 설정 상태의 브라우저에서 이 모델을 실행할 수 있습니다. 데이터 가져오기와 전처리 이 모델에서는 멋지고 훌륭한 공개 도메인인 Kaggle의 영화 데이터세트를 사용하겠습니다. 이 도메인에는 무려 45,000여 편의 영화에 관한 방대한 데이터가 있습니다. 영화마다 많은 데이터가 있지만 모델 단순화를 위해 이 데이터세트에 있는 영화 설명(“개요”라고 부름)과 장르만 사용하겠습니다. 다음은 Kaggle에서 데이터세트를 미리보기로 확인하는 모습입니다.

먼저 이 모델을 빌드하는 데 사용할 라이브러리를 가져오겠습니다.

# See : https://medium.com/media/97d3727da2a20f72c32cacac5c92a7e4/href

import numpy as np
import pandas as pd

import tensorflow as tf
import tensorflow_hub as hub

from sklearn.preprocessing import MultiLabelBinarizer

공개 Cloud Storage 버킷에서 구할 수 있는 이 데이터세트에서 CSV 파일을 만들었습니다. 다음 명령어를 실행하여 Colab 인스턴스로 데이터를 다운로드하고 Pandas 데이터프레임으로 읽을 수 있습니다.

# See : https://medium.com/media/8883aaba5a568e7d8780225c18bef024/href

!wget 'https://storage.googleapis.com/movies_data/movies_metadata.csv'
data = pd.read_csv('movies_metadata.csv')

descriptions = data['overview']
genres = data['genres']

단순화를 위해 가능한 장르를 다음과 같은 장르로 제한하겠습니다.

# See : https://medium.com/media/1aeec70771ffccac98585c5e98dc0688/href

top_genres = ['Comedy', 'Thriller', 'Romance', 'Action', 'Horror', 'Crime', 'Documentary', 'Adventure', 'Science Fiction']

데이터세트를 장르에 설명이 비어 있지 않은 영화로 제한하겠습니다. 그런 다음, 데이터를 80% 대 20% 비율로 훈련 세트와 테스트 세트로 나눌 수 있습니다.

# See : https://medium.com/media/6e14ba2cef44f6931398cf2f28a4c495/href

train_size = int(len(descriptions) * .8)

train_descriptions = descriptions[:train_size]
train_genres = genres[:train_size]

test_descriptions = descriptions[train_size:]
test_genres = genres[train_size:]

TF Hub로 임베딩 계층 빌드 TF Hub로 임베딩을 만드는 데 사용하는 코드의 양은 놀라울 정도로 적습니다. 우리가 만드는 모델에는 한 가지 특징(설명)만 있을 것이며 임베딩 열로 표시될 것입니다. 텍스트 임베딩은 벡터 공간에 텍스트를 표시할 방법을 제공하므로, 임베딩 공간에는 유사한 단어나 문장이 서로 더 가까운 곳에 있게 됩니다(이 주제에 대해서는 여기에서 자세한 내용을 읽을 수 있음). 완전히 자체 데이터만 사용해 텍스트 임베딩 벡터를 처음부터 빌드할 수 있습니다. TF Hub는 다양한 텍스트 데이터에 대해 이미 훈련된 텍스트 임베딩을 제공하여 이 과정을 단순화합니다. 영어 텍스트의 경우 TF Hub는 다음과 같이 다양한 종류의 텍스트 데이터에서 훈련된 다양한 임베딩을 제공합니다.

범용 문장 인코더: 긴 형식의 텍스트 입력용

ELMo: 1B Word Benchmark에서 훈련된 딥 임베딩

신경망 언어 모델 임베딩: Google 뉴스에서 훈련됨

Word2vec: Wikipedia에서 훈련됨

여기서 선택하는 사전 훈련된 텍스트 임베딩이 모델에서 하이퍼 매개변수가 되므로, 다양한 임베딩으로 실험하면서 어떤 임베딩이 가장 높은 정확도를 발휘하는지 확인하는 것이 최선입니다. 자체 데이터에 가장 가까운 텍스트에서 훈련된 모델로 시작하세요. 필자가 실험해본 결과, 영화 설명은 긴 입력 데이터이므로 범용 문장 인코더 임베딩을 사용했을 때 정확도가 가장 높았습니다. 이 인코더는 영화에 대한 설명을 높은 차원의 텍스트 벡터로 인코딩합니다. 이 특정 모델은 규모가 꽤 커서 1GB의 용량을 차지합니다. 다음과 같이 hub.text_embedding_column을 사용하여 한 줄의 코드로 이 계층에 대한 특징 열을 만들어 계층 이름(“movie_descriptions”)과 우리가 사용할 TF Hub 모델의 URL을 전달할 수 있습니다.

# See : https://medium.com/media/83f9a1bdb20f28c576f27a5947e0f151/href

description_embeddings = hub.text_embedding_column(
  "movie_descriptions", 
  module_spec="https://tfhub.dev/google/universal-sentence-encoder/2"
)

이 셀을 실행하면 사전 훈련된 임베딩을 다운로드하게 되므로 시간이 다소 걸릴 수 있습니다. 이 방법의 가장 좋은 점은 텍스트 설명을 사전 훈련된 단어 임베딩으로 피드하기 위해 전처리 작업을 수행할 필요가 전혀 없다는 점입니다. 이 모델을 처음부터 새로 빌드한다면 우리 스스로 설명을 벡터로 변환해야 했겠지만, TF Hub 열을 사용하면 설명 문자열을 모델로 직접 전달할 수 있습니다. 레이블을 멀티 핫 인코딩으로 전환 한 영화에 여러 장르가 섞여 있는 경우가 종종 있으므로 우리가 만드는 모델은 각 영화에 대해 가능한 레이블을 여러 개 반환하게끔 하겠습니다. 장르는 현재 각 영화에 대한 문자열 목록입니다(예: [‘Action’, ‘Adventure’]). 각 레이블의 길이가 같아야 하므로 이들 목록을 특정 설명에 존재하는 장르에 해당하는 1과 0으로 이루어진 멀티 핫 벡터로 변환하겠습니다. Action 및 Adventure 영화에 대한 멀티 핫 벡터는 다음과 같은 형태일 것입니다.

# See : https://medium.com/media/eec3cb4490796fe96bc0d60cee441fd3/href

# Genre lookup, each genre corresponds to an index
top_genres = ['Comedy', 'Thriller', 'Romance', 'Action', 'Horror', 'Crime', 'Documentary', 'Adventure', 'Science Fiction']

# Multi-hot label for an action and adventure movie
[0 0 0 1 0 0 0 1 0]

단 몇 줄의 코드로 문자열 레이블을 멀티 핫 벡터로 변환하기 위해 다음과 같이 MultiLabelBinarizer라는 scikit 학습 유틸리티를 사용하겠습니다.

# See : https://medium.com/media/5a1bb0c1a4933ec65c07a37411dabd7b/href

encoder = MultiLabelBinarizer()
encoder.fit_transform(train_genres)
train_encoded = encoder.transform(train_genres)
test_encoded = encoder.transform(test_genres)
num_classes = len(encoder.classes_)

encoder.classes_를 인쇄하여 모델이 예측하는 모든 문자열 클래스 목록을 볼 수 있습니다. DNNEstimator 모델 빌드와 훈련 우리의 모델에서는 DNNEstimator를 사용하여 멀티 핫 벡터를 반환하는 딥 신경망을 빌드하겠습니다. 영화마다 가능한 레이블 수가 0개 또는 그 이상일 수 있기 때문입니다. 이 점은 각각의 입력에 정확히 한 개씩의 레이블이 있는 모델과는 다릅니다. DNNEstimator로 전달하는 첫 번째 매개변수를 헤드라고 하며, 헤드는 모델이 예상해야 할 레이블의 유형을 정의합니다. 모델에서 여러 개의 레이블을 출력하기를 원하므로 여기서는 다음과 같이 multi_label_head를 사용하겠습니다.

# See : https://medium.com/media/ffc095999d9031dae32f474ee7d1872d/href

multi_label_head = tf.contrib.estimator.multi_label_head(
    num_classes,
    loss_reduction=tf.losses.Reduction.SUM_OVER_BATCH_SIZE
)

이제 DNNEstimator를 인스턴스화할 때 이것을 전달할 수 있습니다. hidden_units 매개변수는 네트워크에 있게 될 계층의 수를 나타냅니다. 이 모델에는 2개의 계층이 있는데, 첫 번째와 두 번째 계층에 각각 64개와 10개의 뉴런이 있습니다. 계층의 개수와 계층 크기는 하이퍼 매개변수이므로 다양한 값을 사용해보면서 어떤 값이 해당 데이터세트에 가장 적합한지 살펴봐야 합니다. 마지막으로, 특징 열을 Estimator로 전달합니다. 이 경우에는 특징 열이 하나만 있으며(설명 열), 위에서 이미 이 열을 TF Hub 임베딩 열로 정의했으므로 여기서는 목록으로 전달할 수 있습니다.

# See : https://medium.com/media/9f28242b0d6c8f181b18ebdd01ca5ddc/href

estimator = tf.contrib.estimator.DNNEstimator(
    head=multi_label_head,
    hidden_units=[64,10],
    feature_columns=[description_embeddings]
)

이제 모델을 훈련할 준비가 거의 끝났습니다. Estimator 인스턴스를 훈련하려면 먼저 훈련 입력 함수를 정의해야 합니다. 입력 함수는 데이터를 모델에 연결해 줍니다. 여기서는 numpy_input_fn을 사용하고 데이터를 numpy 배열로 모델에 공급하겠습니다.

 # See : https://medium.com/media/7bb7749e029a7f9eaadfe2e9cb524151/href


# Format our data for the numpy_input_fn
features = {
  "descriptions": np.array(train_descriptions)
}
labels = np.array(train_encoded)

train_input_fn = tf.estimator.inputs.numpy_input_fn(
    features, 
    labels, 
    shuffle=True, 
    batch_size=32, 
    num_epochs=20
)

입력 함수의 batch_size 및 num_epochs 매개변수는 둘 다 하이퍼 매개변수입니다. batch_size는 1회 반복 중에 몇 개의 예를 모델로 전달할지 모델에 알려주고 num_epochs는 모델이 전체 교육 세트를 거치게 되는 횟수입니다. 이제 드디어 모델을 훈련할 차례입니다. 다음 한 줄의 코드로 이 작업을 수행할 수 있습니다.

 # See : https://medium.com/media/62e6792db3617a345627f3e78b1e29b1/href

estimator.train(input_fn=train_input_fn)

다음과 같이 모델의 정확도를 평가하기 위해 테스트 데이터로 eval input_function을 만들고 estimator.evaluate()를 호출합니다.

 # See : https://medium.com/media/3dde4159984bbef42446021035801138/href

eval_input_fn = tf.estimator.inputs.numpy_input_fn({"descriptions": np.array(test_descriptions).astype(np.str)}, test_encoded.astype(np.int32), shuffle=False)

estimator.evaluate(input_fn=eval_input_fn)

이 모델이 달성한 결과는 91.5% AUC, 74% 정밀도/재현이었습니다. 물론, 독자는 각자 약간씩 다른 결과를 얻을 수도 있습니다. 훈련한 모델에서 예측 생성 이제 오늘 실습 중 최고의 순간을 만끽할 차례입니다. 모델이 전에 한 번도 본 적 없는 데이터에 대한 예측 결과를 생성하는 단계입니다. 먼저 몇 가지 설명으로 구성된 배열을 준비합시다. 아래 내용은 필자가 IMDB에서 찾아서 가져온 것입니다.

# See : https://medium.com/media/500321f5f6a849e2a155cfbe6fcfda80/href

raw_test = [
    "An examination of our dietary choices and the food we put in our bodies. Based on Jonathan Safran Foer's memoir.", # Documentary
    "A teenager tries to survive the last week of her disastrous eighth-grade year before leaving to start high school.", # Comedy
    "Ethan Hunt and his IMF team, along with some familiar allies, race against time after a mission gone wrong." # Action, Adventure
]

이제 예측 입력 함수를 정의하고 predict()를 호출합니다.

 # See : https://medium.com/media/5368313e3e0d7016ed08ba986ee13975/href

predict_input_fn = tf.estimator.inputs.numpy_input_fn({"descriptions": np.array(raw_test).astype(np.str)}, shuffle=False)

results = estimator.predict(predict_input_fn)

마지막으로, 결과를 반복하고 신뢰값과 함께 각 영화에 대해 찾아낸 가장 관련성 높은 2가지 장르를 표시할 수 있습니다.

# See : https://medium.com/media/8c54a017ecdaca6aad0fc034d32dd575/href

for movie_genres in results:
  top_2 = movie_genres['probabilities'].argsort()[-2:][::-1]
  for genre in top_2:
    text_genre = encoder.classes_[genre]
    print(text_genre + ': ' + str(round(movie_genres['probabilities'][genre] * 100, 2)) + '%')

우리의 모델은 위의 모든 영화 설명에 올바르게 태그를 지정할 수 있습니다. 시작하기 TF Hub로 스스로 고유한 모델을 빌드해보고 싶으세요? 문서와 가이드를 확인해 보세요. 여기서 개괄적으로 설명한 모델의 전체 코드는 GitHub나 Colab에서 찾을 수 있습니다. 다음에 게시할 글에서는 TensorFlow Serving이나 Cloud ML Engine에 사용할 수 있도록 이 모델을 내보내는 방법과 새로운 설명을 기반으로 한 예측을 생성하는 앱을 빌드하는 방법을 다루겠습니다. 의문점이나 피드백 사항이 있으시면 Twitter @SRobTweets로 알려주시기 바랍니다.