Google for Developers Korea Blog: TensorFlow Serving 및 Docker로 신속히 ML 서비스를 제공합니다

TensorFlow Serving 및 Docker로 신속히 ML 서비스를 제공합니다

2019년 6월 21일 금요일

.post-body span { white-space: normal !important; } 게시자: Gautam Vasudevan(기술 프로그램 관리자), Abhijit Karmarkar(소프트웨어 엔지니어) - Google Brain 팀
머신러닝 모델을 빠르고 용이하게 제공하는 것은 실험 단계에서 프로덕션 단계로 이동할 때의 주요 난제 중 하나입니다. 머신러닝 모델 제공은 훈련된 모델을 선택하고 이 모델이 예측 요청에 적절히 응하도록 만드는 과정입니다. 프로덕션에서 서비스 제공 시, 환경이 재현 가능하고 격리를 강제 적용하며 안전하도록 하고 싶을 것입니다. 이를 위해, 머신러닝 모델을 제공하는 가장 쉬운 방법 중 하나는 Docker와 함께 TensorFlow Serving을 사용하는 방법입니다. Docker는 소프트웨어 실행에 필요한 모든 것을 포함한, 컨테이너라는 단위로 소프트웨어를 패키징하는 도구입니다.

Docker 컨테이너에서 실행되는 TensorFlow Serving
TensorFlow Serving 1.8 출시 이후로 우리는 Docker를 위한 지원을 개선해오고 있습니다. 우리는 현재 CPU 및 GPU 모델을 모두 제공하고 개발하기 위한 Docker 이미지를 제공하고 있습니다. TensorFlow Serving을 사용하여 모델을 배포하는 것이 얼마나 쉬운 일인지 감을 잡을 수 있도록, ResNet 모델을 프로덕션 단계로 진행해 봅시다. 이 모델은 ImageNet 데이터세트에서 훈련되고 JPEG 이미지를 입력으로 받아 이미지의 분류 범주를 반환합니다. 여기서 드는 예시에서는 Linux를 실행 중이라고 가정하지만, macOS나 Windows에서도 수정 사항이 거의 또는 전혀 없이 작동해야 합니다. TensorFlow Serving과 Docker를 사용하여 ResNet 제공 첫 번째 단계는 Docker CE를 설치하는 단계입니다. 이 단계를 통해 Docker 컨테이너를 실행하고 관리하는 데 필요한 모든 도구가 제공됩니다. TensorFlow Serving은 ML 모델에 대해 SavedModel 형식을 사용합니다. SavedModel은 더 높은 레벨의 시스템과 도구가 TensorFlow 모델을 생산, 소비, 변환할 수 있게 해주는, 언어 중립적이고 복구 가능한 밀폐형 직렬화 형식입니다. (Keras에서 제공하는 것을 포함한) SavedModel을 내보내는 방법은 여러 가지가 있습니다. 이 연습을 위해 우리는 다음과 같이 단순히 미리 훈련된 ResNet SavedModel을 다운로드할 것입니다.

$ mkdir /tmp/resnet $ curl -s https://storage.googleapis.com/download.tensorflow.org/models/official/20181001_resnet/savedmodels/resnet_v2_fp32_savedmodel_NHWC_jpg.tar.gz | tar --strip-components=2 -C /tmp/resnet -xvz /tmp/resnet 내에 우리가 사용할 모델이 있는 폴더가 있어야 합니다. 다음을 실행하면 이를 확인할 수 있습니다. $ ls /tmp/resnet 1538687457

이제 우리가 사용할 모델이 있으므로 환경 이미지를 제공할 목적으로 최근에 출시된 TensorFlow Serving을 끌어와서 모델을 가리키도록 하기만 하면 손쉽게 모델에 Docker를 제공할 수 있습니다.

$ docker pull tensorflow/serving $ docker run -p 8501:8501--name tfserving_resnet \ --mount type=bind,source=/tmp/resnet,target=/models/resnet \ -e MODEL_NAME=resnet -t tensorflow/serving & … … main.cc:327] Running ModelServer at 0.0.0.0:8500… … main.cc:337] Exporting HTTP/REST API at:localhost:8501 …

명령줄 인수를 분석해 보겠습니다.

-p 8501:8501: 컨테이너의 포트 8501(여기서 TF Serving은 REST API 요청에 응답함)을 호스트의 포트 8501에 게시

--name tfserving_resnet: 이후에 이름으로 지칭할 수 있도록 우리가 만들고 있는 컨테이너의 이름을 'tfserving_resnet'으로 지정

--mount type=bind,source=/tmp/resnet,target=/models/resnet: TF Serving이 컨테이너 내부에서 모델을 읽을 수 있도록 컨테이너(/models/resnet)에 호스트의 로컬 디렉토리(/tmp/resnet) 탑재

-e MODEL_NAME=resnet: TensorFlow Serving에 'resnet'으로 명명된 모델을 로드하도록 알림

-t tensorflow/serving: 제공 이미지 'tensorflow/serving'을 기준으로 Docker 컨테이너 실행

다음으로, 제공된 모델 이미지를 보내고 예측 결과를 돌려받는 Python 클라이언트 스크립트를 다운로드합시다. 서버 응답 시간도 측정해 볼 것입니다.

$ curl -o /tmp/resnet/resnet_client.py https://raw.githubusercontent.com/tensorflow/serving/master/tensorflow_serving/example/resnet_client.py

스크립트의 메인 루프에서 보듯이, 이 스크립트는 고양이의 이미지를 다운로드하고 응답 시간을 측정하는 동안 서버로 이미지를 반복적으로 보내는 스크립트입니다.

# The server URL specifies the endpoint of your server running the ResNet
# model with the name "resnet" and using the predict interface.
SERVER_URL = 'http://localhost:8501/v1/models/resnet:predict'

...

# Send few actual requests and time average latency.                                                                                                                                                                   
total_time = 0
num_requests = 10
for _ in xrange(num_requests):
    response = requests.post(SERVER_URL, data=predict_request)
response.raise_for_status()
total_time += response.elapsed.total_seconds()
prediction = response.json()['predictions'][0]

print('Prediction class: {}, avg latency: {} ms'.format(
prediction['classes'], (total_time*1000)/num_requests))

이 스크립트에서는 요청 모듈을 사용하므로 이 모듈이 아직 없다면 설치할 필요가 있습니다. 이 스크립트를 실행하면 다음과 같이 출력됩니다.

$ python /tmp/resnet/resnet_client.py Prediction class: 282, avg latency: 185.644 ms

여기서 알 수 있듯이, TensorFlow Serving과 Docker를 사용하면 모델을 상당히 간단하게 제공할 수 있습니다. 훨씬 더 쉽게 배포하기 위해 모델이 삽입되어 있는 고유의 맞춤 Docker 이미지를 생성할 수도 있습니다.
최적화된 제공 바이너리를 빌드하여 성능 개선 이제는 Docker에 제공되는 모델이 있으므로 TensorFlow Serving에서 다음과 같은 로그 메시지를 보셨을 수도 있습니다.

Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA

TensorFlow Serving용으로 게시된 Docker 이미지는 가능한 한 많은 CPU 아키텍처에서 작동하도록 되어 있으므로, 호환성을 극대화하기 위해 몇몇 최적화는 배제됩니다. 이 메시지가 나타나지 않으면 바이너리가 CPU에 맞춰 이미 최적화되었을 가능성이 있습니다.

모델이 수행하는 작업에 따라, 이러한 최적화가 제공 성능에 상당한 효과를 미칠 수 있습니다. 고맙게도, 고유의 최적화된 제공 이미지는 간편하게 한데 모을 수 있습니다. 먼저 우리는 TensorFlow Serving의 최적화된 버전을 빌드하고자 합니다. 이를 가장 수월하게 실현하는 방법은 공식 Tensorflow Serving 개발 환경 Docker 이미지를 빌드하는 것입니다. 이 방법은 이미지 빌드가 이루어지는 시스템에 대해 최적화된 TensorFlow Serving 바이너리를 자동으로 생성하는 멋진 속성이 있습니다. 우리가 만든 이미지를 공식 이미지와 구분하기 위해 이미지 이름 앞에 $USER/를 추가합니다. 우리가 빌드하고 있는 이 개발 이미지를 $USER/tensorflow-serving-devel이라고 부릅시다.

$ docker build -t $USER/tensorflow-serving-devel \ -f Dockerfile.devel \ https://github.com/tensorflow/serving.git#:tensorflow_serving/tools/docker

사용 중인 컴퓨터의 속도에 따라 TensorFlow Serving 개발 이미지를 빌드하는 데 시간이 약간 걸릴 수 있습니다. 빌드가 완료되면 최적화된 바이너리를 사용하는 새로운 제공 이미지를 빌드하고 $USER/tensorflow-serving이라고 부릅시다.

$ docker build -t $USER/tensorflow-serving \ --build-arg TF_SERVING_BUILD_IMAGE=$USER/tensorflow-serving-devel \ https://github.com/tensorflow/serving.git#:tensorflow_serving/tools/docker

이제 새로운 제공 이미지가 생겼으므로 서버를 다시 시작합시다.

$ docker kill tfserving_resnet $ docker run -p 8501:8501 --name tfserving_resnet \ --mount type=bind,source=/tmp/resnet,target=/models/resnet \ -e MODEL_NAME=resnet -t $USER/tensorflow-serving &

마지막으로 클라이언트를 실행합니다.

$ python /tmp/resnet/resnet_client.py Prediction class: 282, avg latency: 84.8849 ms

우리가 사용하는 컴퓨터에서는 네이티브 최적화 바이너리를 사용한 결과 예측당 평균 100ms(119%) 이상의 속도 향상 효과를 보았습니다. 사용 중인 컴퓨터와 모델에 따라 결과는 제각기 다를 수 있습니다. 마지막으로, TensorFlow Serving 컨테이너는 자유롭게 종료해도 됩니다.

$ docker kill tfserving_resnet

이제 TensorFlow Serving이 Docker와 함께 실행 중이므로, 손쉽게 컨테이너에 머신러닝 모델을 배포하면서도 배포 용이성과 성능을 극대화할 수 있습니다.자세한 내용은 Using TensorFlow Serving via Docker 문서를 읽어보시고 우리의 GitHub 프로젝트를 통해 늘 최신 정보를 접하시기 바랍니다.