Google for Developers Korea Blog: Hugging Face가 Node.js에서 DistilBERT로 Question Answering의 성능을 2배로 향상한 방법

Hugging Face가 Node.js에서 DistilBERT로 Question Answering의 성능을 2배로 향상한 방법

2020년 6월 9일 화요일

.post-body span { white-space: normal !important; } 작성자 : Hugging Face: Pierric Cistac(소프트웨어 엔지니어), Victor Sanh(연구원), Anthony Moi(기술 책임자)원문은 여기서 확인 가능하며 Justin Hong(Google TensorFlow Ecosystem)님이 번역 리뷰에 참여해주셨습니다.
Hugging Face 🤗는 커뮤니티에서의 협업을 개선하기 위한 도구를 개발하고 연구 과정에 적극적으로 참여함으로써 자연어 처리(NLP) 기술의 발전에 기여한다는 목표를 가진 AI 스타트업입니다.
NLP는 어려운 분야이므로, 모든 연구 참가자가 연구 내용과 결과를 공유해야만 문제를 해결할 수 있다고 생각합니다. 그게 바로 우리가 다운로드 횟수가 2백만 이상이나 되는 선도적인 NLP 라이브러리로서, 수많은 회사에서 연구원과 엔지니어들이 사용하는 🤗 Transformers를 만든 이유입니다. Transformers 덕분에 국제적 네트워크를 이룬 놀라운 NLP 커뮤니티가 다양한 작업(텍스트/토큰 생성, 텍스트 분류, Question Answering 등)을 위한 새로운 모델을 다양한 언어(영어는 물론이고, 프랑스어, 이탈리아어, 스페인어, 독일어, 터키어, 스웨덴어, 네덜란드어, 아랍어 등까지 포함!)로 빠르게 실험, 반복, 생성, 게시할 수 있습니다. 현재 Transformers를 통해 300여 가지 다른 모델을 사용할 수 있습니다.
Transformers는 연구에 무척 편리하게 활용할 수 있지만, 우리는 어디서든 쉽게 채택할 수 있는 솔루션을 지향하고 구현하면서 NLP의 프러덕션 측면에 대한 노력에도 힘을 쏟고 있습니다. 이 블로그 게시물에서는 이 목표를 달성하는 데 도움이 될 수 있다고 생각하는 경로 중 하나를 보여드리고자 합니다. 즉, '작지만' 성능이 뛰어난 모델(예: DistilBERT)과 TensorFlow.js를 통한 Node와 같이, Python과는 다른 생태계를 대상으로 하는 프레임워크를 사용하는 것입니다.
작은 모델의 필요성: DistilBERT 우리가 관심을 두는 영역 중 하나는 크기가 상당히 더 작고 실행 속도도 훨씬 더 빠르면서도 State-of-the-art 결과에 가깝고 '리소스를 적게 사용하는' 모델입니다. 그게 바로 우리가 BERT의 증류 버전인 DistilBERT를 만든 이유입니다. 이 버전은 매개변수 개수가 40% 적고 실행 속도는 60% 빠른 반면, GLUE 벤치마크에서 측정 시 BERT 성능의 97%를 보여줍니다.

시간이 흐르면서 매개변수 개수도 늘어나며 발전하는 NLP 모델

DistilBERT를 만들기 위해, 우리는 Hinton 등이 보여준 더 큰 모델(또는 여러 모델의 앙상블)의 동작을 재현하기 위해 작은 모델을 훈련하는 압축 기법인 BERT에 대한 Knowledge Distillation 기법(그래서 DistilBERT라는 이름이 주어짐)을 적용해오고 있습니다.
교사-학생 방식의 훈련에서는 교사 네트워크(교사의 지식)의 전체 출력 분포를 모방하도록 학생 네트워크를 훈련합니다. 하드 타깃(골드 클래스의 One-Hot 인코딩) 위에서 교차 엔트로피로 훈련하는 대신, 소프트 타깃(교사의 확률) 위에서 교차 엔트로피를 사용해 교사에서 학생에게로 지식을 전수합니다. 따라서 훈련 손실은 다음과 같이 됩니다.

t: 교사의 로짓, s: 학생의 로짓

학생은 토큰형 Embedding과 Pooler(그다음 문장 분류 작업에 사용됨)를 제거한 BERT의 작은 버전입니다. 우리는 두 가지 계층 중 한 계층을 선택해 학생과 교사 사이에서 공통되는 숨겨진 크기를 활용함으로써 계층의 수를 줄이면서도 아키텍처의 나머지 부분은 똑같이 유지했습니다. 동적 마스킹을 사용해 그라데이션 누적을 활용하는 매우 큰 배치(배치당 최대 4,000개의 예제까지)에서 DistilBERT를 훈련하고 그다음 문장 예측 목표를 제거했습니다.
이 방법으로 Question Answering의 특정 작업에 대해 모델을 미세 조정할 수 있었습니다. 이를 위해, SQuAD 1.1에서 Knowledge Distillation 손실이 있는 교사로 미세 조정된 BERT-cased 모델을 사용했습니다. 다시 말해, 질문에 답하는 모델을 Knowledge Distillation 기법을 사용하여 이전에 사전 훈련된 언어 모델로 증류했습니다! 많은 교사와 학생이 있는데, DistilBERT-cased-finetuned-squad 모델을 얻기 위해 먼저 BERT-cased가 DistilBERT-cased를 가르친 다음, SQuAD-finetuned BERT-cased 버전이 '다시 가르쳤습니다.'
이에 따라 네트워크 크기가 주어진 상태에서 매우 흥미로운 성능을 얻게 되는데, DistilBERT-cased fine-tuned 모델이 개발 세트에서 87.1점의 F1 점수에 도달해, BERT-cased fine-tuned 모델(F1 점수 88.7점)과의 차이가 2점 이내에 불과합니다!
Distillation 프로세스에 대해 더 자세히 알아보고 싶으시면 전용 블로그 게시물을 읽어보세요.

언어 중립적인 형식의 필요성: SavedModel 이전의 프로세스를 사용하면 최종적으로 DistilBERT-cased-squad 모델의 가중치를 포함해 240MB의 Keras 파일(.h5)를 얻게 됩니다. 이 형식에서는 모델의 아키텍처가 관련 Python 클래스 내에 있습니다. 하지만 우리의 최종 목표는 최대한 많은 환경에서 이 모델을 사용할 수 있는 것이며(이 블로그 게시물에서는 Node.js + TensorFlow.js), TensorFlow SavedModel 형식이 이에 적합합니다. 'Serializes' 형식이라서 모델 실행에 필요한 모든 정보가 모델 파일에 포함되기 때문입니다. 이 형식은 언어 중립적인 형식이기도 하므로, Python뿐 아니라 JS, C++, Go에서도 사용할 수 있습니다.
SavedModel로 변환하려면, 먼저 모델 코드에서 그래프를 생성해야 합니다. Python에서는 tf.function을 사용해 생성할 수 있습니다.
import tensorflow as tffrom transformers import TFDistilBertForQuestionAnswering
distilbert = TFDistilBertForQuestionAnswering.from_pretrained('distilbert-base-cased-distilled-squad')callable = tf.function(distilbert.call)여기서는 Keras 모델 call에서 호출되는 함수를 tf.function으로 전달했습니다. 이때 callable이 반환되며, get_concrete_function 덕분에 특정한 시그니처와 Shape을 가진 호출 함수를 추적하는 데 바로 이 callable을 사용할 수 있습니다.
concrete_function = callable.get_concrete_function([tf.TensorSpec([None, 384], tf.int32, name="input_ids"), tf.TensorSpec([None, 384], tf.int32, name="attention_mask")]) get_concrete_function을 호출하여 Shape [None, 384]의 두 Tensor(첫 번째는 입력 ID, 두 번째는 어텐션 마스크)로 구성된 입력 시그니처를 위한 모델의 TensorFlow 연산을 추적-컴파일합니다.
그런 다음, 모델을 SavedModel 형식으로 최종 저장할 수 있습니다.
tf.saved_model.save(distilbert, 'distilbert_cased_savedmodel', signatures=concrete_function) TensorFlow 덕분에 단 네 줄의 코드만으로 변환 가능합니다! 다음 코드를 사용하여 생성된 SavedModel에 올바른 시그니처가 포함되는 것을 확인할 수 있습니다.
saved_model_cli:
$ saved_model_cli show --dir distilbert_cased_savedmodel --tag_set serve --signature_def serving_default출력:
The given SavedModel SignatureDef contains the following input(s): inputs['attention_mask'] tensor_info: dtype: DT_INT32 shape: (-1, 384) name: serving_default_attention_mask:0 inputs['input_ids'] tensor_info: dtype: DT_INT32 shape: (-1, 384) name: serving_default_input_ids:0The given SavedModel SignatureDef contains the following output(s): outputs['output_0'] tensor_info: dtype: DT_FLOAT shape: (-1, 384) name: StatefulPartitionedCall:0 outputs['output_1'] tensor_info: dtype: DT_FLOAT shape: (-1, 384) name: StatefulPartitionedCall:1Method name is: tensorflow/serving/predict
완벽합니다! 이 colab 노트북을 열어 변환 코드를 스스로 바꿔가며 실험해 볼 수 있습니다. 자, 이제 SavedModel을 TensorFlow.js와 함께 사용할 준비가 되었습니다!

Node.js에서 ML의 필요성: TensorFlow.js Hugging Face는 NLP의 잠재 채택률을 최대한 끌어올리려면 머신러닝 분야에서 박사 학위가 없는 소프트웨어 엔지니어라도 조작할 수 있을 만큼 충분히 간단한 API를 사용해 프로덕션 환경에서 Python보다 더 널리 사용되는 다른 언어로 NLP에 액세스할 수 있어야 한다는 믿음이 강하며, JavaScript가 바로 그런 언어 중 하나입니다.
TensorFlow.js에서 제공되는 API 덕분에, 우리가 Node.js에서 이전에 만든 SavedModel과의 상호 작용이 무척 간단합니다. 다음은 NPM Question Answering 패키지에서 Typescript 코드를 약간 단순화한 버전입니다.
const model = await tf.node.loadSavedModel(path); // Load the model located in path
const result = tf.tidy(() => { // ids and attentionMask are of type number[][] const inputTensor = tf.tensor(ids, undefined, "int32"); const maskTensor = tf.tensor(attentionMask, undefined, "int32");
// Run model inference return model.predict({ // “input_ids” and “attention_mask” correspond to the names specified in the signature passed to get_concrete_function during the model conversion “input_ids”: inputTensor, “attention_mask”: maskTensor }) as tf.NamedTensorMap;});
// Extract the start and end logits from the tensors returned by model.predictconst [startLogits, endLogits] = await Promise.all([ result[“output_0"].squeeze().array() as Promise, result[“output_1”].squeeze().array() as Promise]);
tf.dispose(result); // Clean up memory used by the result tensor since we don’t need it anymore 매우 유용한 TensorFlow.js 함수인 tf.tidy의 사용법을 알아두세요. 이 함수는 inputTensor 및 maskTensor와 같은 중간 텐서를 자동으로 정리하는 동시에 모델 추론의 결과를 반환하는 작업을 처리합니다.
모델에서 반환되는 결과에서 시작 및 종료 Logits(질문에 답하는 가능한 스팬의 시작과 종료)을 추출하기 위해 'ouput_0' 및 'output_1'을 사용해야 한다는 걸 어떻게 알까요? 우리가 이전에 SavedModel로 내보낸 후 실행했던 saved_model_cli 명령으로 표시되는 출력 이름을 살펴봐야 합니다.

토크나이저를 빠르고 쉽게 사용해야 할 필요성: 🤗 Tokenizers Node.js 라이브러리를 빌드하는 동안 우리의 목표는 API를 가능한 한 간단하게 만드는 것이었습니다. 방금 살펴본 바와 같이, TensorFlow.js 덕분에 일단 SavedModel이 있으면 모델 추론을 꽤 간단하게 실행할 수 있습니다. 이제 가장 어려운 부분은 올바른 형식의 데이터를 입력 ID와 어텐션 마스크 텐서로 전달하는 것입니다. 우리는 보통 사용자로부터 문자열을 수집하지만, 텐서에는 숫자로 구성된 배열이 필요합니다. 따라서 사용자 입력을 토큰화해야 합니다.
Hugging Face에서 우리가 작업해온 Rust로 작성된 라이브러리로, 성능 기준을 충족하는 🤗 Tokenizers로 들어가 봅시다. 이 토크나이저를 사용하면 BertWordpiece 등의 다른 토크나이저를 무척 쉽게 활용할 수 있고, 제공되는 바인딩 덕분에 Node.js에서도 작동합니다.
const tokenizer = await BertWordPieceTokenizer.fromOptions({ vocabFile: vocabPath, lowercase: false});
tokenizer.setPadding({ maxLength: 384 }); // 384 matches the shape of the signature input provided while exporting to SavedModel
// Here question and context are in their original string formatconst encoding = await tokenizer.encode(question, context);const { ids, attentionMask } = encoding;이것으로 끝입니다! 단 네 줄의 코드로 우리가 이후에 TensorFlow.js로 모델 피드에 사용할 수 있는 형식으로 사용자 입력을 변환할 수 있습니다.

최종 결과: Node.js에서 강력한 Question Answering SavedModel 형식, 추론을 위한 TensorFlow.js, 토큰화를 위한 Tokenizers의 강력한 성능 덕분에, 우리는 NPM 패키지에서 매우 단순하면서도 매우 강력한 공개 API를 제공한다는 목표에 도달했습니다.
import { QAClient } from "question-answering"; // If using Typescript or Babel// const { QAClient } = require("question-answering"); // If using vanilla JS
const text = ` Super Bowl 50 was an American football game to determine the champion of the National Football League (NFL) for the 2015 season. The American Football Conference (AFC) champion Denver Broncos defeated the National Football Conference (NFC) champion Carolina Panthers 24–10 to earn their third Super Bowl title. The game was played on February 7, 2016, at Levi's Stadium in the San Francisco Bay Area at Santa Clara, California. As this was the 50th Super Bowl, the league emphasized the "golden anniversary" with various gold-themed initiatives, as well as temporarily suspending the tradition of naming each Super Bowl game with Roman numerals (under which the game would have been known as "Super Bowl L"), so that the logo could prominently feature the Arabic numerals 50.`;
const question = "Who won the Super Bowl?";
const qaClient = await QAClient.fromOptions();const answer = await qaClient.predict(question, text);
console.log(answer); // { text: 'Denver Broncos', score: 0.3 }
강력하냐고요? 예! TensorFlow.js에서 SavedModel이 기본 지원이 제공되는 덕분에, 매우 우수한 성능을 확보할 수 있습니다. 다음은 동일한 DistilBERT-cased-squad 모델을 실행하여 Node.js 패키지와 인기 있는 transformers Python 라이브러리를 비교한 벤치마크입니다. 보시는 바와 같이, 2배의 속도 이득을 달성합니다! 도대체 누가 JavaScript가 느리다 말했나요?

짧은 텍스트는 500~1,000자 사이, 긴 텍스트는 4,000~5,000자 사이입니다. 여기에서 Node.js 벤치마크 스크립트를 확인할 수 있습니다(Python 스크립트와 동등함). macOS 10.15.2에서 실행 중인 표준 2019 MacBook Pro에서 실행되는 벤치마크.

NLP의 관점에서는 무척 흥미로운 시기입니다. GPT2 또는 T5와 같은 큰 모델이 계속 점점 더 나아지고 있고, 훌륭하긴 하지만 무겁고 비용이 많이 드는 모델을 '축소'하는 방법에 관한 연구도 점점 더 탄력을 붙여가고 있으며, 다른 무엇보다도 Distillation 기법이 중요하게 다루어지고 있습니다. 규모가 큰 개발자 커뮤니티들이 혁명적 변화의 과정에 동참할 수 있게끔 해주는 수식 도구를 늘려감에 따라(예: JavaScript 생태계와 TensorFlow.js의 접목), NLP의 미래는 그 어느 때보다도 더욱 흥미로워지고 프로덕션 환경에 바로 사용할 수 있게 됩니다!
Github 저장소에 읽어볼 만한 자료가 많으므로 언제든 이용하시기 바랍니다.