표준 WMT 영어-독일어 번역 작업에서 BLEU 점수(높을수록 좋음).
이는 더 이상 특정 모델이나 데이터셋에 고정되지 않은 학습을 통해 T2T가 유연함을 의미합니다. 유명한
LSTM 시퀀스-시퀀스 모델과 같은 아키텍처조차도
수십 줄의 코드로 쉽게 정의할 수 있습니다. 또한, 서로 다른 도메인의 여러 작업에서 단일 모델을 학습할 수 있습니다. 한계를 감안하여 모든 데이터셋에서 동시에 단일 모델을 학습할 수도 있으며, 이와 같이 학습되고 T2T에 포함된
MultiModel은 ImageNet(이미지 분류),
MS COCO(이미지 캡션),
WSJ(음성 인식),
WMT(번역) 및
Penn Treebank 파싱 자료에 대해 공동으로 학습할 때조차도 많은 작업에서 좋은 결과를 얻을 수 있습니다. 이는 단일 모델을 통해 이러한 모든 작업을 한 번에 수행할 수 있다는 점을 최초로 시연한 것입니다.
기본 제공 모범 사례
이 초기 릴리스와 함께, 연구 커뮤니티에서 널리 사용되는 많은 데이터셋1, 소수의 모델2, 다수의 하이퍼 파라미터 구성, 그리고 트레이드에서 중요한 다른 트릭이 잘 수행되도록 하는 구현을 위한 스크립트도 제공합니다. 이들을 모두 나열하기는 어렵지만, T2T로 모델을 실행하기로 결정할 경우 정확한 시퀀스 패딩과 해당 크로스 엔트로피(cross-entropy) 손실, Adam 옵티마이저용으로 적절히 조정된 파라미터, 적응형 배치, 동기화된 분산 학습, 이미지용으로 적절히 조정된 데이터 증대, 레이블 스무딩 및 번역에 관한 최고성능 기술의 성과를 달성하고 좋은 결과를 얻는 데도 도움이 될 수 있도록 위에서 언급한 내용을 비롯해, 매우 효과적으로 작동했던 다수의 하이퍼 파라미터 구성을 자유롭게 활용할 수 있습니다.
예를 들어, 영어 문장을 문법적 구성요소 트리로 파싱하는 작업을 살펴봅시다. 이 문제는 수십 년 동안 연구되어왔고 많은 노력을 통해 경쟁력 있는 방법이 개발되었습니다. 이는
시퀀스-to-시퀀스 문제로 나타날 수 있고 신경망으로 해결될 수 있지만 많은 조정 작업이 필요했습니다. T2T를 사용할 경우 이 문제에 대해 교육하기 위해
파싱 데이터세트 생성기를 추가하고 트랜스포머 모델을 조정하는 데 불과 며칠밖에 걸리지 않았습니다. 놀랍게도 우리는 단 일주일 만에 아주 좋은 결과를 얻었습니다.
표준 테스트 셋에서 파싱 F1 점수, WSJ의 섹션 23. Penn Treebank WSJ 학습 세트에서 차별화된 학습을 받은 모델만 비교합니다. 자세한 결과는
문서를 참조하세요.
Tensor2Tensor에 기여
기존 모델 및 데이터셋 탐색 외에도, 자신만의 모델을 쉽게 정의하고 Tensor2Tensor에 자신만의 데이터셋을 추가할 수 있습니다. 이미 포함된 모델은 많은 NLP 작업에서 매우 잘 수행될 것으로 예상되므로 데이터셋을 추가하기만 하면 흥미로운 결과가 발생할 것이라 믿습니다. 또한, T2T를 모듈화함으로써 자체 모델을 제공하고 다양한 작업에서 어떻게 수행되는지 매우 쉽게 확인할 수 있게 되었습니다. 이러한 방법으로 전체 커뮤니티가 기본 라이브러리를 활용하고 딥 러닝 연구를 가속화할 수 있습니다.
github 저장소로 가서 새로운 모델을 시도하고 자신만의 모델을 제공해보세요!
감사의 말
Tensor2Tensor의 출시는 많은 엔지니어와 연구원의 광범위한 협력 덕분에 가능했습니다. 이 기회를 빌어 공헌해주신 핵심 팀(알파벳 순서)에 감사의 말씀을 전합니다. Samy Bengio, Eugene Brevdo, Francois Chollet, Aidan N. Gomez, Stephan Gouws, Llion Jones, Łukasz Kaiser, Nal Kalchbrenner, Niki Parmar, Ryan Sepassi, Noam Shazeer, Jakob Uszkoreit, Ashish Vaswani.
1. 우리는 이미지 분류(MNIST, CIFAR-10, CIFAR-100, ImageNet), 이미지 캡션(MS COCO), 번역(영어-독일어 및 영어-프랑스어를 포함한 여러 언어를 이용한 WMT), 언어 모델링(LM1B), 파싱(Penn Treebank), 자연어 추론(SNLI), 음성 인식(TIMIT), 알고리즘 문제(대수에 덧셈 및 곱셈을 통해 리버싱에서 십여 가지 이상의 작업)에 대한 다수의 데이터셋을 포함했으며 앞으로도 더 추가할 예정입니다. 여러분의 데이터셋도 언제든 대환영입니다.↩
2. LSTM 시퀀스-to-시퀀스 RNN, 분리 가능한 콘볼루션(예: Xception)도 포함한 콘볼루션 네트워크, ByteNet 또는 Neural GPU와 같이 최근에 연구된 모델, 이 게시글에서 언급한 저장소에서 적극적으로 업데이트할 예정인 새로운 최신 모델 포함.↩