한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.
딥 러닝으로 피부병 감별 진단하기
2019년 10월 21일 월요일
<블로그 원문은
이곳
에서 확인하실 수 있으며 블로그 번역 리뷰는 신정규(MachineLearning GDE)님이 참여해 주셨습니다>
게시자: Google Health 소속 Yuan Liu 박사(소프트웨어 엔지니어), Peggy Bui 의학박사(기술 프로그램 관리자)
어느 시점에서든 전 세계적으로 약 19억 명이 피부 상태 문제로 고통받고 있으나, 피부과 전문의가 부족하여 많은 경우 일반의가 그 진료를 담당하고 있는 실정입니다. 미국에서만도 클리닉을 방문하는 환자 중 최대
37%
가 한 가지 이상의 피부 트러블이 있는 것으로 파악되고,
그중 절반 이상을 피부과 전문의가 아닌 의사가 진료하는 것으로 나타났습니다
. 하지만 여러 연구에 따르면, 일반의와 피부과 전문의 사이의 피부병 증상 진찰 정확도 격차가 상당히 큰 것으로 입증되는데, 피부과 전문의가
77
~
96
%의 정확도를 보인 반면, 일반의의 정확도는
24
~
70%
에 불과한 것으로 나타났습니다. 이에 따라 최상의 진료 의뢰가 이루어지지 못해 치료가 지연되고 진찰과 치료에 오류가 생길 수 있습니다.
비전문의가 진찰 정확도를 높이기 위한 기존의 전략으로는 참고 문헌과 온라인 자료를 활용하고 동료와 상담하는 방법 등이 있었습니다. 그런데 이제는 진찰 정확도 향상에 도움을 줄 목적으로 머신러닝 도구도 개발되었습니다. 이전의 연구는 주로 피부암의 조기 선별, 특히 병변이
악성 또는 양성
인지 여부나
병변이 흑색종
인지 여부에 중점을 두었습니다. 하지만 피부 문제의 90% 이상은
악성이 아니므로
, 피부병에 대한 전 세계적인 부담을 줄이기 위해서는 이처럼 흔한 피부병에 효율적으로 대처하는 것도 중요합니다.
'
A Deep Learning System for Differential Diagnosis of Skin Diseases(피부병 감별 진단을 위한 딥 러닝 시스템)
'에서, 우리는 1차 의료에서 흔히 보는 피부병 증상을 해결하기 위한 딥 러닝 시스템(DLS)을 개발했습니다. 테스트 결과, 어떤 환자 증례에 대해 똑같은 정보(이미지와 메타데이터)를 제공할 경우 DLS는 26가지 피부병 증상에 관해 미국의 해당 위원회에서 인증한 피부과 전문의와 동등한 수준의 진찰 정확도를 달성할 수 있는 것으로 나타났습니다. 이 연구는 DLS가 각종 피부병 증상을 정확히 진찰하기 위한 전문적인 교육과 수련을 추가로 받지 않은 일반의의 진찰 능력을 강화할 수 있는 잠재력을 잘 보여줍니다.
DLS 디자인
임상의는 확실한 해답이 없는 애매모호한 사례에 직면할 때가 종종 있습니다. 예를 들어 어떤 증상이 환자의 발진
정체피부염
때문인지,
연조직염
때문인지, 아니면 두 가지가 모두 합쳐진 증상인지 확실치 않을 수 있습니다. 임상의는 딱 한 가지 진찰 결과만 내놓기보다는 가능한 진찰 결과의 순위를 매긴 목록인
감별 진단
결과를 작성합니다. 감별 진단에서는 진찰 결과가 확인될 때까지 추가 정밀 검사(실험실 검사, 영상 촬영, 시술, 상담)와 치료를 체계적으로 적용할 수 있도록 문제를 구조화합니다. 이와 같이, 피부 트러블에 대해 가능한 피부병 증상의 순위를 매긴 목록을 생성하는 딥 러닝 시스템(DLS)은 임상의의 사고 방식과 매우 흡사하게 작동하고 환자를 위한 즉석 선별, 진찰 및 치료에 관건이 됩니다.
이런 예측 결과를 제공하기 위해, DLS는 피부 이상을 보여주는 하나 이상의 임상 이미지와 최대 45가지 유형의 메타데이터(나이, 성별, 증상 등의 의료 기록 중 환자 스스로 알려준 정보 요소)를 포함한 입력 데이터를 처리합니다. 각 증례에 대해 여러 개의 이미지를
Inception-v4
신경망 아키텍처를 사용하여 처리하고 분류 계층에서 사용할 수 있도록 특징이 변환된 메타데이터와 결합했습니다. 우리는 주로 1차 의료 기관에서
원격 피부과 진료
서비스로 의뢰가 이루어진 17,777건의 개인 식별 정보가 제거된 사례를 활용한 연구를 통해 DLS를 개발하고 평가했습니다. 2010년부터 2017년까지의 데이터는 모델 훈련에 사용하고 2017년부터 2018년까지의 데이터는 평가에 사용했습니다. 모델 훈련 중에, DLS는 40명 이상의 피부과 전문의가 제공한 50,000여 건의 감별 진단 데이터를 활용했습니다.
DLS의 정확도를 평가하기 위해, 우리는 DLS의 진찰 결과를 미국의 관련 위원회에서 인증을 받은 3인의 피부과 전문의가 내놓은 진찰 결과를 기준으로 한 엄격한 참조 기준과 비교했습니다. 피부과 전문의들은 총 3,756건의 증례에 대한 감별 진단 결과('유효성 검사 집합 A')를 제공했으며, 이런 진단 결과는 실측 라벨을 얻기 위한 투표 과정을 통해 집계되었습니다. DLS가 순위를 매긴 피부병 증상 목록을 피부과 전문의가 도출한 이 감별 진단 데이터와 비교한 결과, 각각 71%와 93%의 top-1 및 top-3 정확도를 달성했습니다.
DLS의 계통도와 유효성 검사 집합에 포함된 각 증례에 대해 위원회의 인증을 받은 3인의 피부과 전문의의 투표를 통해 참조 기준(실측)을 도출한 방법.
전문가 평가와의 비교
우리는 이 연구에서 임상 의료인을 폭넓은 범위의 경험 및 훈련 수준과 진찰 정확도를 보여주는 피부과 전문의, 1차 의료 기관 의사(PCP), 전담 간호사(NP)의 세 범주로 나누어 무작위로 선정한 후 그들이 유효성 검사 A 데이터세트 중 일부('유효성 검사 집합 B')에 대해 진단한 결과의 정확도와 DLS의 정확도를 비교하기도 했습니다. 임상의가 제공하는 전형적인 감별 진단에는 최대 3가지 진단 결과만 포함되므로, 우리는 DLS가 예측한 결과 중 순위가 높은 3가지 진단 데이터만 임상의가 제공한 데이터와 비교했습니다. DLS는 유효성 검사 B 데이터세트에서 90%의 top-3 진찰 정확도를 달성했는데, 이는 피부과 전문의에 필적하는 수준이고 1차 의료 기관 의사(PCP)와 전담 간호사(NP)보다는 현저히 높은 수준이었는데, 각 그룹에 6명의 임상 의료인을 대상으로 하여 각각 75%, 60%, 55%의 정확도를 보였습니다. 이처럼 높은 top-3 정확도는 (피부과 전문의를 포함한) 임상의가 원래는 감별 진단에서 파악되지 않았던 가능성을 고려함으로써 진찰 정확도와 증상 관리를 개선하는 데 DLS가 도움이 될 수 있다는 점을 시사합니다.
DLS가 선두인(top-1) 감별 진단은 PCP와 NP보다는 월등히 높고 피부과 전문의와는 동등한 수준입니다. DLS의 top-3 정확도를 살펴보면 이 정확도가 상당히 높아져, 대부분의 증례에서 DLS의 질병 순위 목록에 해당 증례에 대한 올바른 실측 결과가 포함되어 있음을 시사합니다.
인구통계학적 성능 평가
피부 유형은 특히 피부 자체의 육안 평가가 진찰에 결정적으로 중요한 역할을 하는 피부과와 높은 관련성이 있습니다. 피부 유형에 대한 잠재적 편향성을 평가하기 위해, 우리는 유형 I('창백하고 흰 피부, 강한 태양빛에 항상 화상, 절대 그을리지 않음')부터 유형 VI('가장 어두운 갈색, 절대 화상 없음')까지의 범위로 구분한 척도인
피츠패트릭 피부 유형
을 기준으로 DLS의 성능을 조사했습니다. 설득력 있는 결론을 도출하기 위한 충분한 수의 사례를 확보하기 위해, 우리는 데이터 중 5% 이상을 대표하는 피부 유형인 피츠패트릭 피부 유형 II에서 IV까지의 피부 유형에 초점을 맞추었습니다. 이들 범주에서는 DLS의 정확도가 비슷하게 나왔는데, top-1 정확도는 69~72%, top-3 정확도는 91~94%였습니다. 환자가 스스로 알려주는 다른 인구통계 정보인 나이, 성별, 인종/종족 등의 정보를 기반으로 데이터세트에 존재하는 상당수(5% 이상)의 사람에 대한 환자 하위 그룹에서도 DLS가 정확성을 유지한 점이 고무적이었습니다. 추가로 진행된 정성 분석에서, 우리는 DLS가 피부 톤 대신 피부 이상에도 '초점'을 맞춰 재확인시켜 준 세일리언시(설명) 기법을 통해 평가를 실시했습니다.
왼쪽:
비전문가에게는 어려운 문제인 탈모 증례에 대해 적절한 치료법을 결정해야 하는 특정 진찰 결과에 이른 사례.
오른쪽:
DLS가 중요하다고 식별하여 예측에 사용한 영역을 녹색으로 강조 표시한 이미지.
가운데:
DLS가 예컨대 잠재적 편향성을 나타낼 수 있는 앞머리 피부색 대신에 이러한 예측을 하기 위해 탈모 부위에 주로 초점을 맞추었음을 나타내는 결합 이미지.
여러 가지 데이터 형식의 통합
우리는 DLS 성능에 관해 다양한 유형의 입력 데이터가 나타내는 효과도 연구했습니다. 여러 각도에서 촬영한 이미지가 있으면 원격 진료 피부과 전문의가 피부병 증상을 더 정확히 진찰하는 데 도움이 될 수 있는 것과 마찬가지로, DLS의 정확도는 이미지 개수가 증가함에 따라 향상됩니다. 메타데이터(예: 의료 기록)가 없으면 모델도 올바른 성능을 발휘하지 못합니다. 의료 기록을 활용할 수 없는 상황에서 발생할 수 있는 이런 정확도 격차는 이미지만으로 DLS를 훈련하는 방법으로 일부 해소할 수 있습니다. 그럼에도, 다음 데이터는 피부병 증상에 관한 몇 가지 질문에 대한 대답을 제시하면 DLS 정확도를 상당히 개선할 수 있다는 점을 시사합니다.
더 많은 이미지(파란색 선)나 메타데이터(파란색과 빨간색 비교)가 있으면 DLS 성능이 향상됩니다. 입력 데이터로 활용할 메타데이터가 없는 경우, 이미지만 사용하여 별개의 DLS를 훈련하면 부족하긴 해도 현재의 DLS(녹색 선)에 비해서는 개선됩니다.
향후 작업과 응용
이런 결과는 매우 장래성이 있긴 하지만, 앞으로도 해야 할 일이 많이 남아 있습니다. 첫째, 실제 의료 현장의 실태를 반영하자면, 우리가 준비한 데이터세트에서 흑색종과 같은 피부암은 상대적으로 희귀하므로 암을 검출하기 위해 정확한 시스템을 훈련하는 우리의 능력을 저해하는 요인이 되었습니다. 이와 관련해, 우리의 데이터세트에서 피부암 라벨은 생검을 통해 입증된 것이 아니라서, 이 점에 있어서는 실측 자료의 품질에 한계가 있었습니다. 둘째, 데이터세트에 다양한 피츠패트릭 피부 유형이 포함되지는 않았지만, 이 데이터세트에서 어떤 피부 유형은 유의미한 훈련이나 분석을 수행하기에는 너무 드물었습니다. 마지막으로, 이 유효성 검사 데이터세트는 단 하나의 원격 피부과 진료 서비스에서 얻은 것이라는 한계도 있었습니다. 2개 주에 걸쳐 17개 1차 의료 기관에서 모은 자료가 포함되었지만, 더 넓은 지역에서 수집된 더욱 다양한 증례에 대한 유효성 검사가 꼭 필요할 것입니다. 우리는 훈련 및 유효성 검사 세트에 생검을 통해 입증된 피부암 증례를 더 많이 포함하고 추가적인 피츠패트릭 피부 유형을 대표하는 증례와 다른 임상 센터에서 제공하는 증례를 포함함으로써 이러한 제한 사항을 극복할 수 있다고 생각합니다.
피부 질환의 감별 진단 결과를 알려주는 딥 러닝의 성공은 이러한 도구가 임상의의 진료 활동을 보조할 수 있는 잠재력을 보여준다는 점에서 매우 고무적인 일입니다. 예를 들어 이러한 DLS는 임상 진료를 위해 증례를 선별하여 우선순위 결정에 도움이 되거나 피부과 전문의가 아닌 일반의가 피부과 진료를 더 정확히 시작하는 데 도움이 되고 더 높은 수준의 피부과 진료에 접근할 수 있는 가능성을 열어줄 수도 있습니다. 앞으로도 할 일이 상당히 많이 남아 있지만, 우리는 향후 임상의를 위해 이러한 시스템의 유용성을 검토하는 작업에 기꺼운 마음으로 최선을 다할 것입니다. 연구 협업에 관한 문의 사항이 있으시면 dermatology-research@google.com으로 연락해주세요.
감사의 말
이 작업은 소프트웨어 엔지니어, 연구원, 임상의, 여러 직무 분야의 공헌자 등, 다양한 분야에서 종사하는 분들의 노고 덕분에 진행할 수 있었습니다. 이 프로젝트에 기여해 주신 주요 인사로 Yuan Liu, Ayush Jain, Clara Eng, David H. Way, Kang Lee, Peggy Bui, Kimberly Kanada, Guilherme de Oliveira Marinho, Jessica Gallegos, Sara Gabriele, Vishakha Gupta, Nalini Singh, Vivek Natarajan, Rainer Hofmann-Wellenhof, Greg S. Corrado, Lily H. Peng, Dale R. Webster, Dennis Ai, Susan Huang, Yun Liu, R. Carter Dunn, David Coz와 같은 고마운 분들이 계십니다. 저자 일동은 데이터 수집을 위한 소프트웨어 인프라 지원을 해주신 William Chen, Jessica Yoshimi, Xiang Ji, Quang Duong에게 감사 말씀을 드립니다. Genevieve Foti, Ken Su, T Saensuksopa, Devon Wang, Yi Gao, Linh Tran에게도 감사의 마음을 전합니다. 마지막으로 언급하지만 역시 중요한 점으로, 이번 연구를 위해 다양한 증례를 검토해주신 피부과 전문의, 1차 의료 기관 의사, 전담 간호사, 그리고 피부병 증상 매핑을 완성하는 데 도움을 주신 Sabina Bis와 원고에 대한 피드백을 해주신 Amy Paller의 참여가 없었다면 이번 작업은 가능하지 않았을 것입니다.
Contents
ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase
검색
Tag
인디게임페스티벌
정책 세미나
창구프로그램
AdMob
AI
Android
Android 12
Android 12L
Android 13
Android 14
Android Assistant
Android Auto
Android Games
Android Jetpack
Android Machine Learning
Android Privacy
Android Studio
Android TV
Android Wear
App Bundle
bootcamp
Business
Chrome
Cloud
Community
compose
Firebase
Flutter
Foldables
Game
gdg
GDSC
google
Google Developer Student Clubs
Google Play
Google Play Games
Interview
Jetpack
Jetpack Compose
kotlin
Large Screens
Library
ma
Material Design
Material You
ML/Tensorflow
mobile games
Now in Android
PC
Play Console
Policy
priva
wa
wear
Wearables
Web
Web/Chrome
Weeklyupdates
WorkManager
Archive
2025
1월
2024
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2023
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2022
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2021
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2020
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2019
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2018
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2017
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2016
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2015
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2014
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2013
12월
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월
1월
2012
12월
11월
10월
9월
8월
7월
6월
5월
3월
2월
1월
2011
12월
11월
Feed