Google for Developers Korea Blog: TensorFlow에 새로운 개인정보 보호 테스트 라이브러리 도입

Google for Developers Korea Blog

한국의 개발자들을 위한 Google for Developers 국문 블로그입니다.

TensorFlow에 새로운 개인정보 보호 테스트 라이브러리 도입

2020년 7월 14일 화요일

.post-body span { white-space: normal !important; } 작성자 : Shuang Song, David Marn 원문은 여기서 확인 가능하며 블로그 리뷰에는 번역 리뷰는 정태희(Google TensorFlow Ecosystem) 님이 참여해 주셨습니다.

멤버십 추론 공격의 개요. 공격자가 특정 예시가 훈련 데이터의 일부인지 알아내려 시도하는 사례를 보여줍니다.
오늘, 개발자가 분류(classification) 모델의 개인정보 보호 속성을 평가할 수 있게 해주는 TensorFlow Privacy(GitHub)에 도입할 새로운 시험용 모듈을 발표하게 되어 기쁩니다. 머신러닝 커뮤니티에서는 개인정보 보호 이슈가 새롭게 부각되고 있습니다. 비공개 모델을 제작하기 위한 정식 가이드라인이 없습니다. 연구조사 결과, 머신러닝 모델에서 훈련 데이터세트의 민감한 정보가 누출되어 데이터세트에 자신의 정보가 포함된 사용자에게 개인정보 누출 위험이 발생할 수 있음을 보여주는 사례가 점점 늘고 있습니다. 작년에 우리는 개발자가 차등적 개인정보 보호(differential privacy) 로 모델을 훈련할 수 있게 해주는 TensorFlow Privacy를 출시했습니다. 차등적 개인정보 보호는 훈련 데이터세트에 포함된 개별적 사례를 숨기기 위해 일부러 노이즈를 추가하는 기술입니다. 하지만 이 노이즈는 이론적으로 가능한 최악의 시나리오에 적합하게 디자인되어 있어, 모델의 정확도에 상당한 영향을 미칠 수 있습니다. 이런 난점으로 인해 우리는 다른 관점에서 개인정보 보호 문제에 접근하게 되었습니다. 몇 년 전, 머신러닝 모델의 개인정보 보호 속성과 관련된 연구가 부상하기 시작했습니다. 비용 효율적인 “멤버십 추론 공격”에서는 데이터 중 특정 부분이 훈련 중에 사용되었는지 여부를 예측합니다. 공격자가 높은 정확도로 예측할 수 있는 경우, 훈련 데이터세트에 특정 데이터가 사용되었는지 여부를 알아내는 데 성공할 가능성이 높을 것입니다. 멤버십 추론 공격의 가장 큰 이점은 수행하기 쉽다는 점으로, 즉 어떤 재훈련도 필요하지 않다는 점입니다. 테스트를 통해 모델의 훈련 데이터세트에서 정보가 누출되는지 여부를 결정하는 취약점 점수가 생성됩니다. 이 취약점 점수는 조기 중지 또는 훈련에 DP-SGD를 사용하는 것과 같은 휴리스틱으로 종종 감소한다는 점을 확인했습니다.

CIFAR10에 대한 모델에서 이루어지는 멤버십 추론 공격. x축은 모델의 테스트 정확도이고, y축은 취약점 점수입니다(점수가 낮을수록 비공개 수준이 높음). 테스트 정확도가 동일하게 유지되는 동안 취약점이 증가합니다. 일반화 수준이 향상되면 개인정보 보호 누출을 방지할 수 있습니다

놀랄 일도 아니지만, 차등적 개인정보 보호는 이런 취약점 점수를 줄이는 데 도움이 됩니다. 매우 소량의 노이즈에도 취약점 점수가 감소됩니다.
우리는 내부적으로 멤버십 추론 테스트를 사용한 후에 개발자와 공유하여 개발자가 비공개 수준이 더욱 높은 모델을 빌드하거나, 더 나은 아키텍처를 탐색하여 선택하거나, 조기 중지, 드롭아웃, 가중치 감소, 입력 확대와 같은 정규화 기법을 사용하거나, 더 많은 데이터를 수집하도록 도와드릴 것입니다. 결국, 이런 테스트는 개발자 커뮤니티가 개인정보 보호 설계 원칙과 데이터 처리 선택 사항을 포함하는 더 많은 아키텍처를 식별하는 데 도움이 될 수 있습니다.
이 라이브러리가 세계 곳곳의 머신러닝 개발자가 사용할 수 있는 탄탄한 개인정보 보호 테스트 도구 모음의 출발점이 되기를 바랍니다. 우리는 앞으로 분류 모델을 넘어 멤버십 추론 공격을 확장할 가능성을 살펴보고 새로운 테스트를 개발할 것입니다. 또한 TFX와 통합하여 TensorFlow 생태계에 이 테스트를 추가할 방안도 탐구할 것입니다.
tf-privacy@google.com으로 연락해 이 새로운 모듈을 어떻게 사용하고 계시는지 알려주세요. 여러분의 다양한 이야기, 의견 그리고 제안을 꼭 들어보고 싶습니다! 감사의 말: Yurii Sushko, Andreas Terzis, Miguel Guevara, Niki Kilbertus, Vadym Doroshenko, Borja De Balle Pigem, Ananth Raghunathan 님께 감사드립니다.

라벨: ML/Tensorflow

Contents

ML/Tensorflow
Android
Flutter
Web/Chrome
Cloud
Google Play
Community
Game
Firebase

검색

Tag

Archive

2025
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2024
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2023
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2022
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2021
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2020
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2019
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2018
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2017
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2016
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2015
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2014
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2013
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 4월
- 3월
- 2월
- 1월

2012
- 12월
- 11월
- 10월
- 9월
- 8월
- 7월
- 6월
- 5월
- 3월
- 2월
- 1월

2011
- 12월
- 11월

Feed

Google
Privacy
Terms