UCI 인구조사 데이터세트[1]의 9가지 범주형 특징 중 2가지를 보여 주는 Facets Overview 시각화. 분포 거리를 기준으로 훈련 데이터세트(파란색)와 테스트 데이터세트(주황색) 사이에서 가장 크게 편중된 특징이 맨 위에 표시되는 식으로 특징들을 정렬했습니다. 'Target' 특징에서는 테스트 세트에 후행 구두점이 있기 때문에 레이블 값이 훈련 데이터세트와 테스트 데이터세트 간에 다르다는 점에 유의하세요('<=50K' 대 '<=50K.'). 이는 이 특징에 대한 차트에서는 물론, 표의 'top' 열에 있는 항목에서도 확인할 수 있습니다. 이러한 레이블 불일치는 이 데이터로 훈련하고 테스트한 모델이 올바르게 평가할 수 없게 합니다. |