게시자: Hossein Talebi(소프트웨어 엔지니어), Peyman Milanfar(기계 인지 분야 연구원)
이미지 화질과 미학적 요소의 정량화는 이미지 처리와 컴퓨터 비전 분야에서 오랜 숙제였습니다. 기술 품질 평가에서는 노이즈, 흐림, 압축 아티팩트 등과 같은 픽셀 수준의 품질 저하를 측정하는 반면, 미적 평가는 이미지의 정서 및 아름다움과 관련된 의미론적 수준의 특성을 다룹니다. 최근에 사람이 지정한 데이터로 교육받은 깊은
컨벌루션 신경망(CNN)은 경관과 같은 특정한 이미지 클래스에 대한
화질의 주관적인 특성을 파악하는 데 사용되고 있습니다. 그러나 이러한 접근 방식은 일반적으로 이미지를 낮은 품질과 높은 품질의 두 가지 클래스로만 분류하므로 응용 범위가 제한될 수 있습니다. 우리가 제안한 방법에서는 평점의 분포를 예측합니다. 이를 통해 실측 평점과의 상관 관계가 더 높은 보다 정확한 품질 예측이 가능하며, 일반 이미지에도 적용할 수 있습니다.
“
NIMA: 신경 이미지 평가”에서는 전형적인 사용자가 어떤 이미지를 (기술적으로) 좋게 또는 (미적으로) 매력적으로 보는지 예측할 수 있도록 교육받은 deep CNN을 소개합니다. NIMA는 많은 변형에도 불구하고 일반적인 객체의 범주를 이해할 수 있는 능력을 바탕으로 구축되는 심층
객체 인지 네트워크의 성공에 기반합니다. 우리가 제안한 네트워크는 인간의 인지와 높은 상관 관계를 가지고서 안정적으로 이미지의 점수를 매길 수 있을 뿐만 아니라, 지능형 사진 편집, 사용자 이목을 끌기 위한 시각적 품질 최적화 또는 이미징 파이프라인에서 인지 가능한 시각적 오류의 최소화와 같은 다양한 노동 집약적이고 주관적인 작업에도 유용합니다.
배경
일반적으로 화질 평가는 완전 참조 및 비참조 접근 방식으로 분류할 수 있습니다. 참조에 "이상적인" 이미지를 사용할 수 있는 경우,
PSNR,
SSIM 등과 같은 화질 측정항목이 개발되었습니다. 참조 이미지를 사용할 수 없는 경우, '블라인드'(또는 비참조) 접근 방식은 통계 모델을 사용하여 화질을 예측합니다. 두 가지 접근 방식의 주요 목표는 인간의 인지와 상관 관계가 좋은 화질 점수를 예측하는 것입니다. 화질 평가에 대한 deep CNN 접근 방식에서 객체 분류 관련 데이터 세트(예:
ImageNet)를 사용한 훈련을 통해 가중치를 초기화한 다음, 인지 화질 평가 작업을 위해 주석이 달린 데이터를 미세 조정합니다.
NIMA
전형적인 미적 예측 방법에서는 이미지를 저품질/고품질로 분류합니다. 교육 데이터의 각 이미지가 단일 이진 점수가 아니라 사람이 판단한 평점의 히스토그램과 연관되어 있다는 사실에도 불구하고 이렇게 분류합니다. 평점의 히스토그램은 평가자들의 의견뿐만 아니라 전반적인 화질의 지표입니다. 우리의 접근 방식은 이미지를 낮은/높은 점수로 분류하거나 평균 점수로 회귀하는 대신, NIMA 모델이 주어진 이미지에 대해 1~10점의 척도로 평점 분포를 산출합니다. NIMA는 가능한 각각의 점수별로 우도(likelihood)를 구합니다. 이는 훈련 데이터를 일반적으로 얻는 방법과 직접적인 관련이 있으며, 다른 접근 방식에 비해 인간의 선호도를 더 잘 예측하는 것으로 판명되었습니다(자세한 내용은
논문에서 확인 가능).
그런 다음 NIMA 벡터 점수의 다양한 함수(예: 평균)를 사용하여 미적으로 사진의 순위를 매길 수 있습니다. NIMA에서 순위를 매긴 미적 시각적 분석(
AVA) 데이터세트를 위한 대규모 데이터베이스의 일부 테스트 사진이 아래에 나와 있습니다.
사진 콘테스트를 벌여 각 AVA 사진에 대해 평균 200명이 점수를 매겼습니다. 교육 후, NIMA가 매긴 사진의 미적 순위는 인간 평가자가 제시한 평균 점수와 거의 일치합니다. 우리는 NIMA가 다른 데이터세트에서도 똑같이 잘 수행되고 예상 화질 점수가 인간의 평점에 가깝다는 사실을 발견했습니다.
NIMA를 사용하여 AVA 데이터세트에서 "landscape" 태그로 지정된 몇 가지 예시의 순위 지정. 각 이미지 아래에 예상 NIMA 점수(실측 점수) 형식으로 표시했습니다.
NIMA 점수는 다양한 방법으로 왜곡되었을 수 있는 동일한 피사체의 화질을 비교하는 데 사용할 수도 있습니다. 다음 예시에 나오는 이미지는
TID2013 테스트 세트의 일부로, 다양한 왜곡 유형과 수준이 포함되어 있습니다.
NIMA를 사용하여 TID2013 데이터세트에서 몇 가지 예시의 순위 지정. 각 이미지 아래에 예측 NIMA 점수가 표시되어 있습니다.
인지 이미지 향상
최근의 또 다른
논문에서 보여주었듯이, 화질 및 미적 점수는 이미지 향상 연산자를 인지적으로 조정하는 데 사용될 수도 있습니다. 즉, NIMA 점수를 최대화하도록 하는 손실 함수를 이용해 이미지 인지 화질 향상의 매개변수를 구할 수도 있습니다. 다음 예시는 NIMA를 훈련 손실로 사용하여 색조 향상 알고리즘을 조정할 수 있음을 보여줍니다. 우리는 NIMA 점수로 지시된 대비 조정을 통해 기본 미적 평점을 향상할 수 있다는 점을 관찰했습니다. 결과적으로, 우리의 모델은 deep CNN 필터를 사용하여 미적으로 거의 최적인 밝기, 하이라이트 및 그림자와 같은 매개변수의 설정을 찾을 수 있습니다.