[생성형 AI] 이미지 생성 평가
품질 지표 소개
생성형 인공지능(AI)이 만들어내는 이미지의 품질을 평가하는 것은 그 이미지들이 실제 물체나 장면을 얼마나 잘 반영하고 있는지, 그리고 그들이 목표로 하는 사용자나 응용 프로그램에 있어 효과적인지를 판단하는 데 있어 필수적입니다. 품질 평가는 사실성과 충실도(fidelity)에 중점을 두며, 생성된 이미지가 실제 세계의 이미지와 얼마나 근접해 있는지를 측정함으로써 이루어집니다. 여기서 사실성은 이미지가 실제보다 얼마나 진짜 같은지를 가리키며, 충실도는 원래 이미지나 개념에 대한 정확한 재현을 의미합니다.
객관적인 지표
인셉션 점수(IS)
인셉션 점수(IS)는 생성된 이미지의 품질을 측정하는 데 널리 사용되는 지표입니다. IS는 이미지의 분류 정확도와 다양성을 동시에 반영합니다. 즉, 생성된 이미지가 식별 가능하고 다양한 카테고리에 걸쳐 있는지를 평가합니다. 계산은 사전 훈련된 인셉션 모델을 사용하여 이미지를 분류한 후, 이 분류 결과의 확률 분포에 대한 상호 정보량을 측정함으로써 이루어집니다. 하지만 IS는 생성된 이미지의 다양성만을 고려하고 실제 데이터와의 유사성은 고려하지 않기 때문에 그 한계가 있습니다.
Fréchet 시작 거리(FID)
FID 점수는 생성된 이미지와 실제 이미지 간의 거리를 측정하여 이미지 샘플들의 품질과 다양성을 평가합니다. 이는 고차원 공간에서의 두 가우시안 분포 간의 거리를 계산하며, 이 공간은 사전 훈련된 인셉션 네트워크를 통과한 이미지의 특징을 기반으로 합니다. FID 점수가 낮을수록 생성된 이미지와 실제 이미지 간의 차이가 작다는 것을 의미하며, 일반적으로 이미지의 품질과 사실성을 평가하는 데 더 높은 신뢰도를 보여 줍니다.
PPL(지각 경로 길이)
PPL 점수는 특히 생성 모델의 잠재 공간 내에서의 전환을 평가하는 데 사용됩니다. 이는 잠재 공간에서 두 포인트를 선정하고, 그 둘 사이를 보간한 다음, 각 보간 지점에서 생성된 이미지 간의 지각적 차이를 측정하여 계산됩니다. 보간 과정에서 생성된 이미지가 일관되고 점진적인 변화를 보이는 경우, 모델의 잠재 공간이 잘 구성되었다고 볼 수 있습니다. 이것은 모델이 미세 조정에도 견고하며 다양한 변형을 능숙하게 처리할 수 있음을 의미합니다.
주관적인 품질 측정
객관적 지표와 별개로, 사람의 평가를 통한 주관적인 품질 측정은 가장 궁극적인 평가 방법입니다. 제품이나 서비스의 최종 사용자는 생성된 이미지가 그들의 기대와 필요를 충족시키는지 여부를 결정합니다. 따라서 사용자 연구나 온라인 설문조사를 통해 다양한 배경을 가진 사람들로부터 피드백을 수집하고 이를 통해 이미지의 사실성, 충실도, 다양성 및 독창성을 평가하는 것이 중요합니다. 이 접근법은 어떤 객관적 지표도 놓칠 수 있는 미묘한 인상적인 요소나 문화적 요소를 포착할 수 있습니다.
다양성과 독창성
다양성과 독창성의 이해
생성형 AI, 특히 이미지 생성 분야에서 다양성과 독창성은 모델이 얼마나 효과적으로 여러 가지 형태와 아이디어를 포착하고 새로운 콘텐츠로 변환할 수 있는지를 나타내는 중요 지표입니다. 다양성은 생성된 이미지 사이의 변화와 차이를 의미하며, 독창성은 이미지가 얼마나 독특하고 창의적인지, 즉 기존의 훈련 데이터에서 직접적으로 복제되지 않은 새로운 조합과 형태를 보여주는지를 말합니다. 이 두 가지는 생성 모델의 성능을 평가할 때 필수적으로 고려되어야 하며, 모델이 다양하고 고유한 출력을 생성할 수 있는 능력을 가지고 있는지를 알려줍니다.
다양성 지표
커버리지 측정항목
커버리지는 생성된 이미지가 얼마나 넓은 범위의 개념이나 특징을 포함하고 있는지를 측정합니다. 예를 들어, 자연 풍경을 생성하는 AI 모델에 대해 이야기할 때, 이 모델이 다양한 기후, 시간대, 계절 등의 이미지를 생성할 수 있다면 높은 커버리지를 가진 것으로 평가할 수 있습니다. 이를 정량적으로 평가하기 위한 한 가지 방법은 생성된 이미지 분류기를 사용하여 생성된 이미지들이 속하는 다양한 범주를 확인하는 것입니다.
변이 측정항목
변이 지표는 생성된 이미지들 사이의 분산을 측정하여, 모델이 얼마나 다양한 출력물을 내놓을 수 있는지를 평가합니다. 비교적 간단한 방법 중 하나는 생성된 이미지의 특징 벡터 간의 거리를 계산하는 것입니다. 이러한 특징 벡터는 이미지에서 중요한 정보를 추출하기 위해 사전 훈련된 심층 신경망으로부터 얻을 수 있습니다. 이미지 간의 평균 거리가 클수록 모델의 변이도가 높은 것으로 간주됩니다.
독창성 측정
중복 감지
이미지의 중복 감지는 생성된 이미지가 훈련 데이터 내의 이미지와 얼마나 다른지를 평가하는 데 중요합니다. 지문 인식 알고리즘과 유사한 방법을 사용하여 생성된 이미지와 훈련 데이터 내의 이미지 사이의 해시를 비교함으로써 중복을 감지할 수 있습니다. 이를 통해, 생성된 이미지가 훈련 데이터에 존재하는 이미지의 단순한 복제가 아닌 독창적인 산출물인지 확인할 수 있습니다.
신규성 평가
신규성 평가는 생성된 이미지가 훈련 데이터에 존재하지 않는 새로운 조합이나 특징을 포함하고 있는지 측정합니다. 코사인 유사도와 같은 지표를 사용하여 생성된 이미지의 특징 벡터와 훈련 데이터의 특징 벡터 사이의 유사도를 계산함으로써 신규성을 평가할 수 있습니다. 신규성이 높은 이미지는 기존 데이터 집합에서 찾아볼 수 없는 새로운 내용을 포함할 가능성이 높으며, 이는 모델이 뛰어난 창의성을 발휘하고 있다는 신호로 해석할 수 있습니다.
사용자 연구 및 피드백
생성형 AI에서 이미지 생성의 평가는 단순히 기술적인 지표만으로 완성되지 않습니다. 인간 사용자의 참여를 통한 평가는 이미지의 품질과 창의성과 같이 주관적인 평가에 매우 중요한 요소입니다. 이 부문에서는 이미지 생성 모델의 평가에 있어 사용자 연구와 피드백이 어떻게 적용되는지에 대해 상세히 논의합니다.
모델 평가에서 사용자 연구의 역할
이미지 생성 기술은 주로 사용자가 최종적으로 소비하는 컨텐츠이기 때문에, 사용자의 주관적 판단은 생선된 이미지의 품질과 창의성을 이해하고 평가하는데 있어 필수적입니다. 인간의 판단을 통해, 기계가 생산한 이미지가 실제로 사용자에게 어떠한 가치와 경험을 주는지를 평가할 수 있습니다.
효과적인 사용자 연구 설계
-
참가자 선정
- 사용자 연구의 효과성을 높이기 위해서는 다양한 배경을 가진 사용자들을 포함하는 대표적인 표본 선정이 중요합니다. 연령, 성별, 문화적 배경, 그리고 예술적 지식 수준 등 다양성을 반영하여, 보다 광범위한 의견과 평가를 수집해야 합니다.
-
연구 설계
- 이미지의 질과 창의성을 평가하기 위한 연구 설계는 블라인드 테스트, A/B 테스트, 순위 부여 등의 방법을 포함할 수 있습니다. 예를 들어, 사용자들에게 어떠한 정보 없이 여러 이미지를 보여주고 평가하도록 하는 블라인드 테스트는 주관적 평가에서 편견을 최소화할 수 있습니다.
피드백 통합
-
정량적 피드백
- 사용자로부터 수집된 수치적 평점은 이미지 생성 모델의 개선 방향을 제시하고, 서로 다른 모델 간의 벤치마킹에 활용될 수 있습니다. 예를 들어, 사용자들이 1부터 10까지의 척도로 이미지 품질을 평가하게 한 후 이 데이터를 분석하여 모델 성능을 평가합니다.
-
정성적 피드백
- 서면 피드백이나 인터뷰를 통해 수집된 사용자의 의견은 수치로 표현하기 어려운 인사이트와 개선점을 제시할 수 있습니다. 예를 들어, 사용자가 특정 이미지에 대해 느낀 감정이나, 이미지가 어떤 상황에 적절할지 등의 의견은 모델 개발에 있어 귀중한 자산이 됩니다.
도전과제 및 모범 사례
- 사용자 연구와 피드백 과정에서 편견, 참여 의욕 저하, 확장성 문제 등의 도전과제가 생길 수 있습니다. 이러한 문제를 최소화하기 위해, 연구 참여를 위한 보상 체계 마련, 다양한 채널을 통한 의견 수렴, 그리고 피드백 과정의 투명성 확보 등의 모범 사례를 적용할 수 있습니다. 효과적인 사례 공유를 통해 연구 기획부터 피드백 통합까지 전 과정에서의 효율성과 정확성을 높일 수 있습니다.
사용자 연구 및 피드백은 이미지 생성 모델의 개발과 개선 과정에서 매우 중요한 역할을 하며, 사용자 기반의 주관적 평가를 통해 모델의 실용성과 가치를 높이는 데 기여할 수 있습니다.