SynthID란 무엇인가?

최근에는 사람이 쓴 글과 AI가 만든 글을 구분하기 어려워지고 있습니다. 이미지, 영상, 음악 역시 마찬가지입니다. 생성형 AI의 성능이 급격히 향상되면서 “이 콘텐츠는 사람이 만든 것인가, AI가 만든 것인가?”라는 문제가 매우 중요해지고 있습니다.

이 문제를 해결하기 위해 구글 딥마인드(Google DeepMind)가 개발한 기술이 바로 SynthID입니다. SynthID는 AI가 생성한 콘텐츠 안에 보이지 않는 디지털 워터마크를 삽입하는 기술입니다. 쉽게 말하면, 사람이 눈으로는 알아차릴 수 없지만 컴퓨터는 감지할 수 있는 ‘숨겨진 서명’을 AI 결과물 안에 남기는 방식입니다.

왜 SynthID가 필요한가?

생성형 AI는 매우 강력한 기술이지만 동시에 여러 사회적 문제도 만들어내고 있습니다. AI가 작성한 가짜 뉴스나 허위 정보, 학생 과제 대필, 딥페이크 이미지와 영상 같은 문제들이 대표적입니다. 또한 AI가 만든 콘텐츠의 저작권과 출처를 어떻게 확인할 것인지도 중요한 이슈가 되고 있습니다.

이런 상황에서는 콘텐츠의 출처를 식별할 수 있는 기술이 필요합니다. SynthID는 바로 이 지점을 해결하기 위해 등장했습니다. AI가 생성한 결과물 안에 보이지 않는 흔적을 남겨 나중에 “이 콘텐츠는 AI가 생성했다”는 사실을 판별할 수 있도록 돕는 것입니다.

기존 워터마크와 무엇이 다른가?

우리가 흔히 알고 있는 워터마크는 이미지 위에 반투명 로고나 글자를 삽입하는 방식입니다. 예를 들어 사진 한쪽에 “SAMPLE” 같은 문구가 보이는 형태입니다.

하지만 SynthID는 이런 방식과 다릅니다. 사람 눈에는 거의 보이지 않으며 콘텐츠 품질에도 거의 영향을 주지 않습니다. 워터마크가 콘텐츠 생성 과정 자체에 삽입되기 때문입니다. 즉, 이미지나 텍스트 내부에 매우 미세한 패턴을 숨겨 넣는 방식이라고 볼 수 있습니다.

텍스트에도 적용 가능한 SynthID

이미지에는 수백만 개의 픽셀이 존재하기 때문에 약간 수정해도 사람이 쉽게 눈치채지 못합니다. 하지만 텍스트는 다릅니다. 단어 하나만 바뀌어도 문장이 어색해지거나 의미가 달라질 수 있습니다.

예를 들어 “좋다” 대신 “훌륭하다”를 사용하면 문체와 느낌이 달라집니다. 따라서 텍스트 워터마킹은 이미지보다 훨씬 더 까다로운 문제로 알려져 있습니다.

SynthID는 텍스트에도 적용이 가능합니다. 대규모 언어모델(LLM)은 문장을 생성할 때마다 “다음에 어떤 단어가 올 가능성이 높은가?”를 계산합니다. 예를 들어 “내가 좋아하는 과일은 ___”이라는 문장이 있다면 AI는 사과, 바나나, 포도 같은 여러 후보 단어들의 확률을 계산하게 됩니다.

SynthID는 이 과정에서 특정 단어의 선택 확률을 아주 미세하게 조정합니다. 어떤 단어는 약간 더 선택되기 쉽게 만들고, 어떤 단어는 약간 덜 선택되도록 만드는 것입니다. 이 차이는 사람 입장에서는 거의 느껴지지 않습니다. 하지만 나중에 컴퓨터가 전체 문장의 패턴을 분석하면 “이 텍스트에는 워터마크가 삽입되어 있다”는 사실을 감지할 수 있습니다.

SynthID는 완벽한 기술인가?

SynthID는 완벽한 기술이 아닙니다. 구글 딥마인드 역시 SynthID가 모든 문제를 해결하는 만능 기술은 아니라고 설명합니다. 예를 들어 텍스트나 이미지를 다른 AI로 크게 수정하거나, 텍스트의 경우 번역기를 거치는 경우에는 워터마크가 약해질 수 있습니다. 특히 매우 짧은 문장에서는 탐지가 어려워질 수 있습니다.

논문 링크: Scalable watermarking for identifying large language model outputs