logo

임베딩

얼굴로 잠금 해제

  • 스마트폰이나 노트북 등에서 얼굴로 잠금 해제
  • 이미지 분류로는 어려움
  • 일반적인 이미지 분류 방법은 한 종류의 이미지를 매우 많이 수집하여 학습
  • 얼굴 인식의 경우 같은 사람의 이미지를 많이 모으기 어려움
  • 같은 사람의 얼굴이라도 날마다 다름
  • 컨디션, 조명, 화장, 각도 등등에 따라 이미지는 다르게 찍힘
  • 요구 조건:
    • 카메라에 얼굴을 비췄을 때 정확하면서도 빠르게 잠금이 풀려야
    • 저장된 얼굴 이미지와 카메라에 비춰진 이미지를 잘 비교할 수 있어야
    • 사람의 얼굴에서 특징을 추출하는 것이 중요
    • 같은 사람을 찍은 사진에서는 비슷한 특징을, 다른 사람을 찍은 사진이면 최대한 다른 특징을 추출하도록 학습
  • 새로운 이미지가 입력되었을 때, 가장 유사한 특징을 갖는 사람의 이미지를 찾아 신분을 확인

임베딩 embedding

  • 유사성을 보존하면서 원래보다 낮은 차원의 벡터로 표현하는 것 또는 그렇게 표현된 벡터
  • embed: 어떤 좁은 공간에 무언가를 심어넣는 것
  • 일종의 좌표 또는 디지털 지문과 비슷한 개념
  • 비슷한 내용의 이미지는 비슷한 임베딩 값을 가짐
  • 지문만 비교하면 두 사람이 같은 사람인지 확인할 수 있듯이, 임베딩을 비교하면 두 이미지가 비슷한 이미지인지 빠르게 비교할 수 있음

듀이 십진 분류 코드

  • 도서관에서 책의 내용을 몇 개의 숫자로 표시한 것
  • 000은 컴퓨터, 지식, 정보 등에 대한 책들, 100은 철학, 300은 사회과학, 400은 자연과학, 800은 한국 문학 …
  • 국립중앙도서관에서 자연어 처리에 대한 책들은 004로 시작되는 코드가 붙어 있음
  • 책의 내용을 몰라도 004번 서가 있는 책들은 비슷한 내용일 것이라는 것을 짐작할 수 있음
  • 도서관의 분류 코드는 사람이 임의로 만들어놓고 분류
  • 임베딩은 도서 분류 코드와 달리 데이터에 딥러닝을 적용해서 만든 것

문서 및 단어 임베딩

  • 문서를 검색할 때
    • 문서를 구성하는 수많은 단어들을 일일이 비교하는 것은 시간이 많이 걸림
    • 중요하지 않은 단어, 유의어 등의 비교 문제
    • 문서의 의미를 보존하면서 적은 개수의 수로 표현하는 임베딩이 필요
  • 단어도 임베딩으로 표현할 수 있음
    • 단어 검색, 비교
    • 대형 언어 모델에 단어들을 입력할 때
  • 문서를 구성하는 단어의 임베딩을 평균 내어 문서 임베딩을 도출할 수도 있음

임베딩을 만드는 방법

  • 통계적 방법
    • LSA, NMF 등
    • 적은 데이터로 빠르게 만들 수 있음
    • 상대적으로 해석이 쉬움
    • 복잡한 처리에서 정확도가 떨어짐
  • 딥러닝을 이용한 방법
    • 대량의 데이터가 필요
    • 해석이 어려움
    • 복잡한 처리에서 정확도가 높음
Previous
다양한 유사도