임베딩

얼굴로 잠금 해제

스마트폰이나 노트북 등에서 얼굴로 잠금 해제
이미지 분류로는 어려움
일반적인 이미지 분류 방법은 한 종류의 이미지를 매우 많이 수집하여 학습
얼굴 인식의 경우 같은 사람의 이미지를 많이 모으기 어려움
같은 사람의 얼굴이라도 날마다 다름
컨디션, 조명, 화장, 각도 등등에 따라 이미지는 다르게 찍힘
요구 조건:
- 카메라에 얼굴을 비췄을 때 정확하면서도 빠르게 잠금이 풀려야
- 저장된 얼굴 이미지와 카메라에 비춰진 이미지를 잘 비교할 수 있어야
- 사람의 얼굴에서 특징을 추출하는 것이 중요
- 같은 사람을 찍은 사진에서는 비슷한 특징을, 다른 사람을 찍은 사진이면 최대한 다른 특징을 추출하도록 학습
새로운 이미지가 입력되었을 때, 가장 유사한 특징을 갖는 사람의 이미지를 찾아 신분을 확인

임베딩 embedding

유사성을 보존하면서 원래보다 낮은 차원의 벡터로 표현하는 것 또는 그렇게 표현된 벡터
embed: 어떤 좁은 공간에 무언가를 심어넣는 것
일종의 좌표 또는 디지털 지문과 비슷한 개념
비슷한 내용의 이미지는 비슷한 임베딩 값을 가짐
지문만 비교하면 두 사람이 같은 사람인지 확인할 수 있듯이, 임베딩을 비교하면 두 이미지가 비슷한 이미지인지 빠르게 비교할 수 있음

듀이 십진 분류 코드

도서관에서 책의 내용을 몇 개의 숫자로 표시한 것
000은 컴퓨터, 지식, 정보 등에 대한 책들, 100은 철학, 300은 사회과학, 400은 자연과학, 800은 한국 문학 …
국립중앙도서관에서 자연어 처리에 대한 책들은 004로 시작되는 코드가 붙어 있음
책의 내용을 몰라도 004번 서가 있는 책들은 비슷한 내용일 것이라는 것을 짐작할 수 있음
도서관의 분류 코드는 사람이 임의로 만들어놓고 분류
임베딩은 도서 분류 코드와 달리 데이터에 딥러닝을 적용해서 만든 것

문서 및 단어 임베딩

문서를 검색할 때
- 문서를 구성하는 수많은 단어들을 일일이 비교하는 것은 시간이 많이 걸림
- 중요하지 않은 단어, 유의어 등의 비교 문제
- 문서의 의미를 보존하면서 적은 개수의 수로 표현하는 임베딩이 필요
단어도 임베딩으로 표현할 수 있음
- 단어 검색, 비교
- 대형 언어 모델에 단어들을 입력할 때
문서를 구성하는 단어의 임베딩을 평균 내어 문서 임베딩을 도출할 수도 있음

임베딩을 만드는 방법

통계적 방법
- LSA, NMF 등
- 적은 데이터로 빠르게 만들 수 있음
- 상대적으로 해석이 쉬움
- 복잡한 처리에서 정확도가 떨어짐
딥러닝을 이용한 방법
- 대량의 데이터가 필요
- 해석이 어려움
- 복잡한 처리에서 정확도가 높음

Previous: 다양한 유사도
Next: 잠재 의미 분석(LSA)