얼굴로 잠금 해제
- 스마트폰이나 노트북 등에서 얼굴로 잠금 해제
- 이미지 분류로는 어려움
- 일반적인 이미지 분류 방법은 한 종류의 이미지를 매우 많이 수집하여 학습
- 얼굴 인식의 경우 같은 사람의 이미지를 많이 모으기 어려움
- 같은 사람의 얼굴이라도 날마다 다름
- 컨디션, 조명, 화장, 각도 등등에 따라 이미지는 다르게 찍힘
- 요구 조건:
- 카메라에 얼굴을 비췄을 때 정확하면서도 빠르게 잠금이 풀려야
- 저장된 얼굴 이미지와 카메라에 비춰진 이미지를 잘 비교할 수 있어야
- 사람의 얼굴에서 특징을 추출하는 것이 중요
- 같은 사람을 찍은 사진에서는 비슷한 특징을, 다른 사람을 찍은 사진이면 최대한 다른 특징을 추출하도록 학습
- 새로운 이미지가 입력되었을 때, 가장 유사한 특징을 갖는 사람의 이미지를 찾아 신분을 확인
임베딩 embedding
- 유사성을 보존하면서 원래보다 낮은 차원의 벡터로 표현하는 것 또는 그렇게 표현된 벡터
- embed: 어떤 좁은 공간에 무언가를 심어넣는 것
- 일종의 좌표 또는 디지털 지문과 비슷한 개념
- 비슷한 내용의 이미지는 비슷한 임베딩 값을 가짐
- 지문만 비교하면 두 사람이 같은 사람인지 확인할 수 있듯이, 임베딩을 비교하면 두 이미지가 비슷한 이미지인지 빠르게 비교할 수 있음
듀이 십진 분류 코드
- 도서관에서 책의 내용을 몇 개의 숫자로 표시한 것
- 000은 컴퓨터, 지식, 정보 등에 대한 책들, 100은 철학, 300은 사회과학, 400은 자연과학, 800은 한국 문학 …
- 국립중앙도서관에서 자연어 처리에 대한 책들은 004로 시작되는 코드가 붙어 있음
- 책의 내용을 몰라도 004번 서가 있는 책들은 비슷한 내용일 것이라는 것을 짐작할 수 있음
- 도서관의 분류 코드는 사람이 임의로 만들어놓고 분류
- 임베딩은 도서 분류 코드와 달리 데이터에 딥러닝을 적용해서 만든 것
문서 및 단어 임베딩
- 문서를 검색할 때
- 문서를 구성하는 수많은 단어들을 일일이 비교하는 것은 시간이 많이 걸림
- 중요하지 않은 단어, 유의어 등의 비교 문제
- 문서의 의미를 보존하면서 적은 개수의 수로 표현하는 임베딩이 필요
- 단어도 임베딩으로 표현할 수 있음
- 단어 검색, 비교
- 대형 언어 모델에 단어들을 입력할 때
- 문서를 구성하는 단어의 임베딩을 평균 내어 문서 임베딩을 도출할 수도 있음
임베딩을 만드는 방법
- 통계적 방법
- LSA, NMF 등
- 적은 데이터로 빠르게 만들 수 있음
- 상대적으로 해석이 쉬움
- 복잡한 처리에서 정확도가 떨어짐
- 딥러닝을 이용한 방법
- 대량의 데이터가 필요
- 해석이 어려움
- 복잡한 처리에서 정확도가 높음