질의 확장
질의의 종류
- 정보 질의(informational query): 광범위한 주제
- 예: 고양이
- 탐색 쿼리(navigational query): 특정 웹사이트나 주소
- 예: 구글, 네이버
- 거래 쿼리(transactional query): 특정 활동을 실행하려는 사용자의 의도를 보여줌
- 예: 문서 다운로드 또는 신발 구매
부정확한 질의의 원인
- 정확한 검색을 위해서는 질의가 정확해야 함
- 사용자가 해당 분야에 대해 잘 모름(예: 의료)
- 사용자가 해당 언어를 모름(예: 외국어 검색)
- 사용자가 질의를 짧게 입력하는 경향
- 동의어(synonymy: 다른 단어가 같은 뜻)
- 예: 가족, 식구 등
- 다의어(polysemy: 같은 단어가 다른 뜻)가 있음 국가별 질의 길이
- 예: Java – 섬, 커피, 프로그래밍 언어 등
해결 방법
- 전역적 (global) 방법: 검색 결과와 관계 없이 검색어를 확장/재구성
- 질의 확장
- 철자 교정
- 국소적 (local) 방법: 질의와 일치하는 것으로 보이는 문서를 기준으로 질의를 조정
- 관련성 피드백
질의 확장 query expansion
- 질의 재작성(rewriting) 과정의 일부로서, 질의어를 추가하는 것
- 반대로 질의어를 제거하는 것은 완화(relaxation)
- 추가하는 질의어의 종류:
- 유의어 및 기타 의미상 관련 있는 단어(반의어, 상-하위어, 부분-전체 등)
- 한 단어의 다른 형태(명사, 동사, 형용사 등)
- 오타 및 맞춤법 수정
- 응용 예시:
- 한국어, 영어 등 여러 언어로 검색하는 경우
- 동일한 제품을 가리키는 용어가 여러 가지인 경우
Query expansion techniques for information retrieval: A survey
https://arxiv.org/abs/1708.00247
질의 확장의 데이터 소스
- 통제된 어휘(controlled vocabulary)
- 한 도메인에서 사용하는 표준 어휘를 편집자가 선정
- 예: "암(cancer)" →"신생물(neoplasm)"
- MeSH
- 유의어 사전(thesaurus)
- 표준 용어 대신 유의어 목록을 작성
- 서로 다른 언어(한국어-영어) 간에도 사용할 수 있음
- WordNet
- 개념망 또는 지식 그래프
- ConcentNet
- 머신러닝 기법을 이용한 유의어 사전
- 단어의 공기(cooccurrence) 통계 및 임베딩을 이용
- 질의 로그 마이닝
- 다른 사용자의 질의를 활용하여 새로운 사용자에게 제안
MeSH Medical Subject Headings
- 의학 용어 사전
- https://meshb.nlm.nih.gov
WordNet
- https://wordnet.princeton.edu
- 단어를 동의어 , 상위어(hypernym), 하위어(hyponym) 등의 의미 관계로 연결
- 175,979개의 의미집합(synset)
- 155,327개의 단어
- 일부 단어의 이미지를 수집한 것이 이미지넷(ImageNet)
ConceptNet
- https://conceptnet.io
- 의미망(semantic network)
- 개념 간의 의미적 관계를 네트워크로 표현한 것