logo

질의 확장

질의의 종류

  • 정보 질의(informational query): 광범위한 주제
    • 예: 고양이
  • 탐색 쿼리(navigational query): 특정 웹사이트나 주소
    • 예: 구글, 네이버
  • 거래 쿼리(transactional query): 특정 활동을 실행하려는 사용자의 의도를 보여줌
    • 예: 문서 다운로드 또는 신발 구매

부정확한 질의의 원인

  • 정확한 검색을 위해서는 질의가 정확해야 함
  • 사용자가 해당 분야에 대해 잘 모름(예: 의료)
  • 사용자가 해당 언어를 모름(예: 외국어 검색)
  • 사용자가 질의를 짧게 입력하는 경향
  • 동의어(synonymy: 다른 단어가 같은 뜻)
    • 예: 가족, 식구 등
  • 다의어(polysemy: 같은 단어가 다른 뜻)가 있음 국가별 질의 길이
    • 예: Java – 섬, 커피, 프로그래밍 언어 등

해결 방법

  • 전역적 (global) 방법: 검색 결과와 관계 없이 검색어를 확장/재구성
    • 질의 확장
    • 철자 교정
  • 국소적 (local) 방법: 질의와 일치하는 것으로 보이는 문서를 기준으로 질의를 조정
    • 관련성 피드백

질의 확장 query expansion

  • 질의 재작성(rewriting) 과정의 일부로서, 질의어를 추가하는 것
    • 반대로 질의어를 제거하는 것은 완화(relaxation)
  • 추가하는 질의어의 종류:
    • 유의어 및 기타 의미상 관련 있는 단어(반의어, 상-하위어, 부분-전체 등)
    • 한 단어의 다른 형태(명사, 동사, 형용사 등)
    • 오타 및 맞춤법 수정
  • 응용 예시:
    • 한국어, 영어 등 여러 언어로 검색하는 경우
    • 동일한 제품을 가리키는 용어가 여러 가지인 경우

Query expansion techniques for information retrieval: A survey

https://arxiv.org/abs/1708.00247

질의 확장의 데이터 소스

  • 통제된 어휘(controlled vocabulary)
    • 한 도메인에서 사용하는 표준 어휘를 편집자가 선정
    • 예: "암(cancer)" →"신생물(neoplasm)"
    • MeSH
  • 유의어 사전(thesaurus)
    • 표준 용어 대신 유의어 목록을 작성
    • 서로 다른 언어(한국어-영어) 간에도 사용할 수 있음
    • WordNet
  • 개념망 또는 지식 그래프
    • ConcentNet
  • 머신러닝 기법을 이용한 유의어 사전
    • 단어의 공기(cooccurrence) 통계 및 임베딩을 이용
  • 질의 로그 마이닝
    • 다른 사용자의 질의를 활용하여 새로운 사용자에게 제안

MeSH Medical Subject Headings

WordNet

  • https://wordnet.princeton.edu
  • 단어를 동의어 , 상위어(hypernym), 하위어(hyponym) 등의 의미 관계로 연결
  • 175,979개의 의미집합(synset)
  • 155,327개의 단어
  • 일부 단어의 이미지를 수집한 것이 이미지넷(ImageNet)

ConceptNet

  • https://conceptnet.io
  • 의미망(semantic network)
  • 개념 간의 의미적 관계를 네트워크로 표현한 것
Previous
Rank Fusion