logo

관련성 피드백

관련성 피드백

관련성 피드백 Relevance Feedback

  • 검색 결과에 대해 사용자가 관련성을 평가 → 피드백을 바탕으로 질의를 수정
  • 기본 절차:
    • 사용자: 짧고 간단한 질의를 입력
    • 시스템: 초기 검색 결과 세트를 반환
    • 사용자: 반환된 일부 문서를 관련/비관련으로 표시
    • 시스템: 사용자 피드백을 기반으로 수정된 검색 결과 표시
    • 위의 과정 반복
  • 단점: 사용자가 일일이 피드백 하기 번거로움

Rocchio 알고리즘

  • 문서와 질의를 모두 벡터로 표현
  • 새로운 질의 = 원래 질의 + 관련 있는 문서 평균 – 관련 없는 문서 평균

관련성 피드백의 전제 조건

  • 사용자가 원하는 문서와 연관된 초기 질의를 할 수 있을 만큼의 지식은 있어야
  • 철자 오류, 언어가 다른 경우 등에는 맞지 않음
  • 관련 문서가 서로 유사해서 하나의 중심에 모여있어야
    • 특히 Rocchio 알고리즘은 평균점을 기준으로 작동하므로 중요
  • 관련 문서가 여러 개의 중심을 가지는 경우는 맞지 않음
    • "버마"와 "미얀마"처럼 동의어인 경우
    • "버거킹에서 일했던 팝스타"처럼 두 개념의 교집합인 경우
    • "고양이"처럼 큰 일반적 개념인 경우
  • 사용자가 적극적으로 검색할 의지가 있는 경우

비슷한 결과 보기

  • 특정 검색 결과를 선택하면 비슷한 결과를 보여줌
  • 관련성 피드백의 매우 간단한 형태로 볼 수 있음
  • 예: 구글 이미지 검색
    • 이미지 선택 시 비슷한 이미지를 보여줌

관련성 피드백의 평가

  • 초기 질의와 수정된 질의의 검색 결과를 비교하여 평가
    • 문제: 수정된 질의에는 사용자가 선택한 문서가 포함되므로 공정하지 않음
  • 사용자가 선택한 문서를 제외하고 나머지 문서만 대상으로만 평가
    • 문제: 사용자가 선택한 문서가 관련 문서 거의 전부면, 수정된 질의가 더 부정확하다고 평가될 수도 있음
  • 검색할 문서 집합을 2개로 나누어 평가
    • 집합 1은 초기 질의에만 사용, 집합 2는 수정된 질의에만 사용
  • 사용자 A/B 테스트
    • 실제 사용자에게 특정 문서를 검색하게 하여, 관련성 피드백 기능이 있는 경우와 없는 경우에 원하 는 결과를 찾는데 얼만큼 도움을 주는지 확인

유사 관련성 피드백 Pseudo RF

  • 사용자 참여 없이 관련성 피드백을 하는 방법
  • blind RF라고도 함
  • 검색 결과는 상위에 나온 문서는 모두 관련된 것으로 간주
    • 실제로 관련된 것이 아니므로 유사(pseudo) 관련성
  • 절차:
    • 사용자가 입력한 질의로 검색
    • 검색 결과에서 k개의 상위 문서를 선정
    • 이 문서들에서 n개의 주요 단어 추출
    • 추출된 단어를 추가하여 질의를 확장
    • 재검색
  • 관련 있는 문서들은 서로 비슷하고, 비슷한 단어들이 반복 → 반복 단어들을 추가하여 질의를 확장하면 관련 문서를 더 쉽게 찾을 수 있음

간접 관련성 피드백 Indirect RF

  • 사용자로부터 직접 피드백을 받지 않고 간접적인 피드백을 받음
  • 예: 검색 결과 중에 사용자가 클릭했거나, 클릭 후 오래 체류한 결과가 관련된 결과
  • 다수의 사용자를 가진 검색 서비스의 경우 여러 명의 사용자로부터 간접적 피드백을 받아 유사 질의에 대해 관련성 피드백으로 사용할 수 있음
  • 사용자의 행동이 질의의 관련성과 일치하지 않을 수 있음
    • 예: 찾으려던 문서는 아니지만 그냥 재밌어 보여서 클릭
  • 사용자는 자신의 행동이 관련성 피드백으로 사용될 것을 알 수 없음
Previous
퍼지 매칭