관련성 피드백
관련성 피드백 Relevance Feedback
- 검색 결과에 대해 사용자가 관련성을 평가 → 피드백을 바탕으로 질의를 수정
- 기본 절차:
- 사용자: 짧고 간단한 질의를 입력
- 시스템: 초기 검색 결과 세트를 반환
- 사용자: 반환된 일부 문서를 관련/비관련으로 표시
- 시스템: 사용자 피드백을 기반으로 수정된 검색 결과 표시
- 위의 과정 반복
- 단점: 사용자가 일일이 피드백 하기 번거로움
Rocchio 알고리즘
- 문서와 질의를 모두 벡터로 표현
- 새로운 질의 = 원래 질의 + 관련 있는 문서 평균 – 관련 없는 문서 평균
관련성 피드백의 전제 조건
- 사용자가 원하는 문서와 연관된 초기 질의를 할 수 있을 만큼의 지식은 있어야
- 철자 오류, 언어가 다른 경우 등에는 맞지 않음
- 관련 문서가 서로 유사해서 하나의 중심에 모여있어야
- 특히 Rocchio 알고리즘은 평균점을 기준으로 작동하므로 중요
- 관련 문서가 여러 개의 중심을 가지는 경우는 맞지 않음
- "버마"와 "미얀마"처럼 동의어인 경우
- "버거킹에서 일했던 팝스타"처럼 두 개념의 교집합인 경우
- "고양이"처럼 큰 일반적 개념인 경우
- 사용자가 적극적으로 검색할 의지가 있는 경우
비슷한 결과 보기
- 특정 검색 결과를 선택하면 비슷한
결과를 보여줌
- 관련성 피드백의 매우 간단한 형태로 볼 수 있음
- 예: 구글 이미지 검색
관련성 피드백의 평가
- 초기 질의와 수정된 질의의 검색 결과를 비교하여 평가
- 문제: 수정된 질의에는 사용자가 선택한 문서가 포함되므로 공정하지 않음
- 사용자가 선택한 문서를 제외하고 나머지 문서만 대상으로만 평가
- 문제: 사용자가 선택한 문서가 관련 문서 거의 전부면,
수정된 질의가 더 부정확하다고 평가될 수도 있음
- 검색할 문서 집합을 2개로 나누어 평가
- 집합 1은 초기 질의에만 사용, 집합 2는 수정된 질의에만 사용
- 사용자 A/B 테스트
- 실제 사용자에게 특정 문서를 검색하게 하여, 관련성 피드백 기능이 있는 경우와 없는 경우에 원하
는 결과를 찾는데 얼만큼 도움을 주는지 확인
유사 관련성 피드백 Pseudo RF
- 사용자 참여 없이 관련성 피드백을 하는 방법
- blind RF라고도 함
- 검색 결과는 상위에 나온 문서는 모두 관련된 것으로 간주
- 실제로 관련된 것이 아니므로 유사(pseudo) 관련성
- 절차:
- 사용자가 입력한 질의로 검색
- 검색 결과에서 k개의 상위 문서를 선정
- 이 문서들에서 n개의 주요 단어 추출
- 추출된 단어를 추가하여 질의를 확장
- 재검색
- 관련 있는 문서들은 서로 비슷하고, 비슷한 단어들이 반복
→ 반복 단어들을 추가하여 질의를 확장하면 관련 문서를 더 쉽게 찾을 수 있음
간접 관련성 피드백 Indirect RF
- 사용자로부터 직접 피드백을 받지 않고 간접적인 피드백을 받음
- 예: 검색 결과 중에 사용자가 클릭했거나, 클릭 후 오래 체류한 결과가 관련된 결과
- 다수의 사용자를 가진 검색 서비스의 경우 여러 명의 사용자로부터 간접적 피드백을 받아 유사 질의에
대해 관련성 피드백으로 사용할 수 있음
- 사용자의 행동이 질의의 관련성과 일치하지 않을 수 있음
- 예: 찾으려던 문서는 아니지만 그냥 재밌어 보여서 클릭
- 사용자는 자신의 행동이 관련성 피드백으로 사용될 것을 알 수 없음