[text-mining] 텍스트 분석과 자연어 처리
텍스트 분석과 자연어 처리
- 자연어: 자연스럽게 생겨난 언어(한국어, 영어)
- 자연어의 특징: 일관된 규칙이 없고 애매모호함 → 규칙 기반의 처리가 작동하지 않음(쓰라린 교훈)
- 자연어 처리: 자연어로 된 데이터를 자동으로 처리하는 인공지능/컴퓨터공학의 한 분야
- 예: 고객 불만에 자동 응답하는 챗봇
- 텍스트 분석: 자연어 처리 기법을 이용한 데이터 분석, 자동화된 처리보다 가설의 검증 또는 인사이트의 도출이 목적
- 예: 고객 불만의 유형을 분석하여 제품 개선 방향을 도출
자연어의 애매성
"머리가 빨간 생선을 먹는 고양이"
- 2018년 메인주 노동법에서 초과 근무 수당을 면제하는 경우:
- "농축수산물과 부패하기 쉬운 식품의 통조림, 가공, 보존, 냉동, 건조, 마케팅, 보관, 운송 또는 유통을 위한 포장"
- 배달 기사들의 주장: "(운송 또는 유통을 위한) 포장"이 면제
- 유제품 회사들의 주장: "운송 또는 (유통을 위한 포장)"이 면제
- 미지급 초과 근무에 대한 합의안으로 500만 달러 지급
- 메인 주 의회는 해당 조항에 쉼표(Oxford comma)를 추가하여 "…, 운송, 또는 유통을 위한 포장"으로 수정