logo

[text-mining] 텍스트 분석의 종류와 사례

텍스트 분석의 종류와 사례

 

감성 분석

  • 텍스트에서 나타나는 감성을 분석하여 긍정, 부정, 중립 등의 감성을 파악
 

텍스트를 통한 평가

 

토픽 모델링

  • 텍스트에서 자주 함께 사용되는 단어들 → 특정한 토픽을 반영
  • 대량의 문서에서 토픽을 자동으로 추출 → 토픽에 대한 키워드 및 문서를 파악
  • 개별적인 단어를 보는 것보다 의미 파악이 쉬움
 

토큰 분류 token classification

  • 토큰: 글을 이루는 구성 요소로서 분석의 기본 단위(단어, 형태소 등)
  • 개체명 인식 named entity recognition: 텍스트에 나타난 이름을 인식
  • 게임에서 욕설 등에 해당하는 표현 찾기
  • 정보 추출: 텍스트에서 구조화된 정보를 추출
  • 이메일에서 일정 추출, 소셜 미디어에 언급된 사람 이름 추출 등
 

개체명 인식 Named Entity Recognition

  • 사람, 장소, 단체 등 특정한 종류의 이름(개체명)을 인식
  • 텍스트에 나타난 표현 중에 '이름'에 해당하는 것을 인식하고 분류
  • 신문 기사에서 행사, 장소, 날짜 등을 추출
  • 챗봇에서 메뉴, 수량 등을 추출
  • 텍스트에서 특정한 종류의 정보를 추출하고자 할 때 가장 기본이 됨
  • 예: 챗봇에서 주문을 처리하려면 상품명을 인식할 필요가 있음
  • 이름은 여러 단어로 되어 있을 수도 있고, 계속해서 새로운 이름이 생기기 때문에 사전으로 만들기도 어려움
 

Seq2Seq

  • 단어 시퀀스(=문장)을 입력 받아, 새로운 시퀀스를 생성하는 형태의 인공지능
  • 번역: 한 언어의 문장을 입력 받아, 다른 언어의 문장을 생성
  • 요약: 긴 문장을 입력 받아, 짧은 문장을 생성
  • 챗봇: 사용자의 질문을 입력 받아 답변을 생성
 

Semantic Textual Similarity

  • 두 텍스트가 의미적으로 비슷한 지 예측하는 과제
  • 자연어 추론과 비슷하나, 논리적 관계가 아닌 의미적 유사성
  • 단어가 아닌 의미가 비슷한 문서를 검색하는 데 활용할 수 있음
  • 이를 바탕으로 챗봇, 표절 탐지 등에 확장 가능
 

이야기의 구조 분석

  • 4만편 이상의 전통적 이야기에서 단계별로 주로 나오는 단어들을 분류
  • 초반에는 캐릭터와 상황을 소개하는 단어들이 많이 나옴
  • 중반으로 접어들면서 인지적 긴장과 관련된 단어들이 증가했다가, 후반으로 가면서 감소
  • 후반으로 갈 수록 이야기의 전개와 관련된 단어들이 증가
  • Boyd et al. (2020). The narrative arc: Revealing core narrative structures through text analysis. Science Advances, 2020, 6.
 

구글 북스 엔그램 뷰어

  • 1500년~2019년 영어, 중국어 등 출판물의 n-gram 수를 검색하여 시각화해주는 도구
  • n-gram: n개의 연속된 단어 표현
 

왕의 통치 스타일

  • 박진영, 선우연, 오혜연 (2016) 텍스트 마이닝을 통한 조선왕조실록 내 왕의 통치 스타일 분석. 한국정보과학회 2016년 한국컴퓨터종합학술대회 논문집, 741 – 743.
 

양식측정학 stylometry

  • 텍스트 등에서 양식의 특성을 통계적으로 측정하는 학문
  • 연방주의자 논집(The Federalist Papers): 알렉산더 해밀턴, 제임스 매디슨, 존 제이 등이 미국 헌법을 지지하기 위해 작성한 논문의 모음
  • 푸블리우스라는 필명으로 작성하였으나 85편 중 73편의 저자는 알려져 있음
  • 12편의 저자는 불분명
  • to, would, upon의 사용패턴으로 볼 때 12편의 저자는 매디슨으로 추정
  • Fung, Glenn (2003). The Disputed Federalist Papers: SVM Feature Selection via Concave Minimization. Journal of the ACM
 

Richmond Daily Dispatch

  • 미국 남북전쟁 시기 남부연합의 수도 버지니아주 리치몬드에서 발행된 신문
  • 1860년 링컨의 선거 전날부터 1865년 남북전쟁 리치몬드 함락까지 기사의 토픽을 모델링하여, 40개의 토픽을 발견 https://dsl.richmond.edu/dispatch/
  • 9번 토픽: reward, years, feet, high, negro, dollars 등의 단어를 포함하는 토픽(도망친 노예를 잡아오면 보상을 준다는 광고)
  • 1862년과 64년 여름에 북군이 리치몬드 인근까지 진격
Previous
텍스트 분석과 자연어 처리
Next
의미