text = '오늘은 자연어 처리를 배우기 좋은 날이다.'
result = kiwi.tokenize(text)
result
kiwi 품사 태그
분류
태그
설명
체언(N)
NNG
일반 명사
NNP
고유 명사
NNB
의존 명사(것, 수)
NR
수사
NP
대명사(이것, 저것)
용언(V)
VV
동사(가다)
VA
형용사(아름답다)
VX
보조 용언(주다)
VCP
긍정 지시사(이다)
VCN
부정 지시사(아니다)
수식언(M)
MM
관형사(어느, 한)
MAG
일반 부사(매우)
MAJ
접속 부사(그리고)
독립언(I)
IC
감탄사(와!)
조사(J)
JKS
주격 조사(이, 가)
JKC
보격 조사(이, 가)
JKG
관형격 조사(의)
JKO
목적격 조사(을, 를)
JKB
부사격 조사(로)
JKV
호격 조사(야)
JKQ
인용격 조사(라고)
JX
보조사(은, 는)
JC
접속 조사(와, 과)
어미(E)
EP
선어말 어미(-었-)
EF
종결 어미(-다)
EC
연결 어미(-고)
ETN
명사형 전성 어미(-기)
ETM
관형형 전성 어미(-는)
어근(XR)
XR
어근(훌륭)
접사(X)
XPN
체언 접두사(맨-)
XSN
명사 파생 접미사(들)
XSV
동사 파생 접미사(되다)
XSA
형용사 파생 접미사(롭다)
부호(S)
SF
종결 부호(. ! ?)
SP
구분 부호(, / : ;)
SS
인용 부호 및 괄호(' ")
SE
줄임표(...)
SO
붙임표(-)
SW
기타 특수 문자
SL
알파벳(A-Z a-z)
SH
한자
SN
숫자(0-9)
기타(W, U)
W_URL
URL 주소
W_EMAIL
이메일 주소
W_HASHTAG
해시태그(#abcd)
W_MENTION
멘션(@abcd)
UN
분석 불능
일반적으로 많이 사용하는 품사 태그
NNG 일반 명사
NNP 고유 명사
VV 동사
VA 형용사
XR 어근
kiwi 명사 추출 함수
defextract_nouns(text):
result = kiwi.tokenize(text)
for token in result:
if token.tag in ['NNG', 'NNP']:
yield token.form
# 사용 예시list(extract_nouns('어제는 홍차를 마시고, 오늘은 커피를 마셨다.'))
한국어 문서 단어 행렬 만들기
# 데이터import pandas as pd
df = pd.read_csv('news_ai.csv')
# 고유 명사 추가
kiwi.add_user_word('인공지능', 'NNP')
from sklearn.feature_extraction.text import CountVectorizer
# extract_nouns 함수로 토큰화하여 문서단어행렬 만들기
cv = CountVectorizer(max_features=100, tokenizer=extract_nouns)
dtm = cv.fit_transform(df['본문'])