자연어처리
자연어 처리 기법 개요 - 단어를 의미로
수터디
2022. 8. 24. 23:40
[분포 가설 기반]
1. 통계 기반 기법
1) 시소러스
2) PPMI 행렬로 변환: 단어 등장 횟수 고려
3) SVD: Sparse Matrix to Dense Matrix
2. 추론 기반 기법 : 단어가 출현할 확률을 학습하는 방식
1) Word2Vec
- CBOW - 맥락이 주어짐
: Continuous bag-of-words. 맥락(주변 단어)으로부터 target(중심 단어)을 추측
: Softmax, CE Loss 사용
: Posterior Priority를 모델링 한다 P(W_t | W_(t-1), W_(t+1)) - skip-gram - 맥락을 맞춰야함
: skip-gram이 어려운 문제를 푸는 만큼 CBOW 대비 성능이 좋다(고 설명함)
※ 통계/추론 기법 간 성능에 뚜렷한 우열은 없다