자연어처리

자연어 처리 기법 개요 - 단어를 의미로

수터디 2022. 8. 24. 23:40

[분포 가설 기반]

1. 통계 기반 기법

  1) 시소러스

  2) PPMI 행렬로 변환: 단어 등장 횟수 고려

  3) SVD: Sparse Matrix to Dense Matrix

 

2. 추론 기반 기법 : 단어가 출현할 확률을 학습하는 방식

  1) Word2Vec 

  • CBOW - 맥락이 주어짐
    : Continuous bag-of-words. 맥락(주변 단어)으로부터 target(중심 단어)을 추측
    : Softmax, CE Loss 사용
    : Posterior Priority를 모델링 한다 P(W_t | W_(t-1), W_(t+1))
  • skip-gram - 맥락을 맞춰야함
    : skip-gram이 어려운 문제를 푸는 만큼 CBOW 대비 성능이 좋다(고 설명함)

 

※ 통계/추론 기법 간 성능에 뚜렷한 우열은 없다