KSLI
    2018년 4월: 신효필 (서울대)
    

단어 임베딩(Word Embedding) 하위단어(subword) 모델
신효필 (서울대학교)



현재 의미의 분포가설(distributional hypothesis) 바탕을 단어 임베딩 연구와 이를 활용한 자연언어처리 방법론이 활발히 개발되고 있다. 단어 임베딩 모델로는 대표적인 Word2Vec 비롯하여 GloVe, FastText 등이 있으며 관련 모듈이 다양하게 제공되고 있다.

단어 임베딩 모델을 사용한 언어 연구도 의미론, 역사언어학, 사회언어학 여러 분야에서 활발히 이루어지고 있다. 단어 임베딩은 기본적으로 코퍼스에서 단어와 주변 환경을 최적화하는 가중치를 찾는 작업이기 때문에 정확한 임베딩 모델을 얻기 위해서는 학습 자료의 정결성이 매우 중요하다. 영어는 형태적으로 고립어에 가까워 코퍼스 자체로 학습해도 단어들 사이의 분포적 특징을 포착할 있는 반면, 한국어와 같은 교착어는 형태론적으로 복잡한 구성을 보이기 때문에 어절 단위로 그대로 학습할 경우 개별 단어의 빈도가 대부분 낮기 때문에 유의미한 분포 정보를 얻기 어렵다. 따라서 단어 임베딩 연구에서는 대개 형태소 분석을 통한 형태소 단위의 임베딩을 하고 있다. 그러나 형태소 분석기의 부정확성과 대규모 자료의 분석에 상당한 시간이 걸리는 문제뿐만 아니라 세밀하게 분석된 형태소 연쇄가 언어연구 분야에 따라 도움이 되는지는 고려해 필요가 있다.

발표에서는 단어 임베딩의 기본 개념에서부터 Word2Vec, Glove, FastText 특징을 살펴보고 모델에 따른 임베딩 결과를 살펴본다. 또한 단어를 형태소 단위가 아닌 음절의 연쇄, 자음과 모음의 연쇄, 나아가 초성, 중성, 종성의 연쇄로 파악하여 한국어 임베딩 모델을 구축할 경우의 특징을