KSLI
    2018년 4월: 신효필 (서울대)
    

단어 임베딩(Word Embedding) 하위단어(subword) 모델
신효필 (서울대학교)



현재 의미의 분포가설(distributional hypothesis) 바탕을 단어 임베딩 연구와 이를 활용한 자연언어처리 방법론이 활발히 개발되고 있다. 단어 임베딩 모델로는 대표적인 Word2Vec 비롯하여 GloVe, FastText 등이 있으며 관련 모듈이 다양하게 제공되고 있다.

단어 임베딩 모델을 사용한 언어 연구도 의미론, 역사언어학, 사회언어학 여러 분야에서 활발히 이루어지고 있다. 단어 임베딩은 기본적으로 코퍼스에서 단어와 주변 환경을 최적화하는 가중치를 찾는 작업이기 때문에 정확한 임베딩 모델을 얻기 위해서는 학습 자료의 정결성이 매우 중요하다. 영어는 형태적으로 고립어에 가까워 코퍼스 자체로 학습해도 단어들 사이의 분포적 특징을 포착할 있는 반면, 한국어와 같은 교착어는 형태론적으로 복잡한 구성을 보이기 때문에 어절 단위로 그대로 학습할 경우 개별 단어의 빈도가 대부분 낮기 때문에 유의미한 분포 정보를 얻기 어렵다. 따라서 단어 임베딩 연구에서는 대개 형태소 분석을 통한 형태소 단위의 임베딩을 하고 있다. 그러나 형태소 분석기의 부정확성과 대규모 자료의 분석에 상당한 시간이 걸리는 문제뿐만 아니라 세밀하게 분석된 형태소 연쇄가 언어연구 분야에 따라 도움이 되는지는 고려해 필요가 있다.

발표에서는 단어 임베딩의 기본 개념에서부터 Word2Vec, Glove, FastText 특징을 살펴보고 모델에 따른 임베딩 결과를 살펴본다. 또한 단어를 형태소 단위가 아닌 음절의 연쇄, 자음과 모음의 연쇄, 나아가 초성, 중성, 종성의 연쇄로 파악하여 한국어 임베딩 모델을 구축할 경우의 특징을

• 학회 사무국: [우 02447] 서울시 동대문구 경희대로 26 경희대학교 언어정보연구소 (네오르네상스관 지하 108호)
전화: (02) 961-0211, 이메일: ksligeneral@gmail.com
• 학회 재무/계좌: 카카오뱅크 7979-76-87731 (예금주: 재무이사 남윤주 교수)
[우 04763] 서울시 성동구 왕십리로 222 한양대학교 인문과학대학 독어독문학과 남윤주 교수 연구실
전화: (02) 2220-0765, 이메일: yjnam05@hanyang.ac.kr
• KCI 등재지 [언어와 정보] 편집위원회: 온라인 논문투고 시스템 JAMS 바로가기: https://ksli.jams.or.kr/
[우 04066] 서울특별시 마포구 와우산로 94(상수동) 홍익대학교 사범대학 영어교육과 임동식 교수 연구실
전화: (02) 320-1860, 이메일: kslijournal@gmail.com
개인정보취급방침 | 이용약관 | 이메일 무단수집거부
  ERROR! : 팝업창 출력 지정이 잘못되었습니다.