한국언어정보학회

월례발표회

최근 프로그램

한국언어정보학회 2018학년도 1학기 4월 월례 발표회 일정표

관리자 2018.04.08 1738

한국언어정보학회 2018학년도 1학기 4월 월례 발표회 일정표
(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)

날짜	시간	발표자		발표제목	사회
4/14 (토)	09:30 10:10	신효필 (서울대)	단어 임베딩(Word Embedding)과 하위단어(subword) 모델		이은경 (서울대)
	10:10 10:50	최재웅 (고려대)	숫자로 표상된 의미: 기계학습 도구 Word2Vec 사용기
	Break (10분)
	11:00 11:40	박진호 (서울대)		언어연구에서 딥러닝의 몇 가지 활용 사례
	11:40 12:20	장세은 ∙ 김재훈 (한국해양대)		셰익스피어 비극 작품의 주요 등장인물 간의 대화코퍼스 기반 감성분석[1]

[4월 첫번째] 단어 임베딩(Word Embedding)과 하위단어(subword) 모델

신효필 (서울대학교)

현재 의미의 분포가설(distributional hypothesis)에 바탕을 둔 단어 임베딩 연구와 이를 활용한 자연언어처리 방법론이 활발히 개발되고 있다. 단어 임베딩 모델로는 대표적인 Word2Vec을 비롯하여 GloVe, FastText 등이 있으며 관련 모듈이 다양하게 제공되고 있다.

단어 임베딩 모델을 사용한 언어 연구도 의미론, 역사언어학, 사회언어학 등 여러 분야에서 활발히 이루어지고 있다. 단어 임베딩은 기본적으로 코퍼스에서 한 단어와 그 주변 환경을 최적화하는 가중치를 찾는 작업이기 때문에 정확한 임베딩 모델을 얻기 위해서는 학습 자료의 정결성이 매우 중요하다. 영어는 형태적으로 고립어에 가까워 코퍼스 그 자체로 학습해도 단어들 사이의 분포적 특징을 포착할 수 있는 반면, 한국어와 같은 교착어는 형태론적으로 복잡한 구성을 보이기 때문에 어절 단위로 그대로 학습할 경우 개별 단어의 빈도가 대부분 낮기 때문에 유의미한 분포 정보를 얻기 어렵다. 따라서 단어 임베딩 연구에서는 대개 형태소 분석을 통한 형태소 단위의 임베딩을 하고 있다. 그러나 형태소 분석기의 부정확성과 대규모 자료의 분석에 상당한 시간이 걸리는 문제뿐만 아니라 세밀하게 분석된 형태소 연쇄가 언어연구 분야에 따라 도움이 되는지는 고려해 볼 필요가 있다.

본 발표에서는 단어 임베딩의 기본 개념에서부터 Word2Vec, Glove, FastText의 특징을 살펴보고 각 모델에 따른 임베딩 결과를 살펴본다. 또한 단어를 형태소 단위가 아닌 음절의 연쇄, 자음과 모음의 연쇄, 더 나아가 초성, 중성, 종성의 연쇄로 파악하여 한국어 임베딩 모델을 구축할 경우의 특징을 살펴보도록 한다. 이런 접근은 어절 단위의 모델이 단어의 내적 구조(internal structure)를 반영하지 못하는 점을 극복하기 위한 일종의 하위단어(subword) 모델이라고 할 수 있다. 이런 단어 임베딩 모델과 어휘 연쇄 모형을 바탕으로 한국어 연구에 적합한 모델과 연쇄 모형은 무엇인지 살펴보도록 한다.

[4월 두번째] 숫자로 표상된 의미: 기계학습 도구 Word2Vec 사용기
최재웅 (고려대학교)

이 발표에서는 우선 언어학에서의 의미표상의 관점에서 의미의 수량화 문제를 간략히 살펴본 뒤에, 그러한 방향의 대표적 기법인 단어벡터화/단어임베딩 모형을 이용한 의미표상 및 의미조작 방법론을 소개한다. 이러한 배경을 바탕으로 최근에 각광을 받는 단어임베딩 모형 도출 기법인 기계학습 도구 Word2Vec을 한국어 자료에 적용해본 결과를 중심으로 언어학적 활용 가능성을 타진해 본다. 구체적으로 Word2Vec의 도출 결과물인 어휘/형태소 별 유사도 목록, 어휘 클래스별 목록, 어휘간 추론/유추 목록 등을 살펴본다. 아울러 단일 형태소/어휘를 넘어서 좀 더 탄력적으로 어휘간 관계를 확대해 볼 수 있는 기법을 활용한 결과도 검토해 본다.

[4월 세번째] 언어 연구에서 딥러닝의 몇 가지 활용 사례
박진호 (서울대학교)

유사표현들의 사용 조건에 어떤 차이가 있는지는 언어 연구 및 언어 교육에서 중요한 주제라 할 수 있다. '오히려', '차라리', '도리어'도 그러한 유사표현의 사례이다. 29억 어절 규모의 한국어 말뭉치에서 추출한 이 세 부사의 용례 89만개를 가지고 딥러닝을 통해 신경망을 학습시켰다. 그 결과 인간보다 우수한 약 90%의 정확도를 보였다. heatmap을 통해 신경망이 이 세 부사의 판단에 사용한 단서를 조사해 보니, 노이즈도 들어 있지만, 인간 연구자가 미처 생각하지 못한 것들도 포함되어 있었다.

두번째로, 연대가 알려져 있는 국어사 자료를 가지고 신경망을 학습시켜 연대 미상의 국어사 자료의 연대를 추정할 수 있는 모델을 만들었다. 유사표현 판단이 분류 문제라면, 연대 추정은 회귀 문제이다. 유사표현 판단에서는 형태소 단위의 embedding을 사용했는데, 여기서는 글자 단위의 embedding을 사용했다. 신경망 학습시 각 샘플의 크기가 길수록, 그리고 샘플의 수가 많을수록 학습에 유리한데, 국어사 자료의 총량이 정해져 있으므로 샘플의 길이와 수는 trade-off 관계에 있다. 여러 조건으로 실험해 본 결과 샘플 길이 300자일 때 가장 좋은 결과를 낳았다. 모니터링할 metric으로 MSE를 사용했을 때보다는 MAE를 사용했을 때 결과가 더 좋았고, CNN의 모델을 몇 가지로 해 본 결과 convolution layer 2개, 각 layer의 window 크기 2일 때 결과가 가장 좋았다. 표준 오차는 약 20년이었다.

세번째로, 세종 형태의미분석 말뭉치를 이용하여 딥러닝 기반 형태소분석기의 제작을 시도해 보았다. 형태소분석은 segmentation('흘렀다'를 '흐르+었+다'로 분석하는 것), labeling(분절된 각 token의 품사를 알아내는 것)의 두 단계로 나뉘고, 욕심을 더 내면 동형이의어에 대해 구별 번호(표준국어대사전의 어깨번호)를 붙이는 단계까지 생각할 수 있다. 여기서는 첫번째 단계의 실험을 해 보았다. 신경망 모델의 학습을 용이하게 하기 위해 segmentation 문제를 분류 문제로 formulate하였다. 즉 입력 어절(예: 흘렀다)과 원하는 출력(흐르+었+다)을 비교하여 입력으로부터 출력을 산출하기 위해 필요한 변형이라는 관점에서, 입력 문자열의 각 글자를 약 180개 유형으로 분류하였다. 신경망 모델은 입력된 문자열을 바탕으로 각 글자가 이 180개 유형 중 어느 유형인지를 판단하는 것이다. 두번째 단계의 labeling과 세번째 단계의 동형어 번호 부착도 분류 문제로 쉽게 formulate할 수 있다.

[4월 네번째] 셰익스피어 비극 작품의 주요 등장인물 간의 대화코퍼스 기반 감성분석
장세은 ∙ 김재훈 (한국해양대학교)

기존의 셰익스피어 작품 감성분석 연구는 Nielsen (2011)이 제시한 사전기반 알고리즘인 AFINN을 활용하여 작품의 등장인물 간 네트워크를 생성하여 PageRank 알고리즘을 응용하여 주요 등장인물의 특징을 살펴보고 기계학습 알고리즘을 사용하여 네트워크 분석을 시도하였다 (Nalisnkick 2013; Nalisnick and Baird 2013). 본 연구에서는 언어적 규칙기반 알고리즘이면서 단순한 사전 기반의 기계적인 감성분석보다 인간 중심적인 감성분석이 가능한 Hutto and Gilbert (2014)가 제시한 VADER 감성분석 알고리즘을 사용하여 셰익스피어 비극 작품의 대화코퍼스 기반으로 막(Acts)을 기준으로 작품 및 주요 등장인물의 감성의 변화와 추이변화 양상을 관찰하여 분석한다. VADER는 기존의 마이크로블로그 감성분석을 위한 사전들과는 달리 도메인에 제약되지 않는 사전이고 사전의 크기도 3배 이상의 차이(AFINN 2,477 단어 vs. VADER 7,517 단어)가 있고 AFINN은 저자 혼자 제작하여 각 단어에 매겨진 –5~+5 감정 점수에 대한 검증이 부족한 반면에 VADER는 10명의 전문가들이 참여하여 각 단어에 평균값을 –4~+4 점수로 부여하여 어느 정도 검증된 것으로 보인다. 그래서 Hutto and Gilbert (2014)에서는 VADER가 기존 사전 및 기계학습 알고리즘 (총 11가지)들과 비교했을 때 어느 특정분야는 사람의 정확도와 동일하게 나올 정도이고 가장 우수한 성과를 보여주는 감성분석 알고리즘이라고 주장하였다.