월례발표회 자료
2018년 4월: 박진호 (서울대)
관리자 2018.04.19 1115

언어 연구에서 딥러닝의 가지 활용 사례

박진호 (서울대학교)



유사표현들의 사용 조건에 어떤 차이가 있는지는 언어 연구 언어 교육에서 중요한 주제라 있다. '오히려', '차라리', '도리어' 그러한 유사표현의 사례이다. 29 어절 규모의 한국어 말뭉치에서 추출한 부사의 용례 89만개를 가지고 딥러닝을 통해 신경망을 학습시켰다. 결과 인간보다 우수한 90% 정확도를 보였다. heatmap 통해 신경망이 부사의 판단에 사용한 단서를 조사해 보니, 노이즈도 들어 있지만, 인간 연구자가 미처 생각하지 못한 것들도 포함되어 있었다.

두번째로, 연대가 알려져 있는 국어사 자료를 가지고 신경망을 학습시켜 연대 미상의 국어사 자료의 연대를 추정할 있는 모델을 만들었다. 유사표현 판단이 분류 문제라면, 연대 추정은 회귀 문제이다. 유사표현 판단에서는 형태소 단위의 embedding 사용했는데, 여기서는 글자 단위의 embedding 사용했다. 신경망 학습시 샘플의 크기가 길수록, 그리고 샘플의 수가 많을수록 학습에 유리한데, 국어사 자료의 총량이 정해져 있으므로 샘플의 길이와 수는 trade-off 관계에 있다. 여러 조건으로 실험해 결과 샘플 길이 300자일 가장 좋은 결과를 낳았다. 모니터링할 metric으로 MSE 사용했을 때보다는 MAE 사용했을 결과가 좋았고, CNN 모델을 가지로 결과

×