KSLI
  8
    연구발표회 » 한국언어정보학회 2018학년도 1학기 4월 월례 발표회 일정표
    

한국언어정보학회 2018학년도 1학기 4 월례 발표회 일정표
(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)



날짜

시간

발표자

발표제목

사회

4/14
(
)

09:30
10:10

신효필 (서울대)

단어 임베딩(Word Embedding)과 하위단어(subword) 모델

이은경
(
서울대)

10:10
10:50

최재웅 (고려대)

숫자로 표상된 의미: 기계학습 도구 Word2Vec 사용기

Break (10)

11:00
11:40

박진호 (서울대)

언어연구에서 딥러닝의 몇 가지 활용 사례

11:40
12:20

장세은 김재훈
(
한국해양대)

셰익스피어 비극 작품의 주요 등장인물 간의 대화코퍼스 기반 감성분석[1]

[4월 첫번째] 단어 임베딩(Word Embedding)과 하위단어(subword) 모델

신효필 (서울대학교)



현재 의미의 분포가설(distributional hypothesis)에 바탕을 둔 단어 임베딩 연구와 이를 활용한 자연언어처리 방법론이 활발히 개발되고 있다. 단어 임베딩 모델로는 대표적인 Word2Vec을 비롯하여 GloVe, FastText 등이 있으며 관련 모듈이 다양하게 제공되고 있다.

단어 임베딩 모델을 사용한 언어 연구도 의미론, 역사언어학, 사회언어학 등 여러 분야에서 활발히 이루어지고 있다. 단어 임베딩은 기본적으로 코퍼스에서 한 단어와 그 주변 환경을 최적화하는 가중치를 찾는 작업이기 때문에 정확한 임베딩 모델을 얻기 위해서는 학습 자료의 정결성이 매우 중요하다. 영어는 형태적으로 고립어에 가까워 코퍼스 그 자체로 학습해도 단어들 사이의 분포적 특징을 포착할 수 있는 반면, 한국어와 같은 교착어는 형태론적으로 복잡한 구성을 보이기 때문에 어절 단위로 그대로 학습할 경우 개별 단어의 빈도가 대부분 낮기 때문에 유의미한 분포 정보를 얻기 어렵다. 따라서 단어 임베딩 연구에서는 대개 형태소 분석을 통한 형태소 단위의 임베딩을 하고 있다. 그러나 형태소 분석기의 부정확성과 대규모 자료의 분석에 상당한 시간이 걸리는 문제뿐만 아니라 세밀하게 분석된 형태소 연쇄가 언어연구 분야에 따라 도움이 되는지는 고려해 볼 필요가 있다.



본 발표에서는 단어 임베딩의 기본 개념에서부터 Word2Vec, Glove, FastText의 특징을 살펴보고 각 모델에 따른 임베딩 결과를 살펴본다. 또한 단어를 형태소 단위가 아닌 음절의 연쇄, 자음과 모음의 연쇄, 더 나아가 초성, 중성, 종성의 연쇄로 파악하여 한국어 임베딩 모델을 구축할 경우의 특징을 살펴보도록 한다. 이런 접근은 어절 단위의 모델이 단어의 내적 구조(internal structure)를 반영하지 못하는 점을 극복하기 위한 일종의 하위단어(subword) 모델이라고 할 수 있다. 이런 단어 임베딩 모델과 어휘 연쇄 모형을 바탕으로 한국어 연구에 적합한 모델과 연쇄 모형은 무엇인지 살펴보도록 한다.

[4월 두번째] 
숫자로 표상된 의미: 기계학습 도구 Word2Vec 사용기
최재웅 (고려대학교)



이 발표에서는 우선 언어학에서의 의미표상의 관점에서 의미의 수량화 문제를 간략히 살펴본 뒤에, 그러한 방향의 대표적 기법인 단어벡터화/단어임베딩 모형을 이용한 의미표상 및 의미조작 방법론을 소개한다. 이러한 배경을 바탕으로 최근에 각광을 받는 단어임베딩  모형 도출 기법인 기계학습 도구 Word2Vec을 한국어 자료에 적용해본 결과를 중심으로 언어학적 활용 가능성을 타진해 본다. 구체적으로 Word2Vec의 도출 결과물인 어휘/형태소 별 유사도 목록, 어휘 클래스별 목록, 어휘간 추론/유추 목록 등을 살펴본다. 아울러 단일 형태소/어휘를 넘어서 좀 더 탄력적으로 어휘간 관계를 확대해 볼 수 있는 기법을 활용한 결과도 검토해 본다.

[4월 세번째] 
언어 연구에서 딥러닝의 몇 가지 활용 사례
박진호 (서울대학교) 



유사표현들의 사용 조건에 어떤 차이가 있는지는 언어 연구 및 언어 교육에서 중요한 주제라 할 수 있다. '오히려', '차라리', '도리어'도 그러한 유사표현의 사례이다. 29억 어절 규모의 한국어 말뭉치에서 추출한 이 세 부사의 용례 89만개를 가지고 딥러닝을 통해 신경망을 학습시켰다. 그 결과 인간보다 우수한 약 90%의 정확도를 보였다. heatmap을 통해 신경망이 이 세 부사의 판단에 사용한 단서를 조사해 보니, 노이즈도 들어 있지만, 인간 연구자가 미처 생각하지 못한 것들도 포함되어 있었다.

두번째로, 연대가 알려져 있는 국어사 자료를 가지고 신경망을 학습시켜 연대 미상의 국어사 자료의 연대를 추정할 수 있는 모델을 만들었다. 유사표현 판단이 분류 문제라면, 연대 추정은 회귀 문제이다. 유사표현 판단에서는 형태소 단위의 embedding을 사용했는데, 여기서는 글자 단위의 embedding을 사용했다. 신경망 학습시 각 샘플의 크기가 길수록, 그리고 샘플의 수가 많을수록 학습에 유리한데, 국어사 자료의 총량이 정해져 있으므로 샘플의 길이와 수는 trade-off 관계에 있다. 여러 조건으로 실험해 본 결과 샘플 길이 300자일 때 가장 좋은 결과를 낳았다. 모니터링할 metric으로 MSE를 사용했을 때보다는 MAE를 사용했을 때 결과가 더 좋았고, CNN의 모델을 몇 가지로 해 본 결과 convolution layer 2개, 각 layer의 window 크기 2일 때 결과가 가장 좋았다. 표준 오차는 약 20년이었다.



세번째로, 세종 형태의미분석 말뭉치를 이용하여 딥러닝 기반 형태소분석기의 제작을 시도해 보았다. 형태소분석은 segmentation('흘렀다'를 '흐르+었+다'로 분석하는 것), labeling(분절된 각 token의 품사를 알아내는 것)의 두 단계로 나뉘고, 욕심을 더 내면 동형이의어에 대해 구별 번호(표준국어대사전의 어깨번호)를 붙이는 단계까지 생각할 수 있다. 여기서는 첫번째 단계의 실험을 해 보았다. 신경망 모델의 학습을 용이하게 하기 위해 segmentation 문제를 분류 문제로 formulate하였다. 즉 입력 어절(예: 흘렀다)과 원하는 출력(흐르+었+다)을 비교하여 입력으로부터 출력을 산출하기 위해 필요한 변형이라는 관점에서, 입력 문자열의 각 글자를 약 180개 유형으로 분류하였다. 신경망 모델은 입력된 문자열을 바탕으로 각 글자가 이 180개 유형 중 어느 유형인지를 판단하는 것이다. 두번째 단계의 labeling과 세번째 단계의 동형어 번호 부착도 분류 문제로 쉽게 formulate할 수 있다.

[4월 네번째] 셰익스피어 비극 작품의 주요 등장인물 간의 대화코퍼스 기반 감성분석
장세은 ∙ 김재훈 (한국해양대학교)

기존의 셰익스피어 작품 감성분석 연구는 Nielsen (2011)이 제시한 사전기반 알고리즘인 AFINN을 활용하여 작품의 등장인물 간 네트워크를 생성하여 PageRank 알고리즘을 응용하여 주요 등장인물의 특징을 살펴보고 기계학습 알고리즘을 사용하여 네트워크 분석을 시도하였다 (Nalisnkick 2013; Nalisnick and Baird 2013). 본 연구에서는 언어적 규칙기반 알고리즘이면서 단순한 사전 기반의 기계적인 감성분석보다 인간 중심적인 감성분석이 가능한 Hutto and Gilbert (2014)가 제시한 VADER 감성분석 알고리즘을 사용하여 셰익스피어 비극 작품의 대화코퍼스 기반으로 막(Acts)을 기준으로 작품 및 주요 등장인물의 감성의 변화와 추이변화 양상을 관찰하여 분석한다. VADER는 기존의 마이크로블로그 감성분석을 위한 사전들과는 달리 도메인에 제약되지 않는 사전이고 사전의 크기도 3배 이상의 차이(AFINN 2,477 단어 vs. VADER 7,517 단어)가 있고 AFINN은 저자 혼자 제작하여 각 단어에 매겨진 –5~+5 감정 점수에 대한 검증이 부족한 반면에 VADER는 10명의 전문가들이 참여하여 각 단어에 평균값을 –4~+4 점수로 부여하여 어느 정도 검증된 것으로 보인다. 그래서 Hutto and Gilbert (2014)에서는 VADER가 기존 사전 및 기계학습 알고리즘 (총 11가지)들과 비교했을 때 어느 특정분야는 사람의 정확도와 동일하게 나올 정도이고 가장 우수한 성과를 보여주는 감성분석 알고리즘이라고 주장하였다.


 
Hutto and Gilbert (2014)

- 언어적 규칙기반 알고리즘인 VADER을 활용한 셰익스피어 비극작품 감성분석 연구
< Act별 4대 비극 작품의 감성 추이 변화 >
<Act별 10개 비극 작품의 감성 추이 변화>
AFINN

VADER를 활용한 Othello와 Desdemona의 감정분석 (라인별 누적 합)
Othello vs. all listeners 감성분석
Desdemona vs. all listeners 감성분석
Othello – Desmeona 간의 대화 감정분석 (각 라인별 단어 감정 점수 합)
※ Othello 비극 작품의 각 주요 등장인물의 긍정과 부정적 감정의 평균 값 비교
 Networks of Sentiment Analysis for Major Characters in CORIOLANUS 

  7
    연구발표회 » 2018학년도 1학기 3월 월례 발표회 일정표 및 초록
    

한국언어정보학회 2018학년도 1학기 3 월례 발표회 일정표
(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)



날짜

시간

발표자

발표제목

사회

3/17
(
)

09:30
10:10

김은아 (서울대)

The Role of Verb Argument Structure in L2 English Sentence Processing by Korean Learners

이용훈
(
충남대)





 




김지혜
(
한국교원대)

10:10
10:50

정은선 ∙ 이은경
 (서울시립대 ∙ 연세대)

Morpho-Syntactic Processing of Korean Case Markers

Break (10)

11:00
11:40

강상구 (청주대)

The Effect of Grammar in the Mental Simulation of Bilinguals

11:40
12:20

이용훈 김지혜
(
충남대
한국교원대)

Experimental Data and Deep Learning: Subjecthood Tests in Korean

 [3월 첫번째] The Role of Verb Argument Structure in L2 English Sentence Processing by Korean Learners
Eunah Kim (Seoul National University)


This study examines second language (L2) sentence processing with focus on the question of whether advanced Korean learners of English immediately use verb argument structure information to compute wh-dependencies. Thirty-two Korean learners and 24 native speakers of English participated in an online implausibility detection task. Participants read English sentences region by region and indicated whether the sentences were plausible or not at each region. Two manipulated factors were the thematic fit between the wh-phrase and the Theme role assigned by the verb (e.g., I wonder which book the child read in bed at night. vs. I wonder which food the child read in bed at night.) and the argument structure of the embedded verbs (e.g., transitive verbs, dative verbs, and object control verbs). The results showed that the timing of implausibility detection by native speakers differed depending on the verb type, suggesting that native speakers immediately consider verb argument structure information in the initial stage of wh-processing as proposed by constraint-based lexicalist models (e.g., McDonald, Maryellen, Pearlmutter, & Seidenberg, 1994; cf, Frazier, 2013; Rayner, Carlson, & Frazier 1983). Korean learners also showed evidence of sensitivity to the verb argument structure information, but their ability to incorporate this information seems to be limited as compared to native speakers of English. Implications of the findings are discussed in terms of the mechanisms and strategies L2 learners resort to while processing sentences in the L2.





[3월 두번째] 
Morpho-syntactic processing of Korean case-markers
Eun Seon Chung (University of Seoul)
Eun-Kyung Lee (Yonsei University)

This study examines whether the mental representation of sentences contains a morphological representation of case marking, using a priming technique. Thirty-six native Korean speakers listened to and repeated spoken prime sentences and described visually presented target pictures. The prime sentences were manipulated for the presence of an accusative case-marker -lul/-ul. To investigate whether the previously reported animacy effects on case drop generalizes to a different task, animacy of the direct object was also manipulated. The results showed that there was a stronger bias to produce the accusative case-marker when the direct object was animate than when the direct object was inanimate, replicating the previously reported animacy effects on accusative case drop (Lee 2006a, 2006b; Chung 2013) in a syntactic priming task. Furthermore, case marking on inanimate direct objects was influenced by whether or not the accusative case marker was produced earlier in the prime, providing evidence for the presence of an abstract representation of case marking.


[3월 세번째] 
The Effect of Grammar in the Mental Simulation of Bilinguals
Sang-Gu Kang (Cheongju University)

The purpose of this study is to find supporting evidence for the role of grammar in mental simulation theory that claims that language comprehenders routinely activate perceptual images. Such simulation-based theory of language comprehension produces a straightforward behavioral prediction. If understanding language is indeed involved with activating the perceptual representations, language including a compatible or incompatible image can function as a prime to facilitate or inhibit the perception of an image that follows. Thus, this research probes whether mental simulations of Korean EFL users differ when comprehending Korean with honorifics and English without honorifics. Native Korean university students participated in an experiment deciding whether the picture of a person following a simple English and Korean sentence is a likely character in the given sentence. Their accuracy and response time are collected and analyzed. The analysis demonstrates that the participants came up with different level of specificity for the images in the mental simulation while comprehending two separate languages due to the presence and absence of a functional grammatical marker. The implication of this paper is that it provided a small piece of experimental evidence to argue for the role of grammar in mental simulation based on the comparison between two languages with different grammatical features.


[3월 네번째] Experimental Data and Deep Learning: Subjecthood Tests in Korean
Yong-hun Lee (Chungnam National University)
Ji-Hye Kim (Korea National University of Education)

Nowadays, as the techniques in machine learning and deep learning develop, there have been some trials which apply those techniques in the study of language and natural language processing. This paper shows how deep-learning technique can be applied to experimental data so that the constructed language model can predict some interesting properties of natural languages.
This paper takes the data sets in six subjecthood tests in Korean (Kim et al., 2015; Lee et al., 2015; and Kim et al., 2017) and makes a language model with a deep neural network (DNN). After converting the z-scores into the scores between 0 and 100, the scores are classified into 10 groups (0-10, 11-20, ..., 91-100). Then, a DNN model is constructed where the converted 10 groups of scores are the output category and the other linguistic features become input values. The input values include types of diagnostic tests, Case markers, SSC vs. MSC, presence/absence of diagnostics, animacy of the subjects, and so on. From the constructed model, predicted scores will be calculated for each sentence when such and such linguistic environments are satisfied. The goal of this paper is to demonstrate how to use DNNs to uncover some interesting properties of natural languages using experimental data and deep learning. 

References
Kim, J., Y. Lee and E. Kim. 2015. Obligatory Control and Coordinated Deletion as Korean Subject Diagnostics: An Experimental Approach. Language and Information 19:75-101.
Kim, J., Y. Lee, and E. Kim. 2017. Honorific Agreement and Plural Copying as Korean Subjecthood Diagnostics: An Experimental Approach. Studies in Modern Grammar 93:119-144.
Lee, Y., E. Kim and J. Kim. 2015. Reflexive Binding and Adjunct Control as Subject Diagnostics in Korean: An Experimental Approach. Studies in Language 31:427-449.


  6
    연구발표회 » 2017학년도 2학기 12월 월례 발표회 일정표 및 초록
    

한국언어정보학회 2017학년도 2학기 12 월례 발표회 일정표

(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)


날짜

시간

발표자

발표제목

사회

12/2
(
)

09:30
10:20

강아름 (고려대)

Two types of speaker’s uncertainty over the epistemic space in Korean

이주원
(
경희대)

Break (10)

10:30
11:20

강초롱 (서울대)

Copy theory of movement and pf conditions on spell-out

Break (10)

11:30
12:20

오은정∙송상헌 (상명대인천대)

On Korean speakers’ knowledge of unaccusativity in English








[12월 첫번째] Two types of speaker’s uncertainty over the epistemic space in Korean (Arum Kang, Korea University)

The main goal of this paper is to propose a novel paradigm of the split epistemic uncertainty, based on two morphologically related particles in Korean: inka in wh-indefinites vs. nka in modalized questions. Previous literature assumes the interrogative-indefinite affinity as a reflex of a semantic relation amongst interrogative markers and indefinites by introducing a set of propositional alternatives (Alternative Semantics: Kratzer & Shimoyama 2002; Alonso-Ovalle 2006; Alonso-Ovalle & Menéndez-Benito 2010, inter alia). However, I challenge these claims by showing that there is a novel paradigm of epistemic ignorance which is not captured by means of propositional alternatives. I suggest a novel analysis, as originally proposed in my doctoral dissertation (Kang 2015), showing how the semantics of (i)nka variants is sensitive to speaker’s epistemic model (Giannakidou 1995 et seq.). In particular, I show that: (i) the common denominator of nka and inka is that they both express speaker’s epistemic indeterminacy; but (ii) the crucial difference arises from distinct epistemic spaces. The division on epistemic states will lead us to assume that there is a binary distinction between the types of alternatives that (i)nka introduces (i.e., propositional alternatives for nka vs. individual alternatives for inka). The division is further supported by the fact that there is a requirement of strict dichotomy with regard to the notion of speaker’s epistemic uncertainty which gives rise to the distinct semantics.


[12월 두번째] Copy theory of movement and pf conditions on spell-out (Chorong Kang, Seoul National University)

In this study, I investigate the question why in some cases an element is pronounced in the position where it is interpreted while in other cases, there is a discrepancy between the position for interpretation and the position for pronunciation. To investigate this issue, I will first discuss a relation between agreement and movement. Inspired by Reverse Agree (Wurmbrand 2012), I will clarify a condition of movement. Based on the suggested relation between agreement and movement, I will propose three different types of movement: phrasal movement, parasitic phrasal movement, and parasitic head movement. Furthermore, based on the Copy theory of movement, I will discuss PF constraints that play a role in copy-selection for pronunciation. Based on the system developed, I will provide a typological study in two representative cases of movement: (i) subject agreement/movement and (ii) wh-agreement/movement. This system provides a new approach for the typology of in-situ subjects and in-situ wh-phrases. In the proposed system, in-situ subject/wh-phrases are the results of either parasitic movement or low-copy pronunciation in phrasal movement. An in-situ phrase generated by parasitic movement does not have a copy in a higher position, so it cannot take a high scope. Furthermore, since the phrase does not undergo movement, it is insensitive to movement constraints (e.g. island constraints). By way of contrast, an in-situ phrase generated by a low-copy pronunciation in a movement chain shows “high” behaviors in addition to sensitivity to movement constraints. I will show how the two theoretically possible in-situ subjects/wh-phrases are realized in languages.


[12월 세번째] On Korean speakers’ knowledge of unaccusativity in English (Eunjeong Oh, Sangmyung University & Sanghoun Song, Incheon National University)

It has generally been assumed that intransitives are classified into two classes, unaccusatives and unergatives, which have distinct syntactic and semantic properties. The single argument of unaccusatives is base-generated in object position whereas the single argument of unergatives originates in subject position (Burzio, 1986; Perlmutter, 1978). Semantically, while the former bears a Theme role, the latter bears an Agent role. Despite such differences, the single argument of these two types of intransitives surfaces in subject position, thereby being identical on the surface. The unaccusative-unergative distinction is presumably universal, but languages vary as to the syntactic and morphological reflexes of such a distinction. Given the cross-linguistic variation, a learnability problem naturally arises for the L2 acquisition of unaccusativity.

This talk addresses Korean speakers’ knowledge of unaccusativity/unergativity in L2 English. More specifically, this talk will address the questions of (1) whether Korean speakers are sensitive to the unaccusative/unergative distinction in English; and (2) whether they are able to distinguish unaccusatives from transitives. With respect to the acquisition of unaccusativity, L2 researchers’ interests have primarily centered around the issue of unaccusative-unergative distinction. That said, we believe that to have a thorough picture of the phenomenon, a more fundamental question is whether Korean speakers are able to distinguish unaccusatives from transitives. This reasoning hinges on the well-known overpassivization of unaccusatives. Overpassivization refers to a phenomenon defined as non-target-like passivization of intransitives by L2 learners. Interestingly, ungrammatical passive unaccusatives (e.g., *An accident was happened) are frequently produced and judged as acceptable by learners from various L1 backgrounds (thus, these errors are language universal rather than language specific). By contrast, unergatives are rarely passivized. For such disparity, the most influential L2 account proposed is Yip’s Transitivization Hypothesis (1990, 1995), which states that unaccusatives are represented as underlying transitives in L2 learners’ grammar. From this hypothesis, the acceptance of ungrammatical transitives (e.g., *We disappeared our heads), rejection of correct unaccusatives (e.g., Our heads disappeared), and acceptance of ungrammatical passive unaccusatives (e.g., *Our heads were disappeared) are predicted.

In order to investigate the two questions, we employed the toolkit OpenSeame and used a 5-point Likert scale. 173 adult Korean speakers (31 beginners/ 59 intermediates/ 31 advanced) participated in the study. Three types of verbs were employed in the task: unaccusatives, unergatives, and transitives. Each type was represented by seven verbs, which were selected based on frequency analyses of learner corpora. Korean learners’ knowledge of unaccusative-unergative distinction was tested, using diagnostics such as overpassivization (*A baby was cried. vs. *A boy was disappeared.), causativization (*A coach ran students. vs. *A magician disappeared a bird.), and compatibility with a purpose clause (*A kid was run to catch a ball. vs. *A boy was appeared to eat a snack.). Korean learners’ knowledge of unaccusative-transitive distinction was tested by comparing the rate of a by agent phrase between transitives and unaccusatives. Researchers have argued that unaccusativity is a semantically determined, but syntactically represented phenomenon (Levin & Rappaport Hovav, 1995). Along these lines, this talk also considers two semantic properties, telicity and animacy, which are frequently argued to be associated with unaccusativity/unergativity.



  5
    연구발표회 » 2017학년도 2학기 9월 월례 발표회 일정표 및 초록
    

한국언어정보학회 2017학년도 2학기 9 월례 발표회 일정표



(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)



날짜

시간

발표자

발표제목

사회

9/16
(
)

09:30
10:20

이주원 (경희대)

비정점 의미(Non-culmination reading)와 행위주체성(Agency)

남윤주
(건국대)


Break (10)

10:30
11:20

이은경 (서울대)

A Psycholinguistic Study of the Semantics-Syntax Interface

Break (10)

11:30
12:20

이예식박향숙최정아(경북대)

영어교육응용을 위한 자동음성인식 시스템 실험평가오케이 구글시리를 중심으로







 
[9월 첫번째] 비정점 의미(Non-culmination reading)와 행위주체성(Agency) (이주원, 경희대)

완성서술어(accomplishment predicates)의 비정점 의미(non-culmination reading)는 최근 어휘의미론에서 활발히 연구되고 있는 주제이다. 예를 들어, (1a)의 영어문장은 모순이 되지만, 이에 해당하는 (1b)의 한국어 문장은 모순이 되지 않는다.

(1) a. He opened the door, #but it is not opened at all.
   b. 그가 문을 열었지만, 문이 전혀 열리지 않았다.

(1b)와 같이 완성서술어의 내재된 결과가 실제로는 발생하지 않았을 때, 그 서술어는 무결과 의미(zero result reading)를 가진다고 말한다. 무결과 의미는 비정점 의미의 일종이며, 또 다른 비정점 의미로는 다음과 같은 부분결과(partial result)가 있다.

(2) 그가 문을 열었고, 문이 조금 열리었다.

(2)의 선행절은 문이 완전히 열리지는 않았지만(즉, 정점의미 ‘culmination reading’은 아니지만), 문이 어느 정도 열렸다는 의미로서 부분결과의 의미를 가진다. 본 발표에서는 이러한 한국어의 비정점 의미의 현상을 중심으로, 그 외 다양한 언어에서 발견되는 비정점 의미의 현상과 이러한 비정점 의미를 설명하고자 하는 분석 시도들에 대해 논의한다. 특히, 한국어의 무결과 의미에 대한 의도성-기반 분석(Lee, 2015; Beavers & Lee, under review)과 다양한 언어의 비정점 의미에 대한 행위주체자 제어 가설(Agent Control Hypothesis in Demirdache & Martin, 2013)을 소개하고 그 내용을 토의한다.


[9월 두번째] A Psycholinguistic Study of the Semantics-Syntax Interface (Eunkyung Yi, Seoul National University)

Since the more rigorous and systematic research was launched as to the relationship between syntax and semantics in the 1960’s (Gruber, 1965; Fillmore, 1968, inter alia), it has been acknowledged that syntactic properties of a lexical item are highly correlated with and much predicted by its semantic properties. This correspondence was most evidently attested by the relationship between verb meaning (designating an event and its participants) and sentence structure (consisting of a verb and its syntactic dependents). Importantly, it has long been regarded as a fact in language that linguists found; few addressed why it should be the way it is. In the present talk, I will introduce the findings and implications of my doctoral research (Yi, 2016), which investigated the cognitive underpinnings behind such correspondences by using psycholinguistic methods. I report on two separate but related studies. First, using syntactic priming experiments, I investigated the online and immediate influence of verb meaning on the structuring of a sentence. Second, I studied the long-term and frequency-driven effect of the syntax-semantics mapping on sentence structuring via statistical modeling on the data from natural corpora. These studies suggest that the correspondence between verb meaning and syntax is not an a priori regulation in language but is significantly rooted in human cognitive abilities.


[9월 세번째] 영어교육응용을 위한 자동음성인식 시스템 실험평가: 오케이 구글, 시리를 중심으로 (이예식∙박향숙∙최정아, 경북대)

본 연구는 영어 발음 훈련을 위한 교육용 자동음성인식 시스템(Okay Google, Siri, (Bing))을 훈련시킬 수 있는 한국인 영어단어 발음의 기초자료 데이터베이스(DB)를 구축하는데 그 목적이 있다. 이를 위해, 우선 자동음성인식 시스템 (Okay Google, Siri)의 한국인 영어학습자의 영어 단어의 발음에 대한 인식률을 평가하여 인식오류를 유발하는 조음음성학적 특성을 조사하였다. 

이 실험에서 초등학교 영어교과서에 있는 798 단어 중에서 219 단어를 선택하여 발화를 어렵게 하는 다섯 가지 요인(Ahn, 1997)들 중에서 네 가지를 포함한 단어로부터 방해요인이 전혀 없는 단어들로 다섯 그룹의 단어로 분류하였다. 중급의 영어수준을 지닌 초등학생 16명을 대상으로 하여 목표단어들을 발화하게 하여 녹음하였고, 각 단어들에 대한 친숙도를 1-5점으로 선택하게 하였다. 각 단어들의 인식률을 Google Voice Actions를 활용하여 측정하였다. t-test로 데이터 분석을 한 결과, 난이도보다는 친숙도가 인식률에 더 영향을 미치는 것으로 나타났다. 이는 학습자들에게 익숙한 단어는 빈도수가 높은 단어들로 학습자들이 정확하게 발화할 가능성이 높을 뿐만 아니라, 자동음성인식 시스템의 인식 확률도 높은 것으로 추정할 수 있다. 또한, 성별에 따른 인식률의 차이가 있는 것으로 나타났다. 즉 여학생들의 발화 인식률이 남학생들 보다 더 높은 것으로 나타났다. 단어별 인식률의 차이를 살펴보면, 이중모음, 마찰음 등과 같이 한국인 학습자들이 발음하기 어려워하는 음운들, 한국어에는 없는 음운체계들, 또는 한국어에 비슷한 유형이 있지만 발음체계가 상이한 음운들을 포함하고 있는 것으로 나타났다.

또한 자동음성인식 시스템의 연어 인식률을 알아보기 위한 파일럿 실험을 실시하였다. 35개의 영어 연어들(collocations)을 시리와 구글을 활용하여 인식도를 조사하였다. 그 결과 ‘bread and butter, fish and chip, bacon and eggs’ 등과 같이 빈도수가 높은 연어는 단어의 순서를 바꾸거나 (예, butter and bread) 발음을 정확하게 하지 않아도 그 연어들을 정확하게 인식하는 것으로 나타났다. 반면 ‘wear and tear, kiss and ride’ 등과 같이 빈도수가 낮고 한국인이 발음하기 어려운 “w, r, k”가 들어있는 연어들의 인식률이 떨어지는 것으로 나타났다. 음성 인식도를 비교하면, 시리보다는 구글이 더 높은 것으로 나타났다. 앞으로 보다 많은 피험자들을 대상으로 각 시스템의 인식률과 빈도수와 발음 난이도에 따른 인식률을 비교하고자 한다.

본 연구결과는 한국인 영어학습자들의 영어 단어발음의 특성과 특별히 인식이 어려운 발음에 대한 정보를 제공할 뿐만 아니라 교육현장에서 영어발음지도 자료로도 활용할 될 수 있다. 더 나아가, 인식오류를 일으키는 주요 요인을 음성학적 측면에서 고찰하여 음성처리 기술의 불완전성을 보안할 수 있는 방안을 모색하는데 그 의의가 있다.

  4
    연구발표회 » 2017학년도 1학기 4월 월례 발표회 초록
    

한국언어정보학회 2017학년도 1학기 4월 월례 발표회 일정표

(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)


날짜

시간

발표자

발표제목

사회

4/22
(
)

09:30
10:20

신정화 (세종대)

Prosody and Sentence Processing

서지혜
(한국외대)

Break (10)

10:30
11:20

이기용 (고려대)

Four Types of Temporal Signals

Break (10)

11:30
12:20

임동훈 (이화여대)

한국어의 장소 표시 방법들








[4월 첫번째] Prosody and Sentence Processing (신정화, 세종대)

문장의 이해는 다양한 수준의 언어정보에 대한 분석과 통합을 바탕으로 한다.  본 발표에서는 어조 (Prosody)가 문장 처리 과정에 미치는 역할과 그 처리 양상에 대한 연구들을 소개한다. 이를 바탕으로 제2언어 문장처리와 관련하여 어조정보 처리에 대한 연구를 소개하고, 제2언어 어조의 분석 및 통합의 정도가 처리구문에 따라 다르게 나타날 수 있음을 논의한다.

[4월 두번째] Four Types of Temporal Signals (이기용, 고려대)

Temporal signals such as prepositions in English trigger various temporal relations over events and times. In this paper, we propose to categorize such prepositional temporal signals into four types: (1) locative signals (at, in, on), (2) measure signals (for, in), (3) boundary signals (from, to, through, till), and (4) orientation signals (before, after, from). We show that each of these signal types is constrained by its own semantic restrictions. First, each of the signal types indicates a temporal entity structure either of an atomic type such as dates, periods of time, and time amounts, or of a complex type such as bounded intervals (“from dawn till dusk”) and intervals with oriented distances (“an hour after the sunset”). Second, each signal type determines the semantic type of an eventuality that it is associated with, such as state (property) and occurrence with two sub-types, process and transition (event) à la Allen (1984) and Pustejovsky (1991). In this paper, we discuss these two semantic features associated with each of the four temporal signal types in order to lay a theoretical basis for the construction or re-specification of event-related temporal semantic annotation frameworks such as ISO-TimeML (ISO 24617-1, 2012) or its variants.

[4월 세번째] 한국어의 장소 표시 방법들 (임동훈, 이화여대)

(1) 처소 기능은 위치와 방향으로 구분되고 여기서 방향은 다시 출처와 목표로 구분되는데 이러한 두 단계 구분에 위상이나 접경 개념이 더해지면 세 단계 구분이 발생함. 한국어의 처소 기능은 위치, 출처, 목표에 경로가 추가된 네 가지 구분 방식을 보임.
(2) 위치는 위상 개념이 더해져 내부와 비내부를 구분하여 표시하는데 전자는 ‘에서’가, 후자는 ‘에’가 이를 담당하며 ‘에서’와 ‘에’가 교체 가능한 환경에서는 ‘에서’가 배경의 의미를, ‘에’가 전경의 의미를 표시함.
(3) 목표는 접경 개념에 따라 구분되며 경계 닿음의 함의가 있는 목표는 ‘에’가, 그러한 함의가 없는 목표는 ‘로’가 담당함. 접경 개념은 지점, 지역의 구분과 관련되는데 ‘에’가 가리키는 목표는 경계 닿음의 함의가 있어 지역 개념을 전제하고 그러한 함의가 없는 ‘로’는 지역, 지점의 구분이 없음.
(4) 출처는 지역 개념을 전제하는데 내부 위치를 가리키는 ‘에서’에서 발달함. 중세국어의 ‘에’는 위치, 출처, 목표의 의미를 모두 표현하였는데 경계 내부의 의미를 표시하는 ‘서’가 결합한 ‘에서’ 형식이 출처의 의미를 표시하면서 출처의 의미를 상실함.
(5) 거리나 지속 기간이 행위가 축적되어 달성된 공간의 양이나 시간의 양을 한계 지어 표시할 때에는 그 뒤에 ‘을’이 결합하며 이때 거리나 지속 기간을 나타내는 성분은 부가어이고 그 서술어는 이동 동사로 국한되지 않음.
(6) 출처나 목표를 나타내는 명사구가 지역으로 개념화하면 ‘에서, 에’로 표시되나 이들이 지점으로 개념화하면 ‘을’로 표시됨. 또 지역으로 개념화한 것이 지점으로 재개념화될 때에는 ‘에+을’ 형식이 쓰임.
(7) 처소 명사구가 달성 행위를 나타내는 동사의 논항으로 나타나는 경우 처소 명사구는 대격과 처격으로 표시될 수 있는데, 처소 명사구가 달성 상황에 의해 초래된 상태변화에 의해 영향을 받는다고 간주되면 대격으로 표시되며 이때 해당 처소가 지점으로 개념화하여 서술 행위가 처소 전체에 적용된다는 전체론적 해석이 유발됨.
(8) ‘에서, 에’가 내부/비내부의 대립을 보이고 ‘에, 로’가 경계 닿음의 함의 여부에서 차이가 나며, 행위량의 유계성을 표시하거나 전체론적 해석을 보이는 처소 표현이 ‘을’로 표시되는 현상은 한국어의 조사가 상적 구분과 관련되어 있음을 보여 줌.
 

  3
    연구발표회 » 2017학년도 1학기 3월 월례 발표회 초록
    

한국언어정보학회 2017학년도 1학기 3 월례 발표회 일정표


날짜

시간

발표자

발표제목

사회

3/25
(
)

09:30
10:10

 서지혜 (한국외대)
학위논문발표

영미 아동의 비교급 사용과 습득:
CHILDES
데이터베이스 사용기반 분석

송상헌
(
인천대)

10:10
11:00

윤소연 (인천대)

Usage-based Approach to
Language Use and Linguistic Knowledge

Break (20)

11:20
12:10

김한샘 (연세대)

한국어 말뭉치 구축 및 활용을 위한
기초 연구

총회, 평의회, 이사회 (20분 내외)







 
[3월 첫번째] 영미 아동의 비교급 사용과 습득: CHILDES 데이터베이스 사용기반 분석 (서지혜, 한국외대)

아동은 언어 구문이나 어휘의 특징을 파악하고, 양육자가 사용하는 어휘의 빈도나 환경의 영향을 받아 언어를 습득할 수 있다. 본 연구에서는 CHILDES 데이터베이스에서 1세∼7세의 영국과 미국 아동 발화를 분석하여 아동이 비교급을 사용하는데 영향을 주는 언어 요인과 빈도 요인을 분석하였다. 구체적으로 통사적 구문에 민감한 4세를 기준으로 아동의 연령별(3세 vs. 5∼7세) 비교급 사용(ER 비교급(bigger) vs. MORE 비교급(more interesting))이 어느 요인의 영향을 받는지 살펴보았다. 3세와 5∼7세 아동의 비교급 사용에 차이를 보인 언어 변수는 마지막 분절음, than의 유무, 전치 수식어인데, 3세 아동은 than을 많이 사용하지 않았으며, 전치수식어가 없는 문장에 MORE 비교급을 더 사용하는 경향을 보였다. 그리고 양육자의 ER 비교급 구문 사용 빈도가 아동의 ER 비교급 사용과 약한 상관관계를 나타냈다. 아동의 연령별 사용 양상에 대한 분석은 아동이 언어 요인 뿐 아니라 양육자의 빈도 요인의 영향을 받아 비교급을 사용하고 습득하는 사용기반 이론(usage-based theory)의 증거를 제시한다.

[3월 두번째] Usage-based Approach to Language Use and Linguistic Knowledge (윤소연, 인천대)

본 발표는 언어 사용기반 모델(usage-based model)과 관련된 몇 가지 이슈들과 이에 대한 연구들을 간략히 소개하는 것을 목표로 한다. 이 모델의 핵심 가정은 “언어 체계는 언어 사용의 실례 (instances)를 기반으로 구축된다”는 것이다. 본 발표에서는 먼저 이러한 가정을 바탕으로 언어지식의 형성에 대해 연구한 몇 몇 논문들을 간략히 소개한다. 특히 모국어 습득, 외국어 학습의 측면에서 argument structure의 습득과 빈도의 관계를 연구한 논문을 중심으로 살펴본다. 이어서 사용기반 모델을 바탕으로, 언어사용의 또 다른 측면인 언어처리(processing)까지 함께 살펴보고자 언어지식, 언어사용 빈도, 언어처리의 상호관계를 강제(coercion)와 관련 지은 본인의 연구를 요약한다. 마지막으로 언어사용의 빈도가 언어지식의 변화도 이끌어낼 수 있음을 시사하는 본인의 최근의 연구를 소개한다.

[3월 세번째] 한국어 말뭉치 구축 및 활용을 위한 기초 연구 (김한샘, 연세대)

2007년 21세기 세종계획 이후 10년이 지난 지금 한국어 언어 자원은 규모면에 있어서 영어, 일본어, 중국어, 스페인어 등 세계 최고의 언어 자원들의 수준에는 미치지 못하는 상황이 되었다. 한국어 언어 자원은 단순히 언어 연구나 자연 언어 처리의 실험 자료를 넘어 인공지능과 빅데이터를 기반으로 하는 4차 산업 시대에서 대한민국과 한국어의 미래를 결정하는 중요한 한 축이 될 것으로 보인다. 그러나 언어 자원은 단기간에 효과적인 자료 구축이 어려우며, 궁극적으로 한국의 문화와 사회 전반을 반영하는 자료 수집이 이루질 필요가 있다. 그러므로 국어기본법에 의한 국어정책 및 문화산업적 기여 등을 고려한 한국어 언어 자원의 구축과 공유를 위한 중장기 계획 및 추진이 시급하다. 이러한 필요성 하에 국제적인 언어 관련 기술 및 자원의 수준을 파악하고 한국어 관련 기술 및 자원의 현황을 정리한 후 수요를 분석하여 한국어 언어 자원 구축 및 활용 분야가 나아가야 할 방향을 전망하고자 한다.

  2
    연구발표회 » 2017학년도 1학기 월례 발표회 일정표
    

한국언어정보학회 2017학년도 1학기 3 월례 발표회 일정표


날짜

시간

발표자

발표제목

사회

3/25
(
)

09:30
10:10

 서지혜 (한국외대)
학위논문발표

영미 아동의 비교급 사용과 습득:
CHILDES
데이터베이스 사용기반 분석

송상헌
(
인천대)

10:10
11:00

윤소연 (인천대)

Usage-based Approach to
Language Use and Linguistic Knowledge

Break (20)

11:20
12:10

김한샘 (연세대)

한국어 말뭉치 구축 및 활용을 위한
기초 연구

총회, 평의회, 이사회 (20분 내외)







 


 


한국언어정보학회 2017학년도 1학기 4월 월례 발표회 일정표


(발표 순서는 발표자 선생님들의 사정에 따라 변경될 수 있습니다.)


날짜

시간

발표자

발표제목

사회

4/22
(
)

09:30
10:20

신정화 (세종대)

Prosody and Sentence Processing

서지혜
(한국외대)

Break (10)

10:30
11:20

이기용 (고려대)

Four Types of Temporal Signals

Break (10)

11:30
12:20

임동훈 (이화여대)

한국어의 장소 표시 방법들







 

  1
    연구발표회 » 연구발표회 » 최근 프로그램 (2017학년도 제1학기)
    
  • 2017년 3월 25일(토), 9:30-12:30
    • 총회
    • 평의회
    • 이사회
    • 월례연구발표회
    • 대우재단 세미나 1실 (7층)
  • 2017년 4월 22일(토), 9:30-12:30
    • 월례연구발표회
    • 대우재단 세미나 2실 (7층)
  • 2017년 6월 23일(금)-24일(토)
    • 연합학술대회(한국언어정보학회, 한국현대언어학회, 한국영어학학회, 한국언어연구학회
    • 서귀포, 제주대학교 연수원
    1