바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

동사 어휘의미망 평가를 위한 단어클러스터링 시스템의 활용 방안

The Method of Using the Automatic Word Clustering System for the Evaluation of Verbal Lexical-Semantic Network

한국문헌정보학회지 / Journal of the Korean Society for Library and Information Science, (P)1225-598X; (E)2982-6292
2006, v.40 no.3, pp.175-190
김혜경 (부산대학교)
윤애선 (부산대학교)
  • 다운로드 수
  • 조회수

초록

최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된‘[-하]동사류’ 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 ‘다국어 어휘의미망-코어넷’으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 여부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

keywords
Lexical-semantic Network, Thesaurus, Automatic Word Clustering, Feature Vector, ‘-ha’ verb, 어휘의미망, 시소러스, 단어클러스터링, 특성벡터, ‘-하’동사류

Abstract

For the recent several years, there has been much interest in lexical semantic network. However, it seems to be very difficult to evaluate the effectiveness and correctness of it and invent the methods for applying it into various problem domains. In order to offer the fundamental ideas about how to evaluate and utilize lexical semantic networks, we developed two automatic word clustering systems, which are called system A and system B respectively. 68,455,856 words were used to learn both systems. We compared the clustering results of system A to thoseof system B which is extended by the lexical-semantic network. The system B is extended by reconstructing the feature vectors which are used the elements of the lexical-semantic network of 3,656 '-ha' verbs. The target data is the 'multilingual Word Net-CoreNet'.When we compared the accuracy of the system A and system B, we found that system B showed the accuracy of 46.6% which is better than that of system A, 45.3%.

keywords
Lexical-semantic Network, Thesaurus, Automatic Word Clustering, Feature Vector, ‘-ha’ verb, 어휘의미망, 시소러스, 단어클러스터링, 특성벡터, ‘-하’동사류

참고문헌

1.

(2001.) 단어클러스터링 기반 정보처리 도구 개발 기술.,

2.

(2004.) 의미정보와 시소러스를 이용한 한국어 어휘 중의성 해소 모델.,

3.

(2005) 하]동사류’ 어휘의미망 구축을 위한 사전 정의문 분석,

4.

(2006.) 동사 어휘의미망의 반자동 구축을 위한 사전정의문의 중심어 추출.,

5.

(2000.) 코퍼스 품사 태깅 매뉴얼., 한국과학기술원.

6.

이기호. 1993. 단어의 유사성 척도와 클러스터링 알고리즘. 한국 인지과학회 논문지. 9,

7.

(2005.) 한국어 Wordnet 구축 명사를 중심으로.,

8.

(2001.) 정보검색에서 벡터공간 검색과 클러스터 분석을 통한 문서 순위 결정 모델.,

9.

(2004.) 계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구.,

10.

(2004.) 의미적 멀티미디어 정보검색을 위한 개념간 유사도 측정 방법.,

11.

(2002.) 한국어 의미망 구축과 활용.,

12.

(2005.) 다국어 어휘의미망., KAIST PRESS.

13.

(1999) Modern Information Ret- rieval, ACM Press.

14.

(2006) How-Net and the Computation of Meaning., World Scientific Publishing.

15.

(1998.) Wordnet: An Elec- tronic Lexical Database., MIT Press.

16.

(1997.) The Semantic System, volume 1 of Goi-Taikei -- A Japanese Lexicon., Iwanami Shoten.

17.

(2000) DATA MINING Methods for Knowledge Discovery, Kluwer Academic Publishers.

18.

(2005.) EuroWordNet General Document.,

한국문헌정보학회지