바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

토픽 모델링을 이용한 신문 자료의 오피니언 마이닝에 대한 연구

A Study on Opinion Mining of Newspaper Texts based on Topic Modeling

한국문헌정보학회지 / 한국문헌정보학회지, (P)1225-598X; (E)2982-6292
2013, v.47 no.4, pp.315-334
https://doi.org/10.4275/KSLIS.2013.47.4.315
강범일 (연세대학교)
송민 (연세대학교)
조화순 (연세대학교)
  • 다운로드 수
  • 조회수

초록

이 연구에서는 토픽 모델링 기법을 이용하여 신문 기사를 대상으로 주제 기반의 오피니언 마이닝을 수행하였다. 언론 매체가 가지는 정파성을 일종의 오피니언으로 간주하여 대선이라는 거대 이슈에 대한 각 매체들의 입장을 분석하였다. 먼저 대량의 신문 기사에서 주제를 추출한 후 매체별 주제 구성의 차이를 살펴보았다. 그리고 주제별 네트워크 분석을 통해 주제의 구조와 내용을 분석하였다. 마지막으로 시계열 분석을 통해서 시기별 주제 분포의 차이를 매체별로 살펴보았다. 그 결과 모든 분석에서 진보매체와 보수매체 모두 자신들의 이데올로기를 따라 기사를 보도하는 경향성이 확인되었다. 이를 통해 주제 기반 오피니언 마이닝이 타당성 있는 의견 분석의 기능을 수행할 수 있음을 확인할 수 있었다.

keywords
Topic Modeling, Opinion Mining, Network Analysis, Newspaper Partisanship, 토픽 모델링, 오피니언 마이닝, 네트워크 분석, 언론의 정파성

Abstract

This study performs opinion mining of newspaper articles, based on topics extracted by topic modeling. We analyze the attitudes of the news media towards a major issue of ‘presidential election’, assuming that newspaper partisanship is a kind of opinion. We first extract topics from a large collection of newspaper texts, and examine how the topics are distributed over the entire dataset. The structure and content of each topic are then investigated by means of network analysis. Finally we track down the chronological distribution of the topics in each of the newspapers through time serial analysis. The result reveals that both the liberal newspapers and the conservative newspapers exhibit their own tendency to report in line with their adopted ideology. This confirms that we can count on opinion mining technique based on topics in order to analyze opinion in a reliable fashion.

keywords
Topic Modeling, Opinion Mining, Network Analysis, Newspaper Partisanship, 토픽 모델링, 오피니언 마이닝, 네트워크 분석, 언론의 정파성

참고문헌

1.

감미아, 송민. 2012. 텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석. ..지능정보연구.., 18(3): 53-77.

2.

강명구. 2004. 한국 언론의 구조변동과 언론전쟁, ..한국언론학보.., 48(5): 319-421.

3.

김영욱. 2011. 한국 언론의 정파성과 사회적 소통의 위기. ..한국언론학회 심포지움 및 세미나.., 107-136.

4.

김재홍. 2003. 김대중 정부의 대북 포용정책에 대한 언론노조와 국민여론의 비교분석. ..한국정치학회보.., 37(2): 197-218.

5.

김정아, 채백. 2008. 언론의 정치 성향과 프레임: ‘이해찬 골프'와 ‘최연희 성추행' 사건의 보도를중심으로. ..한국언론정보학보.., 41: 232-267.

6.

박자현, 송민. 2013. 토픽 모델링을 활용한 국내 문헌정보학 연구동향 분석. ..정보관리학회지.., 30(1): 7-32.

7.

박재영. 2009. 한국 언론사들의 정파성 지형. ..한국언론재단 세미나 종합 보고서.., 17-65.

8.

신태범, 권상희. 2013. 국내 청소년의 포털뉴스 이용특성과 뉴스신뢰, 공공성인식에 관한 연구. ..사이버 커뮤니케이션 학보.., 30(1): 241-294.

9.

송혜지, 박경수, 정혜은, 송민. 2013. 텍스트 마이닝 기법을 활용한 한국의 경제연구 동향 분석. ..한국정보관리학회 학술대회논문집.., 20: 47-50.

10.

윤성이. 2012. 소셜 네트워크의 확산과 민주주의 의식의 변화. ..한국정치연구.., 21(2): 145-168.

11.

윤영철. 2000. 권력 이동과 신문의 대북정책 보도: 신문과 정당의 병행관계를 중심으로. ..언론과사회.., 27: 48-81.

12.

이민웅. 2003. ..저널리즘: 위기 변화 지속... 서울: 나남.

13.

이재경. 2004. 저널리즘의 위기와 언론의 미래. ..신문과 방송 40주년 세미나... 2004년 3월 18일.[서울: 프레스센터].

14.

이재윤. 2006a. 지적 구조의 규명을 위한 네트워크 형성 방식에 관한 연구. ..한국문헌정보학회지.., 40(2): 333-355.

15.

이재윤. 2006b. 계량서지적 네트워크 분석을 위한 중심성 척도에 관한 연구. ..한국문헌정보학회지.., 40(3): 191-214.

16.

이재윤. 2006c. 지적 구조 분석을 위한 새로운 클러스터링 기법에 관한 연구. ..정보관리학회지.., 23(4): 215-231.

17.

이재윤. 2012. WNET. (version 0.4). (Software).

18.

이준웅. 2001. 갈등적 이슈에 대한 뉴스 프레임 구성방식이 의견형성에 미치는 영향. ..한국언론학보.., 46(1): 441-482.

19.

이지혜, 정영미. 2009. 지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동분류에 관한 실험적 연구. ..정보관리학회지.., 26(3): 451-462.

20.

진설아, 허고은, 정유경, 송민. 2013. 트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구. ..정보관리학회지.., 30(1): 285-302.

21.

차한필. 1989. ..국내 신문 사설의 주제 분석과 각 신문 간 상관관계에 관한 연구... 석사학위논문,연세대학교 대학원, 도서관학과.

22.

최민재, 김재영. 2008. 포털의 17대 대선 관련 뉴스서비스 공정성에 관한 탐색적 연구. ..언론과학연구.., 8(4): 667-701.

23.

최진호, 한동섭. 2012. 언론의 정파성과 권력 개입: 1987년 이후 13~17대 대선캠페인 기간의주요일간지 사설 분석. ..언론과학연구.., 12(2): 534-571.

24.

최현주. 2010. 한국 신문 보도의 이념적 다양성에 대한 고찰: 6개 종합일간지의 3개 주요 이슈에대한 보도 성향 분석을 중심으로. ..한국언론학보.., 54(3): 399-426.

25.

한경수. 2010. 효과적인 의견 자질 결합을 위한 실험적 연구. ..정보관리학회지.., 27(3): 227-239.

26.

Blei, D., &Lafferty, J. 2006. “Dynamic topic models.” The 23rd international conference on Machine learning, 113-120.

27.

Blei, D. 2012. “Probabilistic topic models.” Communications of the ACM, 55(4): 77-84.

28.

Chen, H., & D. Zimbra. 2010. “AI and Opinion Mining.” IEEE Intelligent Systems, 25(3): 74-76.

29.

Gerrish, S., & Blei, D. 2010. “A language-based approach to measuring scholarly impact.” The 27th International Conference on Machine Learning, 375-382.

30.

Griffiths, T., & Steyvers, M. 2004. Finding scientific topics. Proceedings of the National Academy of Sciences.

31.

Grimmer, J. 2010. “A Bayesian hierarchical topic model for political texts: Measuring expressedagendas in senate press releases.” Political Analysis, 18(1): 1-35.

32.

Liu, Bing. 2010. “Sentiment Analysis: A Multifaceted Problem.” IEEE Intelligent Systems, 25(3): 76-80.

33.

McCallum, Andrew Kachites. 2002. “MALLET: A Machine Learning for Language Toolkit." <http://mallet.cs.umass.edu>.

34.

Mimno, D., & McCallum, A. 2008. “Topic models conditioned on arbitrary features with Dirichlet-multinomial regression.” The 24th Conference on Uncertainty in Artificial Intelligence, 411-418.

35.

Newman, D., & Block, S. 2006. “Probabilistic Topic Decomposition of an Eighteenth-Century Newspaper.” Journal of the American Society for Information Science and Technology, 57(5): 753-767.

36.

Schvaneveldt, Roger W. ed. 1990. Pathfinder Associative Networks: Studies in Knowledge Organization. US: Ablex Publishing.

37.

Song, Min., & Kim, Suyeon. 2013. “Detecting the knowledge structure of bioinformatics by mining full-text collections.” Scientometrics, 96(1): 183-201.

38.

Steyvers, M., & Griffiths, T. 2007. Probabilistic topic models. Handbook of Latent Semantic Analysis. Edited by T. K. Landauer, D. S. McNamara, S. Dennis, W. Kintsch. NJ: Erlbaum.

한국문헌정보학회지