워드 클라우드로 내용 정리하기, 독서

상담문의
02-1234-1234
월-금 09:00~18:00
전국매장
시공사례
뉴스소식
1:1상담
TOP
갤러리1
각종 행사관련 갤러리 입니다.

워드 클라우드로 내용 정리하기, 독서

2024.07.06

최근 워드클라우드 들어 빅데이터 분석이 대두되면서 자연스럽게 워드 클라우드의 중요성이 함께 상승해 있다. 워드 클라우드의 이점은 가시적으로 손쉽게 파악할 수 있다는 점에서 매우 유익한 분석 결과일 것이다. 이를 R에서 구현이 가능한데, 이 책에서는 파일을 불러들이는 방법에서 두 가지로 나누어 설명한다. 과정은 같다. 하지만 맨 처음 내가 분석하고자 원하는 파일을 불러들이는 방법에서의 차이가 약간 있을 뿐이다. 우선 공통적인 내용으로 다음의 페키지를 모두 설치해야 한다. &gtinstall.packages(KoNLP) &gtinstall.packages(wordcloud)&gtinstall.packages(RcolorBrewer) 주의 할 것은 가끔씩 설치한 후에 rJava가 설치되어 있지 않은 경우, 워드클라우드 실행이 되지 않는 경우가 있다. 그럴 때, 자신의 컴퓨터 사양에 맞춰서 Java를 설치를 해 줘야 한다. 아래의 사이트에서 설치를 할 수 있다. 만일 사용자가 64비트 환경의 컴퓨터를 사용한다면 Windows x64 Offline을 설치하면 된다. 만일 32비트이면 Windows x86계열을 설치하자. [자바설치 주소] [자바설치 목록]워드 클라우드 실행 방법은 다음과 같은 단계로 이루어진다. 1단계 텍스트 수집 및 저장에서 wordcloud 생성까지 총 5단계로 요약될 수 있다. 오른쪽은 R에서 구현할 수 있는 명령어들이다. &gtinstall.packages(KoNLP) &gtinstall.packages(wordcloud)&gtinstall.packages(RcolorBrewer) 우선 입력한 명령어를 설명하면 다음과 워드클라우드 같다. 첫 번째는 한글의 형태소분석을 통해 명사를 분류하는 KoNLP 꾸러미이다.두 번째는 워드클라우드를 만들어주는 패키지, 세 번째는 R 프로그램에서 앞으로도 누차 쓰일 색채 팔레트이다. 위의 설치파일을 모두 설치하였다면, 모두 불러오자. &gtlibrary(KoNLP) &gtlibrary(wordcloud) #여기까지만 해도 아래 RColorBrewer은 자동으로 불러진다. &gtlibrary(RColorBrewer) 설치할 때만 &quot를 써줄 뿐 불러들일 때는 사용하지 않는다. 그리고 분석을 하려는 문서를 저장하자. 예를 들어, D 드라이브에 rwork라는 폴더 안에 텍스트 파일을 만들어 놓으면 된다. 그리고 그 경로를 항상 기억해 두자. 이렇게 저장해둔 txt 파일을 워드클라우드 불러와야 한다. 5.1 예시 1D 드라이브에 rwork라는 폴더 안에 park.txt라고 내용을 저장하였다면 다음과 같이 파일을 불러서 f라는 변수에 저장하면 된다. &gtf <- file(D:/rwork/park.txt, blocking=F) &gttxtLines <- readLines(f) f라는 이름으로 파일을 불러온 뒤에, 이 f를 계속 사용할 것이다. f를 라인 바이 라인으로 읽어 들일 것이며, 그럼 그것은 txtlines라고 명명하겠다! 라고 선언을 하게 된다. 워드 클라우드 특성상 워드 즉 단어들을 다룬다. 다음은 명사를 추출하여 데이터를 담는 방법이다. &gtnouns <- sapply(txtLines, extractNoun, USE.NAMES ϟ) f를 좀 정제한 워드클라우드 txtLines에서 Noun을 extract하라는 것이며, 그리고 Names를 쓰는 것은 False 값을 준다.어떻게 돌아가고 있는지 궁금하면,&gtnouns 를 쳐보면 텍스트에서의 명사들만 정렬되는 것을 알 수 있다. 다음은 nouns만 다시 추려서 새 파일로 만드는 방법이다. &gtundata=unlist(nouns) 중복된 단어들을 빼고 각각 몇 개씩 있는지를 보는 것이다. &gtwordcount <- table(undata) &gtlength(wordcount) 이걸 내림차순으로 하면&gtsort(wordcount, decreasing =T)오름차순으로 하고 싶다면 decreasing=F 로 하면 된다. 다음은 본격적으로 워드클라우드를 만드는 방법이다. 그 전에 Rcolorbrewer에 대해 살펴보자. 다음과 같이 명령어를 입력하면, 각종 파랫트가 나온다. &gtdisplay.brewer.all()여기서는 워드클라우드 Pastel1을 골라서 적용해 보도록 한다. &gtpal <- brewer.pal(9, Pastel1) 앞에 있는 숫자 9는 사용자가 쓸 만큼의 색깔을 뜻한다. 예시에서는 팔레트에 들어있는 색상의 색깔 모두를 쓸 것이기 때문에 9라고 입력하였다. &gtpal 이라고 치면 [1] #FBB4AE&quot#B3CDE3&quot#CCEBC5&quot#DECBE4&quot#FED9A6&quot#FFFFCC&quot#E5D8BD&quot#FDDAEC&quot#F2F2F2&quot 이렇게 사용자가 쓸 색채들이 나열된다. 그럼 본격적으로 워드클라우드를 생성해 보자. 그런데, '것', '등'이라는 글자가 너무 많이 나오는 게 부적절하다. 따라서 모든 단어는 2자 이상일 수 있도록 함수를 하나 설정하는 것이 좋다. 다음과 같이 처리할 수 있다. &gtdataϟilter(function(x){nchar(x)>=2}, undata)&gtwordcount1 <- table(data) 워드클라우드 이렇게 해야 두 글자 이상인 단어만 모인 워드카운트 뭉치가 생성된다. &gtwordcloud(names(wordcount1), freq =wordcount1, scale=c(7,1), rot.per=0.25, min.freq=1, random.order=F, random.color=T, colors=pal) 설명하자면, wordcount 수만큼 frequency(빈도)를 확인하라. 그리고 scale(폰트의 크기)은 최고 7픽셀에서, 제일 작은 건 1픽셀까지만. rotation되는 단어의 빈도는 0.25정도로 하고, 등장하는 단어의 가장 작은 빈도 수는 1로, 빈도가 가장 큰 단어를 중앙에 두도록 하기 위해 random order는 False 값을 준다. 컬러는 맘대로 해도 좋으니 True 값을 줄 수 있다. 대신 그 컬러 팔레트는 위에 정한 pal을 워드클라우드 사용하라 이다. 다음 그림은 문재인 대통령이 대표시절(1월 19일 신년 기자회견) 기자회견문으로 국민과 경제, 우리, 박근혜 등의 단어를 많이 언급한 것을 알 수 있다. 또한 경제 보다는 정치라는 단어가 더 많이 보인다. 얼핏 보면 뭔가 대통령에 대해 참 많은 이야기를 한 듯하다. ​​

  • 주식회사 OOO
  • 대표자 : 홍길동
  • 대표전화 : 02-1234-1234
  • FAX : 02-0000-0000
  • 주소 : 사업장 주소입력
  • 서버소재지 : 서울시 양천구 목동 924-4 KT목동 IDC-1 센터
  • 사업자번호 768-87-01085
  • MOBILE : 010-1234-1234
  • E-MAIL : test000@naver.com