트위터 메시지를 태그 클라우드(tag cloud, word cloud) 만들기 예제

노트정리/자바 JAVA 2017. 9. 26. 23:10

이 포스트에서 소개하는 태그 클라우드(tag cloud, word cloud, weighted list라는 다양한 이름으로 불림)는 어떤 문서의 빈번히 나타나는 단어를 시각화해서 보여주는 방법입니다(영문 위키 참조: 링크).

이전 글에서 2017/09/16 - [노트정리/자바 JAVA] - 자바(Java)에서 HtmlUnit을 이용해 트위터 특정 사용자의 친구 목록 크롤링하는 예제를 소개했습니다.

해당 글의 방법을 응용해서 특정 사용자의 친구 목록에 있는 사용자를 크롤링하는 방법 뿐 아니라 특정 사용자의 트위터 메시지, 친구들의 메시지도 긁어올 수 있습니다.

친구 목록에 있는 사람들의 메시지를 긁어와서 <아이디.txt> 파일로 저장했다고 가정하고, 태그 클라우드 예제를 살펴보겠습니다.

크롤링하는 대상은 http://koreantweeters.com/ktwitter/top/0/1/tags 에서 팔로워 수 순위 상위 20인입니다(지드래곤, 최시원, 닉쿤 등등).

1. 트윗 메시지 크롤링

이전 글을 참고하시기 바랍니다.

2. 태그 클라우드 라이브러리 설치

Kumo의 태그 클라우드 라이브러리를 사용합니다(링크 참고).

설치는 우분투에서 brew를 써서 합니다.

brew install https://raw.githubusercontent.com/kennycason/kumo/master/script/kumo.rb

brew가 없다면 apt-get install로 brew를 먼저 설치합니다.

설치하고 나면 어느 위치에 jar파일이 있는지 알려줍니다.

제 경우는 $HOME/.cache/Homebrew 입니다.

3. 태그 클라우드 만들기 예제

소스: 링크

package tagcloud;

import java.awt.Color;
import java.awt.Dimension;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import com.kennycason.kumo.CollisionMode;
import com.kennycason.kumo.WordCloud;
import com.kennycason.kumo.WordFrequency;
import com.kennycason.kumo.bg.RectangleBackground;
import com.kennycason.kumo.font.scale.LinearFontScalar;
import com.kennycason.kumo.nlp.FrequencyAnalyzer;
import com.kennycason.kumo.palette.ColorPalette;

public class Top20TagCloud {
	private static ArrayList<String> getTop20IDs(String fileName) {
		ArrayList<String> IDs = new ArrayList<String>();
		
		BufferedReader inputStream = null;
		
		try {
			inputStream = new BufferedReader(new FileReader(fileName));
			
			String l;
			while((l = inputStream.readLine()) != null) {
				IDs.add(l);
			}
		} catch (IOException e) {
			System.err.println("IOException: "+e.getMessage());
			System.exit(1);
		}
		
		return IDs;
	}
	
	private static void getTweets(ArrayList<String> IDs) throws InterruptedException {
		for (int i = 0; i < IDs.size(); i++) {
			String userName = IDs.get(i);
			TwitterCrawler.crawlingMessage(userName);
		}
	}
	
	private static void getTagcloud(String textFile) throws IOException {
		final FrequencyAnalyzer frequencyAnalyzer = new FrequencyAnalyzer();
		final List<WordFrequency> wordFrequencies = frequencyAnalyzer.load("./output/"+textFile+".txt");
		final Dimension dimension = new Dimension(600, 600);
		final WordCloud wordCloud = new WordCloud(dimension, CollisionMode.RECTANGLE);
		wordCloud.setPadding(2);
		wordCloud.setBackground(new RectangleBackground(dimension));
		wordCloud.setBackgroundColor(Color.WHITE);
		wordCloud.setColorPalette(new ColorPalette(new Color(0x4055F1), new Color(0x408DF1), new Color(0x40AAF1), new Color(0x40C5F1), new Color(0x40D3F1), new Color(0xFFFFFF)));
		wordCloud.setFontScalar(new LinearFontScalar(20, 60));
		wordCloud.build(wordFrequencies);
		wordCloud.writeToFile("./output/"+textFile+".png");
	}
	
	private static void drawTagCloud(ArrayList<String> IDs) throws IOException {
		for (int i = 0; i < IDs.size(); i++) {
			String textFile = IDs.get(i);
			getTagcloud(textFile);
		}
	}
	
	public static void main(String[] args) throws InterruptedException, IOException {
		ArrayList<String> IDs = getTop20IDs("top20ids.txt");
		getTweets(IDs);
		drawTagCloud(IDs);
	}
}

위와 같이 사각형의 태그클라우드를 만듭니다.

4. 태그 클라우드 결과

태그 클라우드는 사용자가 많이 언급한 단어를 강조해서 만듭니다.

팔로워가 많은 상위 20명 사용자 중에서 일부만 표시합니다.

(1) 지드래곤

(2) 이민호

(3) 이외수

(4) 박원순

5. 결론

한국 트위터 팔로워 수 상위 20 명 사용자의 태그 클라우드를 만드는 예제를 보았습니다.

태그 클라우드 결과로 각 사용자가 자신의 직업, 관심사에 해당하는 단어를 트윗에 빈번하게 포스트하는 것을 확인했습니다.

'노트정리 > 자바 JAVA' 카테고리의 다른 글

나이브 베이지안 자바 구현 + 자바 오브젝트 파일로 쓰고 읽기 (2)	2017.10.15
자바 함수에서 다른 종류의 오브젝트 반환하는 방법 (0)	2017.10.05
자바(Java)에서 HtmlUnit을 이용해 트위터 특정 사용자의 친구 목록 크롤링하는 예제 (0)	2017.09.16
자바에서 json 튜토리얼 (1)	2017.04.05
자바에서 파일 입출력하는 튜토리얼 (0)	2017.03.30
JDBC 튜토리얼 사이트 소개와 예제 (0)	2016.10.25
이클립스에서 the selection cannot be launched 에러 해결법. (0)	2015.09.30
자바의 배열에서 C, C++과 가장 다른 점 (0)	2014.02.13

Posted by 공돌이pooh

공돌이의 노트정리

트위터 메시지를 태그 클라우드(tag cloud, word cloud) 만들기 예제

'노트정리 > 자바 JAVA' 카테고리의 다른 글

최근에 올라온 글

최근에 달린 댓글

카테고리

링크

티스토리툴바


	(사진은 2022년 12월 Georgia Mountain Coaster 타러간 날) 블로그는 전자회로, 마이크로프로세서, 어셈블리어, C언어를 독학하는 과정을 적어두려고 시작했습니다. 게임을 좋아해서 매크로조이스틱을 만들고, 그 과정도 적었습니다. 지금은 소소한 일상, 호기심을 풀어가는 과정을 올리고 있습니다. by 공돌이pooh