오늘 저녁 포스팅한 글 

2017/10/02 - [소소한 일상. 다요리.] - 블로그 제목, 포스트의 TF-IDF 변환으로 유사한 글 검색한 결과 로 부터 이어집니다.


이전 실험에서는 지난 포스팅의 그림 1과 유사하게 TF_(term, document)는 1+log(TF_td) 공식을 썼습니다.


그랬더니 TF-IDF 가중치 행렬이 희소행렬(sparse matrix)가 안되더군요.


유사도를 계산하면 매우 높게 나왔습니다.


희소 행렬을 만들어서 정말 정말 정말 비슷한 글들만 유사하다는 결과를 냈으면 좋겠어서, TF-IDF 가중치 행렬의 원소에서 TF는 다음 공식을 따랐습니다.


TF_(term, document) = log(1+TF_td)


따라서, 어떤 문서에 해당하는 단어가 존재하지 않으면 이 행렬의 원소는 0이 됩니다.


이 부분을 수정하고 제 블로그의 글 10개를 무작위로 선정하여 유사한 문서를 리턴한 결과는 아래와 같습니다. 제가 봤을 때 이전 보다 성능 더 좋아진 것 같네요.


더 정확한 실험을 하려면 사람이 이 분석 프로그램이 찾은 결과가 참인지 거짓인지 판단하게 하는 것도 추가해야겠죠.


(제가 글을 올릴 때, 제목이 글의 내용 보다 더 큰 영향을 준다고 가정해서, 이전 분석과 동일하게 제목에는 가중치 0.65, 글에는 0.35를 할당했습니다.)


=======================


[Your Query] 289

매크로 스틱 칩 교환 방법. 추가사항 - 준비물 http://woongheelee.com/entry/매크로-스틱-칩-교환-방법-추가사항-준비물


[Related Articles]

매크로 스틱 사용 설명서 http://woongheelee.com/entry/매크로-스틱-사용-설명서

매크로 스틱 개발 작업 공간 http://woongheelee.com/entry/매크로-스틱-개발-작업-공간

매크로 조이스틱 만들기 - 무족초 매크로 http://woongheelee.com/entry/매크로-조이스틱-만들기-무족초-매크로

마이크로칩 칩 선정 http://woongheelee.com/entry/마이크로칩-칩-선정

애니팡 매크로 http://woongheelee.com/entry/애니팡-매크로


[Your Query] 140

영어 타자 속도 측정하는 사이트 http://woongheelee.com/entry/영어-타자-속도-측정하는-사이트


[Related Articles]

무료 영어 작문 교정 사이트 http://woongheelee.com/entry/무료-영어-작문-교정-사이트

무료 영어 작문 교정 사이트 2 http://woongheelee.com/entry/무료-영어-작문-교정-사이트-2

words per minutes 분당 영어 단어 타자 수 http://woongheelee.com/entry/words-per-minutes-분당-영어-단어-타자-수

n제곱, n승의 영어 표현 http://woongheelee.com/entry/n제곱-n승의-영어-표현

PS 파일 PDF 변환 해주는 사이트 http://woongheelee.com/entry/PS-파일-PDF-변환-해주는-사이트


[Your Query] 346

만들어진 매크로 http://woongheelee.com/entry/만들어진-매크로


[Related Articles]

카즈야 매크로 http://woongheelee.com/entry/카즈야-매크로

매크로 버튼 배치 http://woongheelee.com/entry/매크로-버튼-배치

매크로 조이스틱 만들기 - 무족초 매크로 http://woongheelee.com/entry/매크로-조이스틱-만들기-무족초-매크로

애니팡 매크로 http://woongheelee.com/entry/애니팡-매크로

매크로 조이스틱 제작 강좌 10. 매크로 프로그램 만들기 http://woongheelee.com/entry/매크로-조이스틱-제작-강좌-10-매크로-프로그램-만들기


[Your Query] 409

6.9.3 시험성적계산 http://woongheelee.com/entry/6-9-3-시험성적계산


[Related Articles]

6.9.4 시험성적계산2 (어셈블리어) http://woongheelee.com/entry/6-9-4-시험성적계산2-어셈블리어

6.9.11 메세지 암호화 http://woongheelee.com/entry/6-9-11-메세지-암호화

6.9.5. 6.9.6 대학등록(1)(2) http://woongheelee.com/entry/6-9-5-6-9-6-대학등록-1-2

6.9.2 루프 구현 http://woongheelee.com/entry/6-9-2-루프-구현

6.9.7 부울계산기(1) http://woongheelee.com/entry/6-9-7-부울계산기-1


[Your Query] 114

네모로직 알고리즘 - 마땅히 비워야할 셀 구하는 방법, simple spaces http://woongheelee.com/entry/네모로직-알고리즘-마땅히-비워야할-셀-구하는-방법-simple-spaces


[Related Articles]

네모로직 알고리즘 - simple spaces를 찾은 이후에 simple boxes하는 방법, forcing http://woongheelee.com/entry/네모로직-알고리즘-simple-spaces를-찾은-이후에-simple-boxes하는-방법-forcing

네모로직 알고리즘 - 채워진 셀로 simple boxes를 구하는 방법, glue. http://woongheelee.com/entry/네모로직-알고리즘-채워진-셀로-simple-boxes를-구하는-방법-glue

네모로직 알고리즘 – 당연히 채워지는 셀 구하는 공식, simple boxes http://woongheelee.com/entry/네모로직-알고리즘-–-당연히-채워지는-셀-구하는-공식-simple-boxes

네모로직 알고리즘 - 뭉친 박스에서 비워야할 빈 칸을 찾는 테크닉, mercury. http://woongheelee.com/entry/네모로직-알고리즘-뭉친-박스에서-비워야할-빈-칸을-찾는-테크닉-mercury

네모로직 알고리즘 - 채워진 셀 사이를 채울지 말지 결정하는 방법, joining and splitting http://woongheelee.com/entry/네모로직-알고리즘-채워진-셀-사이를-채울지-말지-결정하는-방법-joining-and-splitting


[Your Query] 57

김정아 역 (2015), GoF의 디자인 패턴, 프로텍미디어. http://woongheelee.com/entry/김정아-역-2015-GoF의-디자인-패턴-프로텍미디어


[Related Articles]

정사범, 송용근 역 (2015), 데이터 마이닝 개념과 기법, 에이콘출판사 http://woongheelee.com/entry/정사범-송용근-역-2015-데이터-마이닝-개념과-기법-에이콘출판사

사이먼 몽크, 번역판 (2015) 라즈베리 파이 쿡북, 한빛 미디어. http://woongheelee.com/entry/사이먼-몽크-번역판-2015-라즈베리-파이-쿡북-한빛-미디어

스테판 바이츠 (2015), 검색이 바꿀 미래를 검색하다, 코리아닷컴. http://woongheelee.com/entry/스테판-바이츠-2015-검색이-바꿀-미래를-검색하다-코리아닷컴

최범균 (2013), 객체 지향과 디자인 패턴(개발자가 반드시 정복해야 할), 인투북스. http://woongheelee.com/entry/최범균-2013-객체-지향과-디자인-패턴-개발자가-반드시-정복해야-할-인투북스

홍성수 (2014), 피크 PEAK, 영상출판미디어. http://woongheelee.com/entry/홍성수-2014-피크-PEAK-영상출판미디어


[Your Query] 140

영어 타자 속도 측정하는 사이트 http://woongheelee.com/entry/영어-타자-속도-측정하는-사이트


[Related Articles]

무료 영어 작문 교정 사이트 http://woongheelee.com/entry/무료-영어-작문-교정-사이트

무료 영어 작문 교정 사이트 2 http://woongheelee.com/entry/무료-영어-작문-교정-사이트-2

words per minutes 분당 영어 단어 타자 수 http://woongheelee.com/entry/words-per-minutes-분당-영어-단어-타자-수

n제곱, n승의 영어 표현 http://woongheelee.com/entry/n제곱-n승의-영어-표현

PS 파일 PDF 변환 해주는 사이트 http://woongheelee.com/entry/PS-파일-PDF-변환-해주는-사이트


[Your Query] 174

네모로직 플래쉬 게임 http://woongheelee.com/entry/네모로직-플래쉬-게임


[Related Articles]

네모로직 재미있네요. http://woongheelee.com/entry/네모로직-재미있네요

온라인 게임 해킹 http://woongheelee.com/entry/온라인-게임-해킹

네모로직 풀이 알고리즘에 대한 소개 http://woongheelee.com/entry/네모로직-풀이-알고리즘에-대한-소개

네모로직 깊이우선탐색 방식을 사용하기 위한 준비 http://woongheelee.com/entry/네모로직-깊이우선탐색-방식을-사용하기-위한-준비

네모로직 알고리즘 - 마땅히 비워야할 셀 구하는 방법, simple spaces http://woongheelee.com/entry/네모로직-알고리즘-마땅히-비워야할-셀-구하는-방법-simple-spaces


[Your Query] 488

Reversible 풀이중 http://woongheelee.com/entry/Reversible-풀이중


[Related Articles]

Reversible 풀이중2 http://woongheelee.com/entry/Reversible-풀이중2

Timer0 http://woongheelee.com/entry/Timer0

VS Rotate http://woongheelee.com/entry/VS-Rotate

74HC595를 이용한 port의 확장 http://woongheelee.com/entry/74HC595를-이용한-port의-확장

이글캐드에서 거버파일 만드는 방법 http://woongheelee.com/entry/이글캐드에서-거버파일-만드는-방법


[Your Query] 397

디테일의 힘 http://woongheelee.com/entry/디테일의-힘


[Related Articles]

리버스 엔지니어링(역분석 구조와 원리) http://woongheelee.com/entry/리버스-엔지니어링-역분석-구조와-원리

USB완전정복3.0버전까지USB의모든것 http://woongheelee.com/entry/USB완전정복3-0버전까지USB의모든것

자신있게 살아라 / 앤드류 매튜스 http://woongheelee.com/entry/자신있게-살아라-앤드류-매튜스

삼성을 생각한다 http://woongheelee.com/entry/삼성을-생각한다

프리젠테이션 박사 http://woongheelee.com/entry/프리젠테이션-박사


Posted by 공돌이pooh
,