EM for Gaussian Mixture
공분산(Covariance) : 공분산(共分散, Covariance)은 확률론과 통계학분야에서 2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.
LINK : http://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0
다변량정규분포 - Multivariate Normal Distribution( multivariate Gaussian distribution ) : http://it4lnu.hannam.ac.kr/Book/MDA/dist_mda_wolfpack.pdf
LINK : http://enc.daum.net/dic100/contents.do?query1=20XXX50347
그림 출처 : nlp.korea.ac.kr/new/seminar/2000spring/fsnlp/Chap14_Clustering.ppt
POS Tagging에서의 EM
-
Complete data : 문장, 대응하는 태그열
-
관측 데이터 : 문장
-
비관측 데이터 : 태그열
-
모델 : transition/emission 확률 테이블
Synonyms(동의어) : 같은 의미를 가진 모양이 다른 단어
eg > 'car' & 'automobile'
재현율이 작아지는 원인
Polysemys(다의어) : 여러가지 뜻이 있는 단어
eg > 'saturn'
정확률을 낮춘다
Topics과 words 사이의 불일치 문제
LSA의 목적은 문서 속에 있는 Topics에 대해서 단어 뒤에 숨겨진 의미에 대해서 찾아 내는것이다.
Topics과 Words사이의 찾이점:
Word : 관측할수 있다.
Topics : 관측할수 없다. 숨겨져 있다.
LINK : http://www.springerlink.com/content/l5656365840672g8/fulltext.pdf
LINK : http://www2007.org/posters/poster859.pdf
LINK: http://www.dcs.shef.ac.uk/~genevieve/lsa_tutorial.htm
LINK : www.aclweb.org/anthology-new/E/E06/E06-1014.pdf
LINK : http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis
LINK : www.csie.ntu.edu.tw/~b94063/files/PP06.doc
LINK : rakaposhi.eas.asu.edu/cse494/notes/s07-plsa.ppt
LINK : http://bi.snu.ac.kr/Publications/Conferences/Domestic/KISS06F_ChangJH.pdf( Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 )
이 글은 스프링노트에서 작성되었습니다.
'언어처리' 카테고리의 다른 글
Expectation Maximization (0) | 2008.09.05 |
---|---|
조건부 확률 (1) | 2008.07.25 |
Maximum Likelihood Estimation (0) | 2008.07.23 |
Latent Semantic Analysis 2 (1) | 2008.05.13 |
Latent Semantic Analysis (2) | 2008.04.30 |