'2008/09 글 목록

'2008/09'에 해당되는 글 2건

2008.09.06 PLSA
2008.09.05 Expectation Maximization

PLSA

언어처리 2008. 9. 6. 12:30

EM for Gaussian Mixture

공분산(Covariance) : 공분산(共分散, Covariance)은 확률론과 통계학분야에서 2개의 확률변수의 상관정도를 나타내는 값이다.(1개의 변수의 이산정도를 나타내는 분산과는 별개임) 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향의 상관관계에 있다면, 공분산의 값은 양수가 될 것이다. 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다.

LINK : http://ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0

다변량정규분포 - Multivariate Normal Distribution( multivariate Gaussian distribution ) : http://it4lnu.hannam.ac.kr/Book/MDA/dist_mda_wolfpack.pdf

LINK : http://enc.daum.net/dic100/contents.do?query1=20XXX50347

그림 출처 : nlp.korea.ac.kr/new/seminar/2000spring/fsnlp/Chap14_Clustering.ppt

POS Tagging에서의 EM

Complete data : 문장, 대응하는 태그열
관측 데이터 : 문장
비관측 데이터 : 태그열
모델 : transition/emission 확률 테이블

Synonyms(동의어) : 같은 의미를 가진 모양이 다른 단어

eg > 'car' & 'automobile'

재현율이 작아지는 원인

Polysemys(다의어) : 여러가지 뜻이 있는 단어

eg > 'saturn'

정확률을 낮춘다

Topics과 words 사이의 불일치 문제

LSA의 목적은 문서 속에 있는 Topics에 대해서 단어 뒤에 숨겨진 의미에 대해서 찾아 내는것이다.

Topics과 Words사이의 찾이점:

Word : 관측할수 있다.

Topics : 관측할수 없다. 숨겨져 있다.

LINK : http://www.springerlink.com/content/l5656365840672g8/fulltext.pdf

LINK : http://www2007.org/posters/poster859.pdf

LINK: http://www.dcs.shef.ac.uk/~genevieve/lsa_tutorial.htm

LINK : www.aclweb.org/anthology-new/E/E06/E06-1014.pdf

LINK : http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis

LINK : www.csie.ntu.edu.tw/~b94063/files/PP06.doc

LINK : rakaposhi.eas.asu.edu/cse494/notes/s07-plsa.ppt

LINK : http://bi.snu.ac.kr/Publications/Conferences/Domestic/KISS06F_ChangJH.pdf( Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 )

LINK : http://www.nature.com/nbt/journal/v26/n8/fig_tab/nbt1406_F1.html

이 글은 스프링노트에서 작성되었습니다.

'언어처리' 카테고리의 다른 글

Expectation Maximization (0)	2008.09.05
조건부 확률 (1)	2008.07.25
Maximum Likelihood Estimation (0)	2008.07.23
Latent Semantic Analysis 2 (1)	2008.05.13
Latent Semantic Analysis (2)	2008.04.30

Posted by 고요한하늘

Expectation Maximization

언어처리 2008. 9. 5. 18:48

EM 알고리즘은 확률 모델에서 MLE parameters를 찾기위해 사용한다.

EM 알고리즘은 두단계를 거치는데

첫번째 단계는

E단계( Expectation step )

두번째 단계는

M단계( Maximization step )이다.

running 과정에서는 이 두 단계가 계속 반복된다.

간단한 예를 살펴보면

1. 초기값 설정

2. 반복 과정

2.1 E-STEP : 주어진 현재 파라미터 추정치로 unknown 변수가 특정 class에 속하는지에 대한 기대값을 추정한다.

2.2 M-STEP : unknown 변수의 기대 추정치를 가지고 데이터의 최대 확률값(MLE)을 재 추정한다.

EXAMPLE >>
[STEP1] 4,10 , ? , ?

Initial mean value : 0

[STEP2] 4, 10, 0 , 0

New Mean : 3.5{ ( 4 + 10 + 0 + 0 ) /4 }

[STEP3] 4, 10, 3.5, 3.5

New Mean : 5.5

[STEP4] 4, 10, 5.25, 5.25

New Mean : 6.125

[STEP5] 4, 10, 6.125, 6.125

New Mean : 6.5625

[STEP6] 4, 10, 6.5626, 6.5625

New Mean : 6.7825

[STEP7] 4, 10, 6.7825, 6.7825

이 과정을 반복하다 보면 Mean이 7에 가까워지는것을 볼 수 있다.

파라미터를 추정하는 방법론이기 때문에 수렴 속도가 빨라지거나 하지는 않는다

LINK : http://en.wikipedia.org/wiki/Expectation-maximization_algorithm

LINK : Foundations of Statistical Natural Language Processing

LINK : http://nlp.korea.ac.kr/new/seminar/2000spring/fsnlp/Chap14_Clustering.ppt

-----------------------------------------------------------------------------------------------------

'언어처리' 카테고리의 다른 글

PLSA (0)	2008.09.06
조건부 확률 (1)	2008.07.25
Maximum Likelihood Estimation (0)	2008.07.23
Latent Semantic Analysis 2 (1)	2008.05.13
Latent Semantic Analysis (2)	2008.04.30

Posted by 고요한하늘

이전 1 다음

고요한 하늘

'2008/09'에 해당되는 글 2건

PLSA

EM for Gaussian Mixture

'언어처리' 카테고리의 다른 글

Expectation Maximization

'언어처리' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바

« 2008/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30