PIG 관련 URL

프로그램밍언어/HADOOP 2014. 6. 20. 00:31

http://wiki.apache.org/pig/PigLatin#Data_Items

http://wiki.apache.org/pig/PigLatin -add(2013/01/08)

load : 하둡서버의 파일을 LOAD

load 파일경로

필드 구분자 지정 :

A = LOAD 'student' USING PigStorage('\t') AS (name: chararray, age:int, gpa: float);

filter : 지정된 조건을 내용을 필터링한다.

숫자 : X = FILTER A BY (f1 == 8);

문자 : X = FILTER A BY (f2 == 'apache');

매치 : X = FILTER A BY (f1 matches '.*apache.*');

foreach :

변수A에서 $3필드값을 변수 B에 저장

B = FOREACH A GENERATE $3;

store : 하둡서버의 파일을 로컬 파일에 저장

store A11 into /data2/jchern/output.txt

join : 두개의 파일을 키값을 가지고 join

OUT = join IN1 by query, IN2 by query;

order :

OUT = order IN1 by $0 ASC, $15 DESC;

group : 특정 키값을 가지고 그루핑

OUT = group IN1 by (query, url);

pig Nested FOREACH (0)	2014.06.20
hadoop safemode 해제 (0)	2014.06.20
[PIG] set jog.name default_parallel (0)	2014.06.20
[PIG] ERROR 1000: Error during parsing. Encountered (0)	2014.06.20

Posted by 고요한하늘

고요한 하늘