http://www.cloudera.com/wp-content/uploads/2010/01/IntroToPig.pdf

http://wiki.apache.org/pig/PigLatin#Data_Items


http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html

http://pig.apache.org/docs/r0.9.2/func.html#replace


http://wiki.apache.org/pig/PigLatin  -add(2013/01/08)


load : 하둡서버의 파일을 LOAD

load 파일경로


필드 구분자 지정 : 

A = LOAD 'student' USING PigStorage('\t') AS (name: chararray, age:int, gpa: float); 


filter : 지정된 조건을 내용을 필터링한다.

숫자 : X = FILTER A BY (f1 == 8);

문자 : X = FILTER A BY (f2 == 'apache');

매치 : X = FILTER A BY (f1 matches '.*apache.*');


foreach : 

변수A에서 $3필드값을 변수 B에 저장

B = FOREACH A GENERATE $3;


store : 하둡서버의 파일을 로컬 파일에 저장

store A11 into /data2/jchern/output.txt


join : 두개의 파일을 키값을 가지고 join

OUT = join IN1 by query, IN2 by query;


order : 

OUT = order IN1 by $0 ASC, $15 DESC;


group : 특정 키값을 가지고 그루핑

OUT = group IN1 by (query, url);

'프로그램밍언어 > HADOOP' 카테고리의 다른 글

pig Nested FOREACH  (0) 2014.06.20
hadoop safemode 해제  (0) 2014.06.20
[PIG] set jog.name default_parallel  (0) 2014.06.20
[PIG] ERROR 1000: Error during parsing. Encountered  (0) 2014.06.20
Posted by 고요한하늘
,