http://www.cloudera.com/wp-content/uploads/2010/01/IntroToPig.pdf
http://wiki.apache.org/pig/PigLatin#Data_Items
http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html
http://pig.apache.org/docs/r0.9.2/func.html#replace
http://wiki.apache.org/pig/PigLatin -add(2013/01/08)
load : 하둡서버의 파일을 LOAD
load 파일경로
필드 구분자 지정 :
A = LOAD 'student' USING PigStorage('\t') AS (name: chararray, age:int, gpa: float);
filter : 지정된 조건을 내용을 필터링한다.
숫자 : X = FILTER A BY (f1 == 8);
문자 : X = FILTER A BY (f2 == 'apache');
매치 : X = FILTER A BY (f1 matches '.*apache.*');
foreach :
변수A에서 $3필드값을 변수 B에 저장
B = FOREACH A GENERATE $3;
store : 하둡서버의 파일을 로컬 파일에 저장
store A11 into /data2/jchern/output.txt
join : 두개의 파일을 키값을 가지고 join
OUT = join IN1 by query, IN2 by query;
order :
OUT = order IN1 by $0 ASC, $15 DESC;
group : 특정 키값을 가지고 그루핑
OUT = group IN1 by (query, url);
'프로그램밍언어 > HADOOP' 카테고리의 다른 글
pig Nested FOREACH (0) | 2014.06.20 |
---|---|
hadoop safemode 해제 (0) | 2014.06.20 |
[PIG] set jog.name default_parallel (0) | 2014.06.20 |
[PIG] ERROR 1000: Error during parsing. Encountered (0) | 2014.06.20 |