본문 바로가기

Hadoop Ecosystem

(23)
flume install [jonghee helped me to set up and run flume]flume version : 1.4.0 port open 3333 at h001 An agent is started using a shell script called flume-ng which is located in the bin directory of the Flume distribution. You need to specify the agent name, the config directory, and the config file on the command line: This configuration defines a single agent named agent01 agent01 as a source that listens ..
Data Locality, The heart of MapReduce The heart of MapReduce is "Data Locality" 맵리듀스는 계산 노드에 데이터를 함께 배치한다. 따라서 데이터가 로컬에 있기 때문에 데이터 액세스가 빠를 수 밖에 없다. 이 특성은 맵리듀스의 핵심이고 좋은 성능을 낼 수 있는 이유이다. 네트워크 대역폭이 데이터 센터 환경에서 가장 중요한 자원이다. 네트워크 부하를 최소화할 수 있는 것이다. 계산하는 노드에서 필요한 데이터를 네트워크를 통해서 가져와야 하는 부담을 줄인 것이다. 맵리듀스 구현은 네트워크 대역폭을 보존하기 위해 네트워크위상 [topology : 장소, 공간 배치에 관한 학문 또는 정보]을 명시적으로 모델링한다. 맵리듀스는 구현 과정에서 실패한 맵 또는 리듀스 태스크를 검출하여 'machines that are hea..
sqoop import failure sqoop import failure [hadoop@h001 sqoop]$ ./bin/sqoop import --verbose --connect jdbc:mysql://192.168.73.11/hadoopdb --table sqt002 --fields-terminated-by ',' --username hadoop --password 1 --hive-import --hive-home /user/hive/warehouse/ -m 1 in progress : ? > --outdir /user/hive/warehouse/etl --hive-import --hive-table hiveimporttest--target-dir --whereuse help Warning: $HADOOP_HOME is deprecat..
./hbase org.apache.hadoop.hbase.util.RegionSplitter ta02_split_table HexStringSplit -c 3 -f f1 [hadoop@h001 bin]$ ./hbase org.apache.hadoop.hbase.util.RegionSplitter ta02_split_table HexStringSplit -c 3 -f f1 -c 3 : 미리 생성할 region 개수를 지정 -f f1 : table 에 포함하고자 하는 column familites 를 미리 지정 [ where -c 10, specifies the requested number of regions as 10, and -f specifies the column families you want in the table, separated by “:”. The tool will create a table named “test_table” with 10 regions:..
zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 3 retries [hadoop@h002 hadoop]$ ../hbase/bin/hbase shellHBase Shell; enter 'help' for list of supported commands.Type "exit" to leave the HBase ShellVersion 0.94.7, r1471806, Wed Apr 24 18:48:26 PDT 2013 hbase(main):001:0> listTABLE 13/07/01 00:26:19 ERROR zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 3 retries13/07/01 00:26:19 WARN zookeeper.ZKUtil: hconnection Unable to set watcher on zn..
R CMD INSTALL rhdfs_1.0.6.tar.gz RHadoop 설치하는데 장애물을 하나씩 들쳐내면서 수풀을 헤치고 나가는 느낌이다. 결정적으로 rhbase 설치에서 자꾸 예기치 못한게 나오는데 .. . . . . [hadoop@h001 Downloads]$ R CMD INSTALL rhdfs_1.0.6.tar.gz * installing to library ‘/home/hadoop/R/x86_64-redhat-linux-gnu-library/3.0’* installing *source* package ‘rhdfs’ ...** R** inst** preparing package for lazy loading** help*** installing help indices converting help for package ‘rhdfs’ finding HTML..
Thrift is a lightweight, language-independent software stack with an associated code generation mechanism for RPC. [hadoop@h001 thrift-0.9.0]$ cat README Apache Thrift Last Modified: 2010-Nov-04 License======= Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copyright ownership. The ASF licenses this fileto you under the Apache License, Version 2.0 (the"License"); you may not use..
RHadoop execution > b.time small.ints= to.dfs(1:900000) 13/06/27 23:26:25 INFO util.NativeCodeLoader: Loaded the native-hadoop library13/06/27 23:26:25 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library13/06/27 23:26:25 INFO compress.CodecPool: Got brand-new compressorWarning message: In to.dfs(1:9e+05) : Converting to.dfs argument to keyval with a NULL key > result = mapreduce(input = s..