Data Engineering/HBase 5

[hive][error] SemanticException Column "칼럼명" Found in more than One Tables/Subqueries

하이브에서 다음과 같은 오류가 발생하는 원인은 조인 테이블이나 서브쿼리의 테이블에 동일한 이름의 칼럼이 있기 때문이다. 이럴때는 테이블의 얼라이어스를 이용하여 어느 테이블의 칼럼인지 명확하게 제시해 주어야 한다. AS-IS SELECT board_no as community_no FROM tb_board as board WHERE board.board_no NOT IN (SELECT distinct(tb.BOARD_NO) ....... TO-BE SELECT board.board_no as community_no FROM tb_board as board WHERE board.board_no NOT IN (SELECT distinct(tb.BOARD_NO) .........

Hive Table 파티션 생성하고 데이터 붓기

Partition 이란? 여러분이 알고 있는 Partition이 맞습니다. 키를 기준으로 물리적으로 같이 저장시켜서 빨리 검색가능하게 만드는거죠. Non-Partition Table create table salesdata( salesperson_id int, product_id int, date_of_sale string) Partition Table create table salesdata_p( salesperson_id int, product_id int) Partitioned By (date_of_sale string) 여기서 문제. create table salesdata_p_backup as select * from salesdata_p 새로 생긴 salesdata_p_backup 테이블은 파..

HiveHBaseTableInputFormat.java

이 파일은 Hbase에 있는 테이블을 Hive에서 생성할 때 (Metadata mapping) 사용된다. Mapping 방법에 대해 HBase 개발자 닉 디미덕은 아래와 같이 제시한다.(나는 닉 미더덕이라고 부르는데 HBase in Action 책 쓴사람이고 HBase 개발자다) https://ko.hortonworks.com/blog/hbase-via-hive-part-1/ 하나는 HBaseStorageHandler 를 이용하여 HBase 테이블을 Hive Metastore에 등록하는 방법이고다른 하나는 HiveHBaseTableInputFormat 및 HiveHBaseTableOutputFormat. HBase 테이블을 Hive에 직접 등록하는 방법이다. HBaseStorageHandler 는 Hba..

HBase -> Hive 연동

Hbase의 noSQL Data를 분석이나 Service에서 그대로 사용하려면 개발 공수가 많이 든다.그래서 주로 SQL on Hadoop을 쓴다. 나는 Hbase를 Data Ware House로 구성하고 SQL On Hadoop으로 Hive + Presto를 사용했는데먼저 HBase -> Hive Porting 하는 방법을 기술한다. 1. HBase에 테이블이 존재한다고 가정한다. hbase(main):001:0> listTABLEcost_tbltbil_aws_dtbil_aws_stbil_azr_day_stbil_comn_ctbil_oprt_dtl_htbil_pfx_htbil_svg_set_inst_ltbil_svg_set_ltbil_tag_htic_tbil_aws_dtoc_tbil_aws_dtpms_..

HBase Bulk Loading

Hbase에 importtsv를 통해 Bulk Loading 하는 방법을 소개함. 기본적인 내용은 http://hbase.apache.org/0.94/book/ops_mgt.html#importtsv 에 나와있다.하지만 나는 이대로 하니까 안됐다.. 먼저 csv 데이터를 준비하고 HDFS에 넣는다. 먼저 Hadoop에 폴더를 생성해야하는데 아래와같이 하위 디렉토리까지는 자동으로 안만들어진다. [hadoop@ip-10-251-156-185 ~]$ hadoop fs -df -hFilesystem Size Used Available Use%hdfs://ip-10-251-156-185.ap-northeast-2.compute.internal:8020 69.5 G 15.8 M 69.2 G 0%[hadoop@ip-..