'분류 전체보기' 카테고리의 글 목록

SELECT * FROM ( SELECT * , ROW_NUMBER() OVER (PARTITION BY ID ORDER BY REGDATE DESC) AS RN FROM A ) a WHERE a.RN = 1

Data Engineering/data preprocessing 2021.03.22

stackoverflow.com/questions/44786415/read-csv-with-extra-commas-and-no-quotechar-with-pandas Read CSV with extra commas and no quotechar with Pandas? Data: from io import StringIO import pandas as pd s = '''ID,Level,QID,Text,ResponseID,responseText,date_key 375280046,S,D3M,Which is your favorite?,D5M0,option 1,2012-08-08 00:00:00 375280046,S,D... stackoverflow.com from io import StringIO import ..

Data Engineering/data preprocessing 2021.03.12

train/test set으로 비율로 나누기

1) Line 수 split -l $[$(wc -l filename | cut -d" " -f1) * 70 / 100 ] filename 2) 퍼센트 split -b $[$(wc -c filename | cut -d" " -f1) * 70 / 100 ] filename

Data Engineering/data preprocessing 2021.03.12

pandas import

read_csv 할때 데이터 안에 , 가 있는 경우 "" 로 감싸줘야한다. 검색해보면 serde 이용해서 복잡하게 external table 만들고 어렵게 하는데 hive에서 export 할때 편하게 할 수있는 방법은 concat 을 이용하는 거다. hive>select card_no, member_no, concat('\"',title,'\"'),community_no from tb_personalRecsys

Data Engineering/data preprocessing 2021.03.12

[hive][error] SemanticException Column "칼럼명" Found in more than One Tables/Subqueries

하이브에서 다음과 같은 오류가 발생하는 원인은 조인 테이블이나 서브쿼리의 테이블에 동일한 이름의 칼럼이 있기 때문이다. 이럴때는 테이블의 얼라이어스를 이용하여 어느 테이블의 칼럼인지 명확하게 제시해 주어야 한다. AS-IS SELECT board_no as community_no FROM tb_board as board WHERE board.board_no NOT IN (SELECT distinct(tb.BOARD_NO) ....... TO-BE SELECT board.board_no as community_no FROM tb_board as board WHERE board.board_no NOT IN (SELECT distinct(tb.BOARD_NO) .........

Data Engineering/HBase 2020.01.07

Filebeat <-> Kafka Version 이슈

우리는 막대한 량의 로그를 수집하기 위해 elastic 사의 Filebeat 를 사용하고 있고 실시간 집계를 위해 Kafka 로 보내고있다. 근데 Filebeat 와 Kafka 사이에 커넥션이 자꾸 끊어져서 실시간 집계가 안되는 문제가 발생해서 봤더니 둘간의 버전 문제가 있었다. Elastic 공홈에서 Filebeat를 찾으면 아래와 같은 문구가 있다. Compatibility This output works with all Kafka versions in between 0.11 and 2.1.0. Older versions might work as well, but are not supported. 0.10 은 Broker와 커넥션이 갑자기 끊어지고 Broker의 Leader Partition 을 못찾..

Data Engineering/Kafka 2019.09.27

Hive Table 파티션 생성하고 데이터 붓기

Partition 이란? 여러분이 알고 있는 Partition이 맞습니다. 키를 기준으로 물리적으로 같이 저장시켜서 빨리 검색가능하게 만드는거죠. Non-Partition Table create table salesdata( salesperson_id int, product_id int, date_of_sale string) Partition Table create table salesdata_p( salesperson_id int, product_id int) Partitioned By (date_of_sale string) 여기서 문제. create table salesdata_p_backup as select * from salesdata_p 새로 생긴 salesdata_p_backup 테이블은 파..

Data Engineering/HBase 2019.09.23

Airflow와 씨름중..

현재 Oozie를 이용해서 Data Pipeline Scheduling을 처리하고 있는데 좀더 S/W 친화적인 환경에서 사용이 필요해서 Airflow를 설치해서 진행중임.. 테스트하며 얻은 내용을 이 카테고리에 정리할 계획

카테고리 없음 2019.09.17

Kafka 버전 확인

$ find ./libs/ -name \*kafka_\* | head -1 | grep -o '\kafka[^\n]*' kafka_2.9.2-0.8.1.1.jar.asc where 0.8.1.1 is your kafka version Kafka Version Check Github

Data Engineering/Kafka 2019.08.21

Yarn log 확인

로그 파일 위치 Command 로 확인 1. 특정 application 로그 확인 yarn logs -applicationId 2. 에러로그만 확인 yarn logs -applicationId -log_files stderr 3. container별 로그 확인 # application에서 사용하는 container 전체출력 yarn logs -applicationId -show_application_log_info # 위에 container정보에서 특정 container에 대한 로그 확인 yarn logs -applicationId -containerId [spark application architecture] executor는 항상 실행 중 작업이 없더라도 이 모델의 장점은 빠르다. 빨리 뜨고 빠르게..

Data Engineering/spark 2019.08.21

개발자를 넘어 과학자로!!

시간 구성 216

티스토리툴바

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31