시간 구성 216

pd.read_csv 구분자 콤마가 데이터안에 있을때 처리

stackoverflow.com/questions/44786415/read-csv-with-extra-commas-and-no-quotechar-with-pandas Read CSV with extra commas and no quotechar with Pandas? Data: from io import StringIO import pandas as pd s = '''ID,Level,QID,Text,ResponseID,responseText,date_key 375280046,S,D3M,Which is your favorite?,D5M0,option 1,2012-08-08 00:00:00 375280046,S,D... stackoverflow.com from io import StringIO import ..

[hive][error] SemanticException Column "칼럼명" Found in more than One Tables/Subqueries

하이브에서 다음과 같은 오류가 발생하는 원인은 조인 테이블이나 서브쿼리의 테이블에 동일한 이름의 칼럼이 있기 때문이다. 이럴때는 테이블의 얼라이어스를 이용하여 어느 테이블의 칼럼인지 명확하게 제시해 주어야 한다. AS-IS SELECT board_no as community_no FROM tb_board as board WHERE board.board_no NOT IN (SELECT distinct(tb.BOARD_NO) ....... TO-BE SELECT board.board_no as community_no FROM tb_board as board WHERE board.board_no NOT IN (SELECT distinct(tb.BOARD_NO) .........

Filebeat <-> Kafka Version 이슈

우리는 막대한 량의 로그를 수집하기 위해 elastic 사의 Filebeat 를 사용하고 있고 실시간 집계를 위해 Kafka 로 보내고있다. 근데 Filebeat 와 Kafka 사이에 커넥션이 자꾸 끊어져서 실시간 집계가 안되는 문제가 발생해서 봤더니 둘간의 버전 문제가 있었다. Elastic 공홈에서 Filebeat를 찾으면 아래와 같은 문구가 있다. Compatibility This output works with all Kafka versions in between 0.11 and 2.1.0. Older versions might work as well, but are not supported. 0.10 은 Broker와 커넥션이 갑자기 끊어지고 Broker의 Leader Partition 을 못찾..

Hive Table 파티션 생성하고 데이터 붓기

Partition 이란? 여러분이 알고 있는 Partition이 맞습니다. 키를 기준으로 물리적으로 같이 저장시켜서 빨리 검색가능하게 만드는거죠. Non-Partition Table create table salesdata( salesperson_id int, product_id int, date_of_sale string) Partition Table create table salesdata_p( salesperson_id int, product_id int) Partitioned By (date_of_sale string) 여기서 문제. create table salesdata_p_backup as select * from salesdata_p 새로 생긴 salesdata_p_backup 테이블은 파..

Yarn log 확인

로그 파일 위치 Command 로 확인 1. 특정 application 로그 확인 yarn logs -applicationId 2. 에러로그만 확인 yarn logs -applicationId -log_files stderr 3. container별 로그 확인 # application에서 사용하는 container 전체출력 yarn logs -applicationId -show_application_log_info # 위에 container정보에서 특정 container에 대한 로그 확인 yarn logs -applicationId -containerId [spark application architecture] executor는 항상 실행 중 작업이 없더라도 이 모델의 장점은 빠르다. 빨리 뜨고 빠르게..