개발자를 넘어 과학자로!!

    Data Engineering/data preprocessing 4

    중복제거하고 가장 최신 정보만 가져오기

    SELECT * FROM ( SELECT * , ROW_NUMBER() OVER (PARTITION BY ID ORDER BY REGDATE DESC) AS RN FROM A ) a WHERE a.RN = 1

    Data Engineering/data preprocessing 2021.03.22

    pd.read_csv 구분자 콤마가 데이터안에 있을때 처리

    stackoverflow.com/questions/44786415/read-csv-with-extra-commas-and-no-quotechar-with-pandas Read CSV with extra commas and no quotechar with Pandas? Data: from io import StringIO import pandas as pd s = '''ID,Level,QID,Text,ResponseID,responseText,date_key 375280046,S,D3M,Which is your favorite?,D5M0,option 1,2012-08-08 00:00:00 375280046,S,D... stackoverflow.com from io import StringIO import ..

    Data Engineering/data preprocessing 2021.03.12

    train/test set으로 비율로 나누기

    1) Line 수 split -l $[$(wc -l filename | cut -d" " -f1) * 70 / 100 ] filename 2) 퍼센트 split -b $[$(wc -c filename | cut -d" " -f1) * 70 / 100 ] filename

    Data Engineering/data preprocessing 2021.03.12

    pandas import

    read_csv 할때 데이터 안에 , 가 있는 경우 "" 로 감싸줘야한다. 검색해보면 serde 이용해서 복잡하게 external table 만들고 어렵게 하는데 hive에서 export 할때 편하게 할 수있는 방법은 concat 을 이용하는 거다. hive>select card_no, member_no, concat('\"',title,'\"'),community_no from tb_personalRecsys

    Data Engineering/data preprocessing 2021.03.12
    이전
    1
    다음
    프로필사진

    개발자를 넘어 과학자로!!

    Data Engineering ML Engineering 다음은...Deep Learning ? 도전은 계속된다.

    • 시간 구성 (207)
      • ML Engineering (0)
        • 데이터 탐색 (0)
        • Feature Engineering (0)
        • 모델 학습 (0)
        • 모델 평가 (0)
        • FDS운영 (0)
      • Data Engineering (37)
        • Kafka (2)
        • spark (19)
        • Scalar (3)
        • HBase (5)
        • airflow (1)
        • SQL Skin (3)
        • data preprocessing (4)
      • Public (131)
        • DevGraphy (1)
        • 주요 프로젝트 (6)
        • tip & tech (122)
        • 아이디어 (2)
        • 개발방법론 (0)
      • Private (38)
        • IT 동향파악 (13)
        • 출퇴근 영화제 (3)
        • 살며 생각하며 (10)
        • 읽어본 책 (9)
        • 캠핑 (2)
        • 낚시 (1)

    Tag

    최근글과 인기글

    • 최근글
    • 인기글

    최근댓글

    공지사항

    페이스북 트위터 플러그인

    • Facebook
    • Twitter

    Archives

    Calendar

      2025. 06  
    일 월 화 수 목 금 토
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28
    29 30

    방문자수Total

    • Today :
    • Yesterday :

    Copyright © Kakao Corp. All rights reserved.

    티스토리툴바

    단축키

    내 블로그

    내 블로그 - 관리자 홈 전환
    Q
    Q
    새 글 쓰기
    W
    W

    블로그 게시글

    글 수정 (권한 있는 경우)
    E
    E
    댓글 영역으로 이동
    C
    C

    모든 영역

    이 페이지의 URL 복사
    S
    S
    맨 위로 이동
    T
    T
    티스토리 홈 이동
    H
    H
    단축키 안내
    Shift + /
    ⇧ + /

    * 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.