시간 구성 216

How do I troubleshoot issue in Spark?

1. Spark pipeline이 적절한지 확인성능을 저하시키는 component가 있는지?2. cluster가 충분한 자원(core, memory)를 가지고 job을 실행하고 있는지?3. data의 병렬화가 잘 되었는지? (너무 많거나 너무 작아도 문제..)4. execurot별로 얼마나 많은 메모리를 소비하고 있는가?5. 적절한 serialization을 사용하고 있는가? (2.0에서 offheap기반의 encoder 추천)6. shuffle read/write가 증가 하고 있는가?7. application의 throughput & latency 측정 Spark UI가 하나의 Job에 대해서는 stage와 task단위의 구체적인 정보를 제공하고 있다. 문제는 과제를 위한 시스템이 폐쇄망에 존재하여 외..

Spark + Scala 개발환경

KAfka Streaming - Spark ML 을 이용했는데 머신 러닝 자체가 개발량이 많지 않아 spark-shell 로 한줄 한줄 검증하고 실제 Spark App. 은 SBT로 개발했다. ※ spark는 spark shell을 통해 한줄 한줄 실행해보며 결과를 확인할 수 있는 REPL(Read-Evaluate-print Loop)환경을 제공하므로 손쉬운 개발과 테스트가 가능하다. 개발자라면 책은 아파치 스파크 입문이 개발에 맞춰서 쓰여있으므로 이해하기 쉽다. 머신러닝은 개발량 보다는 알아야 하는 통계 지식이 우선된다. 기초 통계학이 아니라 응용 통계학에 가깝다. 알고리즘 선택은 해당 알고리즘의 목적에 대해 공부하면 할 수 있다 쳐도 파라메터 설정을 어떻게 할 것이며 출력되는 결과를 어떻게 이해할 것..

R을 이용한 분석 실무 교육

절대 가지말것. 돈은 회사가 내줬지만 돈아깝고 시간아깝고... 시간표에 나온 교육 과정은 정말 훌륭했다. 시간표 주요내용세부내용1. 빅데이터의 통계적 분석 이론 2시간1) 빅데이터 분석 ,데이터 마이닝 개념 2) 자료 입력 및 규격화 3) 데이터 분석 기초 4) 추정과 가설검정2. R의 기본 1시간1) R 기본 활용 2) R의 설치3. 빅 데이터 분석 1 3시간1) 빅 데이터 검증과 변환 2) 기술통계 3) 빈도분석 4) 신뢰도분석 5) 교차분석4. 빅 데이터 분석 2 5시간1) t-test 2) 분산분석 3) 상관분석 4) 회귀분석5. 빅 데이터 분석 실습 5시간1) 비정형 분석, 시각화 2) 정형+비정형 복합 분석 3) 관광+식품 빅데이터분석결제정보 결제수단무통장입금(전자계산서)결제금액520,000원..

spark to vertica

spark 에서 Vertica에 접속하여 Query를 수행하려면 Vertica에서 제공하는 두개의 파일이 필요하다. hpe-spark-connector-8.0.0-0.jarvertica-jdbc-8.0.0-0.jarVertica 의 버전은 7.2.3-5 부터 가능하다. https://my.vertica.com/docs/8.0.x/HTML/index.htm#Authoring/SparkConnector/InstallationAndDeployment.htm%3FTocPath%3DIntegrating%2520with%2520Apache%2520Spark%7C_____1 build.sbt에는 아래와 같이 넣는다. "org.clojars.erp12" % "jdbc-vertica" % "7.2.3" Spark-she..

SecureCRT Color Scheme 설정

코딩을 하다보면 장시간 터미널을 봐야하는데 눈이 아프다.눈 아픈걸 떠나서 ANSI Color Scheme을 적용하면 파란색이 너무 어두워서 주석의 내용이 잘 안보인다. Color Scheme을 변경하고자 한다면 아래 설정대로 진행한다. SecureCRT 6.1.1 ▶ Global Options, Default Session 수정 Optioins > Global Options > General > Default Session > Edit Default Settings ▷ Session Options - Default > Terninal > Emulation- Terminal: VT100 -> Xterm 으로 변경 - Anis color 체크- Use color scheme 체크 ▷ Session Optio..

Public/tip & tech 2017.11.22

원투 카고 채비 제작

대회때 쓸 채비를 만들어봤습니다. 입질 확률을 높이기 위해 카고 채비를 만들어봤는데 일본에서는 원투 카고가 하나의 장르로 인정받아 원투 카고채비를 위한 카고의 종류가 많지만 국내에서는 그닥 많지 않더군요. 그래서 대박 조과를 바란다는 마음보다는 심.심.해.서 만들어봤습니다. 준비물은 아래 사진과 같습니다. 로켓 카고, 20호 구멍 봉돌, 파이프도래, 핀도래 5호, 민도래 7호, 경심줄 30호, 8자슬리브, 1자 슬리브, 스텐리스 강선 로켓카고는 국내산은 없고 일본산입니다. 20호 구멍봉돌을 사용한 이유는 카고의 무게때문입니다. Hit 시 낚시대의 하중을 덜어주기 위해 30호가 아닌 20호를 사용하였습니다. 먼저 구멍 봉돌을 하나 끼워주고 양쪽에 이쁜 측광 구슬로 마감 처리합니다. 그 위에 로켓 카고를 달..

Private/낚시 2017.11.13

High Precision Event Timer - 그 것은 무엇인가??

High Precision Event Timer( HPET )은 인텔과 마이크로소프트가 멀티미디어 프로그램이나 시간에 민감한 프로그램의 요구를 반영하고자 서로 협력해 개발한 것이다. 원래 HPET 은 이름이 멀티미디어 타이머였으나 마이크로소프트의 DirectX 타이머와 혼란을 일으킬 것을 피하고자 이름을 바꾸었다. 실제 마이크로소프트의 테스트 엔지니어들은 HPET 초기 모델에 대해서 테스트를 진행하고 있었답니다. 그런데 이게 뜻밖으로 시스템 성능을 높여주고, 시스템의 정밀도를 높여주어 전체적으로 시스템 수행속도가 빨라졌답니다. 그것은 자신들의 OS인 Microsoft Windows에서 API를 호출함으로써 증명이 되었는데, 유저모드 함수인 QueryPerformanceCounter과 커널모드 함수인 Ke..

Public/tip & tech 2014.02.04

패킷캡쳐 라이브러리 Libpcap 의 MMAP 방식

패킷캡쳐 라이브러리 Libpcap 의 MMAP 방식 오늘은 한번 Libpcap 이야기를 잠깐 꺼내볼까 한다. Libpcap 에서 사용하는 방법중에 하나가 Memory Mapped 방식의 MMAP 방식이다. 패킷이 커널로부터 유저 공간으로 포워딩 되는 방식이 아니라, 링버퍼를 이용한 것이다. 패킷 캡쳐 방식으로 가장 많이 이용하는 Libpcap 은 상위 레벨의 패킷 캡쳐 라이브러리이다. Tcpdump, Snort, Wireshark 등 많은 네트워크 패킷 관련 프로그램이 사용하고 있다. Libpcap 은 네트워크 인터페이스 카드에 Promiscuous 모드 설정을 허용하며, 네트워크 카드에서 패킷을 커널로 포워드 시킨다. 커널의 패킷은 다시 PF_PACKET 소켓을 거쳐 유저 공간으로 까지 넘어와 사용할 ..

카테고리 없음 2013.12.10

프로그래밍 성능 향상을 위한 C/C++ 튜닝

1 . 소프트웨어 최적화 소프트웨어 최적화란? - S/W가 보다 빠르게 실행되거나 자원(메모리)를 적게 사용하도록 만들기 위해서 S/W를 변경하는 것이다. 하드웨어와 S/W 성능 향상의 관계 - “무어의 법칙”에 따르면 하드웨어의 성능 약 2년마다 2배씩 증가한다. - 같은 하드웨어에서 실행하더라도 보다 빠르게 실행될 수 있는 소프트웨어가 필요하다. - 하드웨어 성능 향상에 비례해서 성능이 향상될 수 있도록 소프트웨어를 개발해야 한다 . → 확장성(scalability) 최적화의 레벨 1) 디자인 레벨 : 적절한 알고리즘의 선택이 S/W 성능에 가장 크게 영향을 준다. 2) 소스 코드 레벨 : 성능 저하를 일으키는 코딩 기법을 피하고, 컴파일러가 최적화하기 좋은 스타일의 코딩 기법을 사용한다. 3) 컴파..

Public/tip & tech 2013.06.04

kernel system call - do_brk()

DPDK 문서를 보다가 커널이 프로세스에게 메모리를 동적으로 할당하는 데 쓰이는 do_brk() 라는 System call 이 kernel 2.4 이하에서 취약점이 발견되어 이것을 이용하면 시스템의 root 를 획득할 수 있다고 하는 흥미로운 기사를 발견했다. 아래는 그 내용이다. ::: 버전 2.4.22 이하 리눅스 커널의 do_brk() 취약점 ::: 작성일 : 2003년 12월 6일 작성자 : iSEC Security Research (http://isec.pl) 번역 : 해커스쿨 (http://hackerschool.org) 이 문서는 지난 12월 초에 발견된 새로운 리눅스 커널 결함에 대하여 외국의 iSEC Security Research사에서 분석한 문서를 번역한 것입니다. 번역과 배포의 목적..

Public/tip & tech 2013.05.06