Data Engineering/spark

업무 범위

quantapia 2018. 5. 29. 11:08

Spark는 ML을 지원하는 분석툴도 가능하지만 나는 spark를 big data engineering Tool로서 사용한다.


내가 지금 하는 일은 Data Science가 아니다.

Data Engineering 이다. 분석가가 만든 모델을 주기적으로 학습시켜 정확도가 확보된 모델을 자동으로 생성시킨다.


또한 분석가가 필요로 하는 데이터를 확보할 수 있도록 데이터 파이프라인들을 만든다.

주로 HBase에서 꺼내다가 전처리를(StandardScaling, Outlier Remove, etc) 한 후 분석가에게 갖다 바친다.


save image


데이터 엔지니어로 시작했다가 지금은 비즈니스적인 문제를 ML/DL을 이용하여 해결하는 역할을 하고 있다.

데이터 수집/분석/전처리/학습/모델링/Serving/운영까지 다 하는 Full Stack Engineer다.