Data Engineering/spark

Spark.mllib vs Spark.ml

quantapia 2018. 4. 24. 09:31

DataFrame-based API is primary API


The MLlib RDD-based API is now in maintenance mode.

As of Spark 2.0, the RDD-based APIs in the spark.mllib package have entered maintenance mode. The primary Machine Learning API for Spark is now the DataFrame-based API in the spark.ml package.

그래서 나는 Spark.ml 을 이용해서 기지국 혼잡 인지 모델링을 구현했다.

Spark.ml은 Pipeline을 지원하므로 모델링 노가다 하기 훨씬 편하다.


어떻게 동작하길래 편한지는 모델 평가에서 설명한다.