Data Engineering/spark

How do I troubleshoot issue in Spark?

quantapia 2018. 4. 20. 14:32

1. Spark pipeline이 적절한지 확인

성능을 저하시키는 component가 있는지?

2. cluster가 충분한 자원(core, memory)를 가지고 job을 실행하고 있는지?

3. data의 병렬화가 잘 되었는지? (너무 많거나 너무 작아도 문제..)

4. execurot별로 얼마나 많은 메모리를 소비하고 있는가?

5. 적절한 serialization을 사용하고 있는가? (2.0에서 offheap기반의 encoder 추천)

6. shuffle read/write가 증가 하고 있는가?

7. application의 throughput & latency 측정


Spark UI가 하나의 Job에 대해서는 stage와 task단위의 구체적인 정보를 제공하고 있다.


문제는 과제를 위한 시스템이 폐쇄망에 존재하여 외부에서는 웹서버를 기동할 수 없다.