1. Spark pipeline이 적절한지 확인성능을 저하시키는 component가 있는지?2. cluster가 충분한 자원(core, memory)를 가지고 job을 실행하고 있는지?3. data의 병렬화가 잘 되었는지? (너무 많거나 너무 작아도 문제..)4. execurot별로 얼마나 많은 메모리를 소비하고 있는가?5. 적절한 serialization을 사용하고 있는가? (2.0에서 offheap기반의 encoder 추천)6. shuffle read/write가 증가 하고 있는가?7. application의 throughput & latency 측정 Spark UI가 하나의 Job에 대해서는 stage와 task단위의 구체적인 정보를 제공하고 있다. 문제는 과제를 위한 시스템이 폐쇄망에 존재하여 외..