spark application template을 만들어 보았다.
의외로 설정해줄것이 좀 있기 때문.
프로젝트는 spark template github project 에서 볼 수 있다.
- maven scala project 임. official spark도 maven으로 되어 있기도 하고, 원래 스칼라는 sbt라는 빌드 툴을 쓰는데 아마도 속도에서 뭔가 문제가 있는 모양.
- scala version은 2.11.12을 사용했고, spark는 spark v2.3.2 Apache Haddop 2.7 and later 버전을 사용함. scala version이 다르면 바이너리도 다르니 신경 써줘야 함.
- 문서는 http://spark.apache.org/docs/2.3.2/ 이것을 보면 됨.
- 설정을 파일로 빼기위해 typesafe 를 사용함.
- DataFrame, DataSet등을 비교하기 위해서 spark-fast-tests 를 사용함.