<aside> 💡 1. Spark 등장 배경 2. Spark 프레임워크 3. Spark Application 구현방법 4. 활용 사례

</aside>

1. 스파크 등장 배경

하둡

스파크

스파크 vs 하둡

Spark Hadoop
역할 데이터 분산 처리 시스템 데이터 분산 저장/분산 처리
기반 인메모리 디스크
데이터 처리 방법 배치/인터랙티브/스트리밍/…. 배치(Batch)
개발 언어 Scala Java
지원 언어 Scala, Java, Python, R Java
속도 Hadoop MapReduce 100배 -
데이터 소스 HDFS, Amazon S3, SQL server,
Elasticsearch 등 HDFS
데이터 분석 MLib 자체 제공 별도 패키지 필요

Untitled

Untitled

[출처] https://youtu.be/O35dLfyklm0