Khóa học Apache Spark và Xử lý dữ liệu tốc độ cao

Apache Spark nền tảng xử dữ liệu phân tán thế hệ mới, được thiết kế để vượt trội hơn Hadoop MapReduce về tốc độ, dễ sử dụng khả năng tích hợp học máy, streaming SQL trong cùng một môi trường. 
Khóa học này giúp học viên hiểu sâu kiến trúc Spark, thực hành xử dữ liệu lớn bằng RDD, DataFrame, Spark SQL Spark Streaming, đồng thời triển khai các bài toán phân tích, ETL real-time analytics trên môi trường thực tế (local hoặc cluster). 

Sau khi hoàn thành khóa học, học viên sẽ có thể: 

  • Hiểu nguyên lý hoạt động của Spark và mô hình xử lý dữ liệu song song. 
  • Làm việc thành thạo với RDD, DataFrame và Spark SQL. 
  • Xây dựng pipeline xử lý dữ liệu lớn (ETL) hiệu quả với Spark. 
  • Phân tích dữ liệu real-time bằng Spark Streaming và Kafka. 
  • Triển khai, tối ưu và giám sát ứng dụng Spark trên cluster. 

Khóa học dành cho: 

  • Kỹ sư dữ liệu (Data Engineer) muốn nâng cao kỹ năng xử lý dữ liệu song song. 
  • Lập trình viên / nhà phân tích dữ liệu muốn tối ưu xử lý dữ liệu quy mô lớn. 
  • Sinh viên CNTT hoặc Khoa học dữ liệu muốn hiểu sâu về nền tảng tính toán phân tán. 
  • Doanh nghiệp đang triển khai pipeline dữ liệu lớn hoặc real-time analytics. 

Học viên nên có: 

  • Hiểu biết cơ bản về Hadoop, HDFS và mô hình xử lý phân tán. 
  • Biết lập trình Python (PySpark) hoặc Scala. 
  • Kiến thức cơ bản về SQL và làm việc với dữ liệu (CSV, JSON). 
  • Kiến thức Linux cơ bản (CLI, quản lý file, môi trường ảo). 

Module 1: Giới thiệu Apache Spark và kiến trúc hệ thống (4 giờ) 

Nội dung: 

  • Lịch sử phát triển Spark và so sánh với Hadoop MapReduce. 
  • Kiến trúc Spark: Driver, Executor, Cluster Manager, DAG Scheduler. 
  • Spark Core và các thành phần mở rộng: SQL, Streaming, MLlib, GraphX. 
  • Các mô hình triển khai Spark (Standalone, YARN, Mesos, Kubernetes). 
  • Demo: Cài đặt Spark và chạy ứng dụng đầu tiên (Spark Shell / PySpark). 

Kết quả học tập:
Hiểu được cấu trúc và dòng dữ liệu (execution flow) trong Spark. 

Module 2: Lập trình RDD – Resilient Distributed Dataset (8 giờ) 

Nội dung: 

  • Cấu trúc RDD, đặc tính immutability và lineage. 
  • Các loại transformation (map, filter, flatMap, join, groupByKey, reduceByKey…). 
  • Action (count, collect, saveAsTextFile…). 
  • Lazy evaluation và cơ chế tối ưu của Spark. 
  • Partition, caching, và fault tolerance. 
  • Thực hành: Phân tích dữ liệu log hoặc văn bản với RDD. 

Kết quả học tập:
Làm chủ RDD API, hiểu cách Spark quản lý dữ liệu và thực thi song song. 

Module 3: DataFrame, Spark SQL và Data Processing Pipeline (10 giờ) 

Nội dung: 

  • Giới thiệu DataFrame API – abstraction cao hơn RDD. 
  • SparkSession, Schema, Catalyst Optimizer. 
  • Thao tác dữ liệu: select, filter, groupBy, join, aggregation. 
  • Đọc/Ghi dữ liệu: CSV, JSON, Parquet, JDBC. 
  • Spark SQL: truy vấn dữ liệu bằng ngôn ngữ SQL. 
  • UDF (User Defined Function) và window function. 
  • Thực hành: ETL và thống kê dữ liệu doanh nghiệp với DataFrame + SQL. 

Kết quả học tập:
Xây dựng pipeline xử lý dữ liệu lớn và phân tích dữ liệu bằng SQL trong Spark.  

Module 4: Xử lý dữ liệu thời gian thực với Spark Streaming và Kafka (8 giờ) 

Nội dung: 

  • Tổng quan về xử lý real-time và micro-batch model. 
  • Spark Streaming và Structured Streaming. 
  • Tích hợp Spark với Kafka / Socket / File Source. 
  • Stateful vs Stateless transformations. 
  • Kiểm soát checkpoint, watermark và fault tolerance. 
  • Thực hành: Realtime analytics với Spark + Kafka (thống kê log truy cập). 

Kết quả học tập:
Làm chủ xử lý dữ liệu streaming trong Spark và hiểu cách xây dựng pipeline thời gian thực. 

Module 5: Tối ưu hóa hiệu năng và quản lý cluster Spark (6 giờ) 

Nội dung: 

  • Cơ chế memory management trong Spark. 
  • Spark UI và giám sát job. 
  • Caching và checkpointing chiến lược. 
  • Broadcast variables, Accumulators. 
  • Tối ưu Spark SQL & DataFrame (repartition, coalesce, join strategy). 
  • Giới thiệu Spark trên YARN / Kubernetes. 
  • Thực hành: tối ưu một job Spark thực tế. 

Kết quả học tập:
Biết cách tối ưu hiệu năng, giảm chi phí tài nguyên và cải thiện tốc độ xử lý. 

Module 6: Mini Project – Phân tích dữ liệu giao dịch lớn với Spark (4 giờ) 

Mục tiêu: Ứng dụng toàn bộ kiến thức đã học vào bài toán thực tế. 

Bài toán ví dụ:
Phân tích dữ liệu giao dịch thương mại điện tử để xác định sản phẩm bán chạy, doanh thu theo thời gian, và phát hiện bất thường (anomaly). 

Yêu cầu dự án: 

  • Đọc dữ liệu lớn từ HDFS hoặc S3. 
  • Xử lý ETL bằng DataFrame / SQL. 
  • Tính toán thống kê, tạo dashboard đầu ra. 
  • Nếu có thể: mở rộng thêm phần streaming từ Kafka (realtime). 

Sản phẩm đầu ra: 

  • Báo cáo phân tích dữ liệu. 
  • Script PySpark hoàn chỉnh. 
  • Biểu đồ / dashboard kết quả. 

6. Kết quả đầu ra khóa học 

Sau khóa học, học viên có thể: 

  • Hiểu sâu và vận hành hệ thống Apache Spark. 
  • Viết và tối ưu ứng dụng Spark cho dữ liệu lớn hoặc dữ liệu thời gian thực. 
  • Tích hợp Spark với Kafka, Hadoop, hoặc Cloud Storage. 
  • Tự tin ứng tuyển vị trí Data Engineer / Big Data Developer / ETL Engineer. 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC