Khóa học Apache Spark và Xử lý dữ liệu tốc độ cao

Các khóa học / Khóa học Apache Spark và Xử lý dữ liệu tốc độ cao

Apache Spark là nền tảng xử lý dữ liệu phân tán thế hệ mới, được thiết kế để vượt trội hơn Hadoop MapReduce về tốc độ, dễ sử dụng và khả năng tích hợp học máy, streaming và SQL trong cùng một môi trường.
Khóa học này giúp học viên hiểu sâu kiến trúc Spark, thực hành xử lý dữ liệu lớn bằng RDD, DataFrame, Spark SQL và Spark Streaming, đồng thời triển khai các bài toán phân tích, ETL và real-time analytics trên môi trường thực tế (local hoặc cluster).

Sau khi hoàn thành khóa học, học viên sẽ có thể:

Hiểu nguyên lý hoạt động của Spark và mô hình xử lý dữ liệu song song.

Làm việc thành thạo với RDD, DataFrame và Spark SQL.

Xây dựng pipeline xử lý dữ liệu lớn (ETL) hiệu quả với Spark.

Phân tích dữ liệu real-time bằng Spark Streaming và Kafka.

Triển khai, tối ưu và giám sát ứng dụng Spark trên cluster.

Khóa học dành cho:

Kỹ sư dữ liệu (Data Engineer) muốn nâng cao kỹ năng xử lý dữ liệu song song.

Lập trình viên / nhà phân tích dữ liệu muốn tối ưu xử lý dữ liệu quy mô lớn.

Sinh viên CNTT hoặc Khoa học dữ liệu muốn hiểu sâu về nền tảng tính toán phân tán.

Doanh nghiệp đang triển khai pipeline dữ liệu lớn hoặc real-time analytics.

Học viên nên có:

Hiểu biết cơ bản về Hadoop, HDFS và mô hình xử lý phân tán.

Biết lập trình Python (PySpark) hoặc Scala.

Kiến thức cơ bản về SQL và làm việc với dữ liệu (CSV, JSON).

Kiến thức Linux cơ bản (CLI, quản lý file, môi trường ảo).

Module 1: Giới thiệu Apache Spark và kiến trúc hệ thống (4 giờ)

Nội dung:

Lịch sử phát triển Spark và so sánh với Hadoop MapReduce.

Kiến trúc Spark: Driver, Executor, Cluster Manager, DAG Scheduler.

Spark Core và các thành phần mở rộng: SQL, Streaming, MLlib, GraphX.

Các mô hình triển khai Spark (Standalone, YARN, Mesos, Kubernetes).

Demo: Cài đặt Spark và chạy ứng dụng đầu tiên (Spark Shell / PySpark).

Kết quả học tập:
Hiểu được cấu trúc và dòng dữ liệu (execution flow) trong Spark.

Module 2: Lập trình RDD – Resilient Distributed Dataset (8 giờ)

Nội dung:

Cấu trúc RDD, đặc tính immutability và lineage.

Các loại transformation (map, filter, flatMap, join, groupByKey, reduceByKey…).

Action (count, collect, saveAsTextFile…).

Lazy evaluation và cơ chế tối ưu của Spark.

Partition, caching, và fault tolerance.

Thực hành: Phân tích dữ liệu log hoặc văn bản với RDD.

Kết quả học tập:
Làm chủ RDD API, hiểu cách Spark quản lý dữ liệu và thực thi song song.

Module 3: DataFrame, Spark SQL và Data Processing Pipeline (10 giờ)

Nội dung:

Giới thiệu DataFrame API – abstraction cao hơn RDD.

SparkSession, Schema, Catalyst Optimizer.

Thao tác dữ liệu: select, filter, groupBy, join, aggregation.

Đọc/Ghi dữ liệu: CSV, JSON, Parquet, JDBC.

Spark SQL: truy vấn dữ liệu bằng ngôn ngữ SQL.

UDF (User Defined Function) và window function.

Thực hành: ETL và thống kê dữ liệu doanh nghiệp với DataFrame + SQL.

Kết quả học tập:
Xây dựng pipeline xử lý dữ liệu lớn và phân tích dữ liệu bằng SQL trong Spark.

Module 4: Xử lý dữ liệu thời gian thực với Spark Streaming và Kafka (8 giờ)

Nội dung:

Tổng quan về xử lý real-time và micro-batch model.

Spark Streaming và Structured Streaming.

Tích hợp Spark với Kafka / Socket / File Source.

Stateful vs Stateless transformations.

Kiểm soát checkpoint, watermark và fault tolerance.

Thực hành: Realtime analytics với Spark + Kafka (thống kê log truy cập).

Kết quả học tập:
Làm chủ xử lý dữ liệu streaming trong Spark và hiểu cách xây dựng pipeline thời gian thực.

Module 5: Tối ưu hóa hiệu năng và quản lý cluster Spark (6 giờ)

Nội dung:

Cơ chế memory management trong Spark.

Spark UI và giám sát job.

Caching và checkpointing chiến lược.

Broadcast variables, Accumulators.

Tối ưu Spark SQL & DataFrame (repartition, coalesce, join strategy).

Giới thiệu Spark trên YARN / Kubernetes.

Thực hành: tối ưu một job Spark thực tế.

Kết quả học tập:
Biết cách tối ưu hiệu năng, giảm chi phí tài nguyên và cải thiện tốc độ xử lý.

Module 6: Mini Project – Phân tích dữ liệu giao dịch lớn với Spark (4 giờ)

Mục tiêu: Ứng dụng toàn bộ kiến thức đã học vào bài toán thực tế.

Bài toán ví dụ:
Phân tích dữ liệu giao dịch thương mại điện tử để xác định sản phẩm bán chạy, doanh thu theo thời gian, và phát hiện bất thường (anomaly).

Yêu cầu dự án:

Đọc dữ liệu lớn từ HDFS hoặc S3.

Xử lý ETL bằng DataFrame / SQL.

Tính toán thống kê, tạo dashboard đầu ra.

Nếu có thể: mở rộng thêm phần streaming từ Kafka (realtime).

Sản phẩm đầu ra:

Báo cáo phân tích dữ liệu.

Script PySpark hoàn chỉnh.

Biểu đồ / dashboard kết quả.

6. Kết quả đầu ra khóa học

Sau khóa học, học viên có thể:

Hiểu sâu và vận hành hệ thống Apache Spark.

Viết và tối ưu ứng dụng Spark cho dữ liệu lớn hoặc dữ liệu thời gian thực.

Tích hợp Spark với Kafka, Hadoop, hoặc Cloud Storage.

Tự tin ứng tuyển vị trí Data Engineer / Big Data Developer / ETL Engineer.

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí!

Top khoá học

Khóa CCNP Service Provider

Khóa Oracle Database 19c SQL Workshop

Khóa đào tạo AWS Certified Developer – Associate

Khóa AWS Certified Advanced Networking – Specialty (ANS-C01)

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

 5/5

Trần Nguyễn Vy

- Học viên khóa Bussiness Analyst -

Mình được bạn giới thiệu qua học khóa BA cơ bản tại IPMAC. Ban đầu cứ sợ học chỉ toàn lí thuyết, nhưng khi đến trung tâm, được tiếp cận nhiều dự án thực tế bổ ích, thấy “đáng đồng tiền bát gạo” nên mình sẽ giới thiệu để bạn bè cũng qua IPMAC học.

 5/5

Lê Ngọc Dũng

- Học viên khóa Quản lý dự án chuyên nghiệp PMP -

Các thầy rất dạn dày kinh nghiệm. Ngoài khung lý thuyết, các thầy chia sẻ rất nhiều kinh nghiệm thực tế từ công việc, các case studies nên mình thấy có thể ứng dụng được luôn. Hay các phương pháp để học và tóm tắt kiến thức rất hay và dễ hiểu, tiết kiệm cho học viên rất nhiều thời gian. Đôi khi chỉ cần 1 vài case studies hay tips mình đã hiểu được một mảng kiến thức tốt hơn mà không phải “cày” trong sách.

 5/5

Nguyễn Thu Trang

- Học viên khóa Quản lý dự án chuyên nghiệp PMP -

Giảng viên của khóa học rất nhiệt tình. Ngoài nội dung slide bài giảng, các bài luyện tập của IPMAC cung cấp khá hay và chất lượng thì các thầy thường xuyên gửi thêm các nội dung có hiệu quả, dễ đọc, dễ nhớ cho học viên tìm hiểu, ôn luyện trong quá trình luyện thi chứng chỉ. Các thầy luôn sẵn sàng hỗ trợ khi học viên có vướng mắc, luôn hỏi thăm tình hình ôn thi của mình cũng như các bạn khác, hỏi han xem đang vướng ở phần nào và kịp thời gửi thêm các phần tài liệu còn đang chưa chắc chắn. Các bạn support của IPMAC rất nhiệt tình hỗ trợ trong quá trình học.

 5/5

Nguyễn Hữu Đức

- Học viên khóa Comptia Security+ -

Chất lượng giảng dạy tốt và hoàn toàn phù hợp với mức học phí, đáp ứng được nhu cầu của anh công việc hiện tại. Khóa học này là tiền đề để anh tiếp tục theo đuổi mục tiêu phát triển trong lĩnh vực bảo mật của mình. Về giảng viên, anh thấy thầy Cường là người có chuyên môn cao, rất nhiệt tình, rất quan tâm đến học viên; có nhiều định hướng hữu ích cho học viên trong tương lai. Các bạn của IPMAC cũng rất nhiệt tình, rất cố gắng hỗ trợ học viên, đảm bảo cho khóa học diễn ra suôn sẻ (mặc dù bị ảnh hưởng của đại dịch Covid-19).

 5/5

Nguyễn Công Sỹ

- Học viên khóa Ready For BA -

Khóa Ready for BA thực sự phù hợp với những người bắt đầu vào nghề như em, khi mà định nghĩa về BA trước đó còn khá mông lung. Đối với những anh chị đã đi làm rồi thì em thấy nó cũng vẫn giúp nhiều phần củng cố lại kiến thức, và giải đáp được các vấn đề BA thường đang gặp phải trong quá trình làm việc. Giảng viên của em là cô giáo có nhiều kinh nghiệm trong nghề, do đó kiến thức mà cô đưa tới mọi người cũng rất phong phú, phong cách giảng dạy nhiệt tình và dễ tiếp thu.