Khóa học Học máy ứng dụng trong Big Data (Machine Learning for Big Data Applications)

Trong kỷ nguyên dữ liệu lớn, các mô hình học máy không chỉ cần chính xác mà còn phải có khả năng huấn luyện và dự đoán trên dữ liệu khổng lồ, phân tán trên nhiều máy chủ.
Khóa học này cung cấp cho học viên kiến thức và kỹ năng triển khai, huấn luyện và tối ưu mô hình học máy trong môi trường Big Data, sử dụng Apache Spark MLlib, TensorFlow on Spark, và các nền tảng xử lý song song khác. 

Người học sẽ được hướng dẫn từng bước:
1️ Chuẩn bị và tiền xử lý dữ liệu lớn.
2️ Xây dựng, huấn luyện, đánh giá mô hình ML.
3️ Triển khai mô hình trong hệ thống dữ liệu lớn hoặc pipeline thực tế. 

Sau khi hoàn thành, học viên có thể: 

  • Hiểu khái niệm và quy trình của Machine Learning trên dữ liệu lớn. 
  • Làm chủ Spark MLlib để xây dựng và triển khai mô hình phân tán. 
  • Ứng dụng thuật toán giám sát (supervised)không giám sát (unsupervised) trên Spark. 
  • Xử lý, chuẩn hóa và trích xuất đặc trưng (feature engineering) cho dữ liệu lớn. 
  • Đánh giá, tối ưu và triển khai mô hình ML ở quy mô sản xuất (production). 
  • Kết hợp Spark MLlib, TensorFlow, hoặc Scikit-learn trong pipeline dữ liệu thực tế. 

Khóa học dành cho: 

  • Kỹ sư dữ liệu (Data Engineer) muốn tích hợp ML vào pipeline Big Data. 
  • Nhà khoa học dữ liệu (Data Scientist) muốn mở rộng năng lực xử lý dữ liệu lớn. 
  • Nhà phát triển phần mềm / AI Engineer muốn triển khai mô hình ML trên hệ thống phân tán. 
  • Sinh viên, nghiên cứu sinh trong lĩnh vực khoa học dữ liệu, AI hoặc CNTT. 

Để theo học hiệu quả, học viên cần: 

  • Kiến thức cơ bản về Python, Pandas, và SQL. 
  • Đã hoàn thành hoặc nắm vững nội dung khóa Apache Spark và Xử lý dữ liệu tốc độ cao. 
  • Hiểu các khái niệm cơ bản về Machine Learning: hồi quy, phân loại, phân cụm. 
  • Biết làm việc trên môi trường Linux và có tư duy phân tích dữ liệu. 

Module 1: Tổng quan về Học máy trong môi trường Dữ liệu lớn (4 giờ) 

Nội dung: 

  • Ôn tập khái niệm Machine Learning: supervised, unsupervised, reinforcement. 
  • Thách thức khi triển khai ML trên Big Data: dữ liệu phân tán, I/O, training time. 
  • Giới thiệu Spark MLlib và kiến trúc của nó. 
  • So sánh MLlib với Scikit-learn và TensorFlow. 
  • Demo: chạy mô hình hồi quy đơn giản trên Spark. 

Kết quả:
Hiểu bức tranh tổng thể và vai trò của Spark MLlib trong hệ sinh thái Big Data. 

 

Module 2: Tiền xử lý và Trích xuất đặc trưng (Feature Engineering) (8 giờ) 

Nội dung: 

  • Xử lý dữ liệu lớn: cleaning, normalization, missing values. 
  • Feature transformation: StringIndexer, OneHotEncoder, VectorAssembler. 
  • Feature scaling: StandardScaler, MinMaxScaler. 
  • Tách dữ liệu training/testing trên Spark. 
  • Giới thiệu concept Pipeline trong MLlib. 
  • Thực hành: Chuẩn hóa dữ liệu khách hàng trước khi huấn luyện. 

Kết quả:
Làm chủ quy trình chuẩn bị dữ liệu và xây dựng pipeline đầu vào cho mô hình ML. 

 

Module 3: Thuật toán Học có giám sát (Supervised Learning) (10 giờ) 

Nội dung: 

  • Hồi quy tuyến tính & Logistic Regression trong Spark MLlib. 
  • Thuật toán cây quyết định (Decision Tree) và rừng ngẫu nhiên (Random Forest). 
  • Gradient Boosting và GBTClassifier. 
  • Đánh giá mô hình: Accuracy, Precision, Recall, AUC. 
  • Tối ưu siêu tham số (Hyperparameter tuning) bằng CrossValidator và ParamGridBuilder. 
  • Thực hành: Dự đoán doanh thu hoặc churn khách hàng. 

Kết quả:
Xây dựng và đánh giá các mô hình phân loại và dự báo quy mô lớn. 

 

Module 4: Học không giám sát và Phân cụm (Unsupervised Learning) (6 giờ) 

Nội dung: 

  • Phân cụm dữ liệu lớn với K-Means, Bisecting K-Means. 
  • Giảm chiều dữ liệu bằng PCA (Principal Component Analysis). 
  • Mô hình cộng tác (Collaborative Filtering) – ALS cho hệ thống gợi ý. 
  • Thực hành: Xây dựng hệ thống gợi ý sản phẩm trên Spark. 

Kết quả:
Hiểu và ứng dụng các kỹ thuật phân cụm, giảm chiều và gợi ý sản phẩm. 

 

Module 5: Triển khai, tối ưu và tích hợp mô hình ML (8 giờ) 

Nội dung: 

  • Lưu trữ và nạp lại mô hình (Model Persistence). 
  • Tối ưu hiệu năng MLlib trên cluster: caching, partitioning, broadcast variables. 
  • Kết hợp MLlib với TensorFlow / PyTorch trên Spark. 
  • MLOps cơ bản: pipeline, monitoring, model retraining. 
  • Demo: triển khai mô hình Spark MLlib trên Databricks hoặc Cloud (AWS/GCP). 

Kết quả:
Biết triển khai mô hình ML phân tán trong môi trường sản xuất. 

 

Module 6: Mini Project – Phân tích và dự đoán hành vi khách hàng (4 giờ) 

Mục tiêu:
Áp dụng toàn bộ kiến thức đã học để giải quyết bài toán thực tế trên dữ liệu lớn. 

Đề tài ví dụ:
“Dự đoán khả năng rời bỏ khách hàng (Customer Churn Prediction)” hoặc “Gợi ý sản phẩm dựa trên hành vi mua hàng”. 

Yêu cầu: 

  • Xây dựng pipeline Spark MLlib: xử lý dữ liệu → huấn luyện mô hình → đánh giá → lưu kết quả. 
  • Báo cáo và trực quan hóa kết quả bằng dashboard hoặc notebook. 

Sản phẩm: 

  • Notebook + model lưu trữ trên HDFS hoặc S3. 
  • Báo cáo phân tích và kết quả dự báo. 

 

6. Kết quả đầu ra khóa học 

Sau khóa học, học viên sẽ có khả năng: 

  • Hiểu và triển khai các mô hình ML trên dữ liệu quy mô lớn. 
  • Sử dụng thành thạo Spark MLlibpipeline ML phân tán. 
  • Kết hợp ML với các công cụ Big Data khác (Kafka, HDFS, Cloud). 
  • Tự tin xây dựng mô hình dự đoán và hệ thống gợi ý thực tế trong doanh nghiệp. 

 

 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC