Khóa học Kỹ sư Dữ liệu theo chương trình Databricks Certified Data Engineer – Professional

Chứng chỉ Databricks Certified Data Engineer chứng nhận khả năng xây dựng, tối ưu quản luồng dữ liệu trên nền tảng Apache Spark Databricks Lakehouse Platform. 
Khóa học giúp học viên làm chủ các công cụ Spark SQL, Delta Lake, MLflow. 

Mục tiêu khóa học:

  • Hiểu kiến trúc Lakehouse và Databricks Platform. 
  • Làm việc với Spark SQL, Delta Lake, và Databricks Jobs. 
  • Thiết kế pipeline ETL/ELT hiệu quả và tối ưu. 
  • Chuẩn bị thi chứng chỉ Databricks Certified Data Engineer. 

Khóa học phù hợp với các đối tượng:

  • Kỹ sư dữ liệu (Data Engineer) và kiến trúc sư dữ liệu (Data Architect). 
  • Nhà khoa học dữ liệu cần xử lý dữ liệu lớn trên Spark. 
  • Doanh nghiệp sử dụng Databricks để tích hợp AI/ML và Big Data. 

Học viên nên có:

  • Kiến thức vững về SQL, Spark, Python. 
  • Hiểu về Data Lake, ETL pipelines. 
  • Có kinh nghiệm cơ bản về cloud (AWS, Azure hoặc GCP). 

Module 1: Giới thiệu Lakehouse và Databricks Architecture 

  • Tổng quan Lakehouse concept và Databricks Platform. 
  • Workspace, Cluster, Notebook, Jobs, và Roles. 
  • Các loại Storage: DBFS, Cloud Storage, Delta Table. 

Module 2: Làm việc với Spark SQL và DataFrame API 

  • DataFrame & Dataset API. 
  • Các thao tác Transform: filter, join, aggregation, window. 
  • SQL vs PySpark vs Scala API. 
  • Lab: phân tích dữ liệu logs bằng PySpark. 

Module 3: Delta Lake và Data Quality 

  • Cấu trúc Delta Table và Transaction Log. 
  • Upsert (MERGE), Time Travel, Vacuum, Schema Enforcement. 
  • Thiết kế Bronze–Silver–Gold Layers. 

Module 4: ETL/ELT Pipeline trên Databricks 

  • Xây dựng job ingestion và transform dữ liệu. 
  • Quản lý dependencies, workflow và scheduling. 
  • Tích hợp Airflow / Databricks Workflows. 

Module 5: Hiệu năng và tối ưu hóa 

  • Catalyst Optimizer và Tungsten Engine. 
  • Partitioning, Caching, Broadcast Joins. 
  • Cluster autoscaling và cost management. 

Module 6: Quản trị và bảo mật Databricks 

  • IAM, Secret Scopes, Token Authentication. 
  • Quản lý Workspace, user roles và permissions. 
  • Logging, audit và monitoring. 

Module 7: Mini Project và Thi thử chứng chỉ 

  • Xây dựng pipeline từ ingestion → transform → analytics. 
  • Phân tích dữ liệu bán hàng / clickstream. 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC