Khóa học Kỹ sư Dữ liệu theo chương trình Google Professional Data Engineer – PDE

Chứng chỉ Google Professional Data Engineer (PDE) xác thực khả năng thiết kế, xây dựng, quản tối ưu hóa hệ thống xử dữ liệu trên GCP. 
Khóa học giúp học viên làm chủ các công cụ cốt lõi: BigQuery, Dataflow, Dataproc, Pub/Sub, AI Platform. 

Mục tiêu khóa học:

  • Thiết kế pipeline dữ liệu và mô hình hóa dữ liệu trên GCP. 
  • Làm chủ BigQuery, Dataflow, Dataproc, Pub/Sub. 
  • Tối ưu hiệu năng và chi phí cho hệ thống dữ liệu lớn. 
  • Chuẩn bị thi chứng chỉ Google Cloud Professional Data Engineer. 

Khóa học phù hợp với các đối tượng:

  • Kỹ sư dữ liệu, Cloud Architect, Data Scientist. 
  • Người muốn chuyên sâu vào hệ sinh thái GCP. 
  • Doanh nghiệp sử dụng Google Cloud cho phân tích và AI. 

Học viên nên có:

  • Hiểu cơ bản về SQL, Python và mô hình dữ liệu. 
  • Kiến thức về Cloud Computing, ETL, và Machine Learning cơ bản. 
  • Có tài khoản GCP và kinh nghiệm sử dụng Google Console. 

Module 1: Tổng quan nền tảng GCP và Kiến trúc dữ liệu 

  • Giới thiệu GCP Console, IAM, Project, Billing. 
  • Thành phần chính của kiến trúc dữ liệu GCP. 
  • Mô hình hóa dữ liệu và quy trình Data Lifecycle. 

Module 2: Lưu trữ dữ liệu trên GCP 

  • Cloud Storage, BigTable, Firestore – khi nào nên dùng. 
  • Quản lý phân vùng, phân quyền và bảo mật dữ liệu. 
  • Kết nối GCS với BigQuery và Dataflow. 

Module 3: Xử lý dữ liệu hàng loạt với Dataflow 

  • Apache Beam model và Dataflow pipeline. 
  • Batch ETL pipelines: ingestion, transform, output. 
  • Template jobs và autoscaling worker nodes. 

Module 4: Xử lý dữ liệu với Dataproc (Spark/Hadoop) 

  • Tạo cluster Dataproc. 
  • Chạy Spark jobs, Hive, Pig trên Dataproc. 
  • Kết hợp với Cloud Storage và BigQuery. 

Module 5: Phân tích dữ liệu với BigQuery 

  • Tạo dataset, table, partition và clustering. 
  • Truy vấn SQL và quản lý chi phí truy vấn. 
  • BI Integration: Looker Studio / Data Studio. 

Module 6: Streaming và Realtime Analytics 

  • Kiến trúc Pub/Sub và Dataflow streaming pipelines. 
  • Ingest dữ liệu thời gian thực và xử lý sự kiện. 
  • Lưu trữ output vào BigQuery. 

Module 7: MLOps và Ôn thi PDE 

  • Giới thiệu Vertex AI và Data Catalog. 
  • Tích hợp ML model vào pipeline dữ liệu. 

 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC