Khóa học Triển khai, Quản trị và Tối ưu Hệ thống Big Data trên nền tảng AWS

Trong kỷ nguyên dữ liệu, Amazon Web Services (AWS) là nền tảng đám mây được sử dụng phổ biến nhất để triển khai, quản trị và tối ưu hệ thống Big Data.
AWS cung cấp hệ sinh thái dịch vụ toàn diện từ lưu trữ (S3), xử lý (EMR, Glue), phân tích (Redshift, Athena), đến streaming (Kinesis) và học máy (SageMaker). 

Khóa học này giúp học viên hiểu rõ kiến trúc Big Data trên AWS, thực hành xây dựng pipeline xử lý dữ liệu từ đầu đến cuối (ETL – Analytics)tối ưu hiệu năng, chi phí, bảo mật hệ thống. 

 

Sau khi hoàn thành khóa học, học viên có thể: 

  • Hiểu và thiết kế kiến trúc Big Data toàn diện trên AWS Cloud. 
  • Xây dựng pipeline dữ liệu (ingestion – processing – storage – analytics) sử dụng các dịch vụ AWS. 
  • Vận hành và tối ưu các thành phần chính: S3, Glue, EMR, Redshift, Athena, Kinesis. 
  • Tích hợp Spark, Hadoop và các công cụ phân tích vào môi trường AWS. 
  • Đảm bảo an toàn dữ liệu, kiểm soát chi phí và mở rộng quy mô linh hoạt. 
  • Chuẩn bị nền tảng để thi AWS Certified Data Analytics – Specialty. 

Khóa học được thiết kế cho: 

  • Kỹ sư dữ liệu (Data Engineer) muốn triển khai Big Data trên AWS. 
  • Kiến trúc sư dữ liệu (Data Architect) cần thiết kế và tối ưu hệ thống dữ liệu lớn. 
  • Nhà quản trị hệ thống / DevOps / Cloud Engineer muốn hiểu sâu về xử lý dữ liệu trên AWS. 
  • Nhà khoa học dữ liệu (Data Scientist) muốn khai thác dữ liệu lớn trực tiếp trên cloud. 

Học viên nên có: 

  • Kiến thức cơ bản về Hadoop, Spark hoặc hệ sinh thái Big Data. 
  • Biết lập trình Python hoặc SQL. 
  • Hiểu nguyên lý Cloud Computing (EC2, IAM, VPC, S3 cơ bản). 
  • Có tài khoản AWS (Free Tier hoặc sandbox do giảng viên cung cấp).

Module 1: Tổng quan Big Data trên AWS & Kiến trúc hệ thống (4 giờ) 

Nội dung: 

  • Kiến trúc tổng thể của Big Data trên AWS. 
  • Giới thiệu các dịch vụ cốt lõi: S3, Glue, EMR, Athena, Redshift, Kinesis. 
  • Mô hình kiến trúc Lambda và Kappa Architecture. 
  • Tích hợp hệ sinh thái Hadoop/Spark vào AWS. 
  • Demo: Pipeline xử lý dữ liệu mẫu từ S3 → Glue → Athena. 

Kết quả:
Hiểu rõ kiến trúc và các thành phần chính trong hệ thống Big Data trên AWS. 

 

Module 2: Lưu trữ và Quản lý dữ liệu với Amazon S3 & Data Lake (6 giờ) 

Nội dung: 

  • Cấu trúc và cơ chế hoạt động của S3 (bucket, object, versioning, lifecycle). 
  • Thiết kế Data Lake trên S3: raw, curated, processed zones. 
  • Quản lý metadata với Glue Data Catalog. 
  • Bảo mật S3: IAM policies, Bucket policy, encryption. 
  • Tích hợp S3 với Athena, Redshift Spectrum và EMR. 
  • Lab: Xây dựng Data Lake lưu trữ dữ liệu thô và dữ liệu xử lý. 

Kết quả:
Thiết lập và quản lý Data Lake chuẩn trên AWS S3. 

 

Module 3: Xử lý dữ liệu hàng loạt (Batch Processing) với AWS Glue & EMR (10 giờ) 

Nội dung: 

  • Giới thiệu AWS Glue: Crawler, ETL Jobs, Data Catalog. 
  • Viết job ETL với Glue Studio / PySpark. 
  • Cấu hình, chạy và giám sát Glue Job. 
  • Giới thiệu Amazon EMR và cài đặt cluster Hadoop/Spark. 
  • Chạy job Spark trên EMR và tích hợp S3 + Redshift. 
  • Quản lý chi phí và tự động tắt cluster (Auto-Termination). 
  • Thực hành: Pipeline ETL dữ liệu bán hàng từ S3 → Glue → Redshift. 

Kết quả:
Làm chủ Glue và EMR để xử lý dữ liệu lớn tự động và tối ưu chi phí. 

 

Module 4: Xử lý dữ liệu thời gian thực (Streaming) với Kinesis (6 giờ) 

Nội dung: 

  • Khái niệm real-time streaming trong Big Data. 
  • Thành phần của Amazon Kinesis: Data Streams, Firehose, Data Analytics. 
  • Tích hợp Spark Streaming hoặc Lambda với Kinesis. 
  • Thiết lập pipeline real-time: Kinesis → Lambda → S3 → Athena. 
  • Demo: Phân tích dữ liệu log streaming trong thời gian thực. 

Kết quả:
Xây dựng và triển khai pipeline streaming dữ liệu trên AWS. 

 

Module 5: Phân tích dữ liệu và tối ưu hóa với Athena & Redshift (8 giờ) 

Nội dung: 

  • Giới thiệu Amazon Athena – truy vấn serverless SQL trên S3. 
  • Tối ưu query Athena: partition, compression, Parquet format. 
  • Tổng quan Amazon Redshift: kiến trúc, distribution, sort keys. 
  • Tích hợp Redshift với Glue, S3 và QuickSight. 
  • Hiệu năng và chi phí: concurrency scaling, RA3 nodes, AQUA caching. 
  • Lab: Xây dựng warehouse trên Redshift và dashboard bằng QuickSight. 

Kết quả:
Thực hiện phân tích dữ liệu lớn hiệu quả với Athena và Redshift. 

 

Module 6: Quản trị, Bảo mật và Tối ưu hệ thống Big Data trên AWS (6 giờ) 

Nội dung: 

  • IAM, encryption, network isolation (VPC, security groups). 
  • Giám sát và logging: CloudWatch, CloudTrail, EMR logs. 
  • Quản lý chi phí (Cost Explorer, Trusted Advisor). 
  • Best Practices: DataOps và tự động hóa với Lambda / Step Functions. 
  • Case study: Kiến trúc tối ưu hiệu năng & chi phí cho hệ thống dữ liệu doanh nghiệp. 

Kết quả:
Quản trị và tối ưu hóa toàn bộ hệ thống dữ liệu lớn trên AWS một cách an toàn và hiệu quả. 

 

Module 7: Mini Project – Triển khai hệ thống Big Data thực tế trên AWS (4 giờ) 

Mục tiêu:
Ứng dụng toàn bộ kiến thức đã học để xây dựng hệ thống dữ liệu đầu-cuối (end-to-end). 

Đề tài ví dụ:
“Xây dựng hệ thống phân tích dữ liệu bán hàng thời gian thực trên AWS.” 

Yêu cầu: 

  • Thu thập dữ liệu từ Kinesis / S3. 
  • Xử lý ETL bằng Glue / Spark. 
  • Lưu trữ vào Redshift / Athena. 
  • Tạo dashboard phân tích bằng QuickSight. 

Sản phẩm đầu ra: 

  • Kiến trúc triển khai trên AWS (diagram + tài liệu). 
  • Script Glue / Spark và báo cáo kết quả. 

 

🧠 6. Kết quả đầu ra khóa học 

Học viên hoàn thành khóa học sẽ: 

  • Hiểu và triển khai hệ thống Big Data hoàn chỉnh trên AWS Cloud. 
  • Làm chủ các dịch vụ: S3, Glue, EMR, Redshift, Kinesis, Athena. 
  • Biết cách tối ưu hiệu năng và chi phí, đồng thời đảm bảo bảo mật dữ liệu. 
  • Có năng lực tham gia hoặc dẫn dắt dự án Big Data thực tế trong doanh nghiệp. 

 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC