Khóa học Hệ sinh thái Hadoop và Xử lý dữ liệu phân tán

Hadoop nền tảng cốt lõi của hầu hết các hệ thống Big Data hiện nay. cho phép lưu trữ, quản xử dữ liệu quy hàng terabyte đến petabyte theo cách phân tán, đáng tin cậy mở rộng dễ dàng. 
Khóa học này giúp học viên hiểu sâu chế hoạt động bên trong Hadoop, làm chủ các công cụ trong hệ sinh thái Hadoop, thực hành xây dựng quy trình xử dữ liệu lớn từ đầu đến cuối (ETL, phân tích tối ưu). 

Sau khi hoàn thành khóa học, học viên có thể: 

  • Hiểu rõ kiến trúc Hadoop và nguyên lý lưu trữ phân tán HDFS. 
  • Viết chương trình MapReduce để xử lý dữ liệu lớn theo mô hình song song. 
  • Sử dụng Hive, PigYARN để phân tích dữ liệu trên Hadoop. 
  • Cài đặt, cấu hình và vận hành một mini-cluster Hadoop. 
  • Xây dựng pipeline xử lý log dữ liệu thực tế với Hive/Spark trên HDFS. 

Khóa học phù hợp với: 

  • Lập trình viên, kỹ sư dữ liệu, sinh viên CNTT muốn chuyển sang lĩnh vực Big Data. 
  • Nhà phân tích dữ liệu hoặc quản trị hệ thống muốn hiểu cách dữ liệu lớn được lưu trữ và xử lý. 
  • Doanh nghiệp triển khai hệ thống lưu trữ, phân tích dữ liệu phân tán. 

Để học hiệu quả, học viên nên: 

  • Biết lập trình cơ bản bằng Python hoặc Java. 
  • Nắm kiến thức cơ bản về cơ sở dữ liệu (SQL). 
  • Hiểu sơ lược về mô hình client-server và hệ thống tệp. 
  • Có kiến thức Linux cơ bản (sử dụng terminal, SSH, file permissions). 

Module 1: Giới thiệu Big Data kiến trúc Hadoop (4 giờ) 

  • Khái niệm Big Data và thách thức xử lý dữ liệu lớn. 
  • Kiến trúc Hadoop: HDFS, YARN, MapReduce. 
  • So sánh Hadoop với các nền tảng xử lý khác (Spark, Flink). 
  • Demo: Tổng quan hệ sinh thái Hadoop (HDFS, Hive, Pig, HBase, Oozie,…). 

 

Module 2: Hệ thống lưu trữ phân tán – HDFS (6 giờ) 

  • Cấu trúc HDFS: NameNode, DataNode, Secondary NameNode. 
  • Cơ chế lưu trữ, replication, và fault tolerance. 
  • Thao tác với HDFS CLI và API. 
  • Quản lý file, block, và permissions. 
  • Bài lab: Upload, copy, move và truy xuất dữ liệu lớn trên HDFS. 

 

Module 3: Xử lý dữ liệu với MapReduce (8 giờ) 

  • Nguyên lý lập trình MapReduce (Map, Shuffle, Reduce). 
  • Mô hình key-value và cơ chế phân phối công việc. 
  • Viết chương trình MapReduce bằng Java và Python (Hadoop Streaming). 
  • Thực hành: Xử lý log truy cập web (tính tần suất, thống kê, lọc dữ liệu). 
  • Tối ưu MapReduce: phân vùng, combiner, sorting & counters. 

 

Module 4: Truy vấn dữ liệu với Hive và Pig (10 giờ) 

  • Giới thiệu Hive và Pig trong hệ sinh thái Hadoop. 
  • Cấu trúc Hive: Metastore, Driver, Execution Engine. 
  • Ngôn ngữ HiveQL: tạo bảng, truy vấn, join, partition, bucketing. 
  • Tích hợp Hive với HDFS và dữ liệu ngoài (CSV, JSON). 
  • Giới thiệu Pig Latin, script và workflow. 
  • Bài lab: ETL và phân tích dữ liệu log bằng Hive. 

 

Module 5: Quản lý tài nguyên với YARN (6 giờ) 

  • Chức năng và vai trò của YARN trong hệ sinh thái Hadoop. 
  • ResourceManager, NodeManager, ApplicationMaster. 
  • Job scheduling, queue và quản lý tài nguyên. 
  • Giám sát job và xử lý lỗi trên cluster. 
  • Lab: Chạy song song nhiều job Hadoop trên YARN. 

 

Module 6: Mini Project – Phân tích log truy cập website trên Hadoop (6 giờ) 

Mục tiêu: Ứng dụng toàn bộ kiến thức đã học để xây dựng pipeline phân tích log thực tế. 

  • Cấu hình mini Hadoop cluster (pseudo-distributed). 
  • Thu thập log truy cập (Apache/nginx). 
  • Lưu trữ và xử lý log bằng MapReduce hoặc Hive. 
  • Phân tích kết quả: top IP, thời gian truy cập cao điểm, URL phổ biến. 
  • Xuất dữ liệu kết quả ra HDFS / CSV / dashboard. 

 

Kết quả đầu ra 

Học viên hoàn thành khóa học sẽ: 

  • Làm chủ các thao tác trên HDFS, MapReduce, Hive, YARN. 
  • Tự thiết lập được một môi trường Hadoop hoạt động hoàn chỉnh. 
  • Có thể phân tích và xử lý dữ liệu lớn trên môi trường thực tế. 
  • Sẵn sàng học các khóa nâng cao như Apache Spark, Kafka, Data Engineering trên Cloud. 

 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC