Các khóa học / Khóa học Hệ sinh thái Hadoop và Xử lý dữ liệu phân tán
Các khóa học / Khóa học Hệ sinh thái Hadoop và Xử lý dữ liệu phân tán
Hadoop là nền tảng cốt lõi của hầu hết các hệ thống Big Data hiện nay. Nó cho phép lưu trữ, quản lý và xử lý dữ liệu có quy mô hàng terabyte đến petabyte theo cách phân tán, đáng tin cậy và mở rộng dễ dàng.
Khóa học này giúp học viên hiểu sâu cơ chế hoạt động bên trong Hadoop, làm chủ các công cụ trong hệ sinh thái Hadoop, và thực hành xây dựng quy trình xử lý dữ liệu lớn từ đầu đến cuối (ETL, phân tích và tối ưu).
Sau khi hoàn thành khóa học, học viên có thể:
Khóa học phù hợp với:
Để học hiệu quả, học viên nên:
Module 1: Giới thiệu Big Data và kiến trúc Hadoop (4 giờ)
Module 2: Hệ thống lưu trữ phân tán – HDFS (6 giờ)
Module 3: Xử lý dữ liệu với MapReduce (8 giờ)
Module 4: Truy vấn dữ liệu với Hive và Pig (10 giờ)
Module 5: Quản lý tài nguyên với YARN (6 giờ)
Module 6: Mini Project – Phân tích log truy cập website trên Hadoop (6 giờ)
Mục tiêu: Ứng dụng toàn bộ kiến thức đã học để xây dựng pipeline phân tích log thực tế.
Kết quả đầu ra
Học viên hoàn thành khóa học sẽ:
Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí!
(024) 3771 0668