Khoá DOPS-242: Ingesting with Cloudera DataFlow

Một trong những chức năng quan trọng nhất của một doanh nghiệp dữ liệu là khả năng quản lý việc nhập và luồng dữ liệu qua các hệ sinh thái phức tạp. Đội của bạn có các công cụ và kỹ năng cần thiết để thành công trong việc này không? Apache NiFi và khóa học bốn ngày này cung cấp các khái niệm cơ bản và kinh nghiệm cần thiết để tự động hóa việc nhập, luồng, biến đổi và xuất dữ liệu bằng cách sử dụng NiFi. Khóa học cũng bao gồm điều chỉnh, sửa lỗi và theo dõi quy trình luồng dữ liệu cũng như cách tích hợp một luồng dữ liệu trong hệ sinh thái kết hợp Cloudera CDP và các hệ thống bên ngoài. 

Sau khi hoàn thành khoá học, học viên sẽ có các kiến thức và kỹ năng sau:

  • Xác định, cấu hình, tổ chức và quản lý các luồng dữ liệu. 
  • Biến đổi và theo dõi dữ liệu khi nó chảy đến điểm đến của nó. 
  • Theo dõi các thay đổi trong các luồng dữ liệu với NiFi Registry. 
  • Sử dụng ngôn ngữ NiFi để kiểm soát các luồng dữ liệu. 
  • Tối ưu hóa các luồng dữ liệu để có hiệu suất và khả năng bảo trì tốt hơn. 
  • Kết nối các luồng dữ liệu với các hệ thống khác, như Apache Kafka, Apache Hive và HDFS. 
  • Sử dụng dịch vụ luồng dữ liệu. 

Khóa học này được thiết kế cho các nhà phát triển, kỹ sư dữ liệu, quản trị viên và những người khác quan tâm đến việc học cách tiếp cận không mã, đồ họa của NiFi trong việc nhập dữ liệu. 

Mặc dù không cần kinh nghiệm lập trình, nhưng giả định rằng bạn đã có kinh nghiệm cơ bản với Linux, và sự tiếp xúc trước đây với các khái niệm và ứng dụng dữ liệu lớn là hữu ích. 

Module 1: Giới thiệu về quản lý dòng dữ liệu Cloudera 

  • Tổng quan về dữ liệu trong chuyển động của Cloudera 
  • Giao diện người dùng NiFi 
  • Catalog dòng dữ liệu 
  • Các luồng sẵn sàng 
  • Giảng Viên demo: giao diện người dùng NiFi 
  • Bài Tập Thực Hành: xây dựng luồng dữ liệu đầu tiên 

Module 2: Các bộ xử lý. 

  • Tổng quan về các bộ xử lý 
  • Bảng bề mặt bộ xử lý 
  • Cấu hình bộ xử lý 
  • Bài Tập Thực Hành: bắt đầu xây dựng một luồng dữ liệu sử dụng các bộ xử lý 

Module 3: Kết nối 

  • Tổng quan về kết nối 
  • Cấu hình kết nối 
  • Menu ngữ cảnh kết nối 
  • Bài Tập Thực Hành: kết nối các bộ xử lý trong một luồng dữ liệu 

Module 4: Các luồng dữ liệu 

  • Quyền kiểm soát và điều khiển một luồng dữ liệu 
  • Mối quan hệ của các bộ xử lý 
  • Áp lực ngược 
  • Bộ ưu tiên 
  • Lables
  • Bài Tập Thực Hành: xây dựng một luồng dữ liệu phức tạp hơn 
  • Bài Tập Thực Hành: tạo một phân nhánh sử dụng mối quan hệ 
  • Bài Tập Thực Hành: đặt ngưỡng áp lực ngược 

Module 5: Các nhóm bộ xử lý 

  • Cấu tạo của nhóm bộ xử lý 
  • Cổng nhập và xuất 
  • Bài Tập Thực Hành: đơn giản hóa luồng dữ liệu sử dụng nhóm bộ xử lý 

Module 6: Nguồn gốc của FlowFile 

  • Sự kiện xuất xứ dữ liệu 
  • Hệ thống liên kết các flowfile 
  • Tái phát một flowfile 
  • Bài Tập Thực Hành: sử dụng xuất xứ dữ liệu 

Module 7: Tham số 

  • Ngữ cảnh tham số. 
  • Tham chiếu tham số 
  • Quản lý tham số 
  • Di chuyển từ biến sang tham số 
  • Bài Tập Thực Hành: tạo, sử dụng và quản lý tham số 

Module 8: Định nghĩa luồng dữ liệu và mẫu 

  • Tổng quan về định nghĩa luồng dữ liệu 
  • Tạo một định nghĩa luồng dữ liệu 
  • Nhập và triển khai một luồng dữ liệu 
  • Sử Dụng (chuyển đổi từ) Mẫu 
  • Bài Tập Thực Hành: tạo, sử dụng và quản lý định nghĩa luồng dữ liệu 

Module 9: Kho lưu trữ Apache NiFi 

  • Tổng quan về kho lưu trữ Apache NiFi 
  • Sử dụng kho lưu trữ 
  • Bài Tập Thực Hành: phiên bản hóa các luồng sử dụng kho lưu trữ NiFi 

Module 10: Thuộc tính FlowFile 

  • Tổng quan về thuộc tính FlowFile 
  • Định tuyến trên thuộc tính 
  • Bài tập thực hành: làm việc với thuộc tính FlowFile 

Module 11: Ngôn ngữ NiFi 

  • Tổng quan về ngôn ngữ NiFi 
  • pháp 
  • Trình soạn thảo ngôn ngữ  
  • Thiết lập giá trị điều kiện 
  • Bài Tập Thực Hành: sử dụng ngôn ngữ NiFi 

Module 12: Dịch vụ điều khiển 

  • Tổng quan về dịch vụ điều khiển 
  • Các dịch vụ điều khiển phổ biến 
  • Bài Tập Thực Hành: thêm dịch vụ điều khiển Apache Hive 

Module 13: Các thành phần dựa trên bản ghi 

  • Dữ liệu hướng bản ghi 
  • Các bộ xử lý dựa trên bản ghi 
  • Bảng Đăng Ký Schema Avro 
  • Định Dạng Schema 
  • Đọc và ghi dữ liệu bản ghi 
  • Truy vấn dữ liệu bản ghi 
  • Bộ xử lý truy vấn bản ghi 
  • Ghi dữ liệu bản ghi 
  • Bài Tập Thực Hành: TBD (Tạo một chức năng để đọc và ghi dữ liệu?) 

Module 14: Bổ sung dữ liệu bản ghi 

  • Các hoạt động ETL 
  • Bộ xử lý chia và gộp 
  • Cập nhật bộ xử lý bản ghi 
  • Bộ xử lý chờ và thông báo 

Module 15: Tổng quan kiến trúc NiFi 

  • Tổng quan kiến trúc NiFi 
  • Kiến trúc đám mây công cộng 
  • Kiến trúc đám mây riêng 

Module 16: Các chức năng luồng dữ liệu 

  • Tổng quan 
  • Các chức năng không có máy chủ 
  • Demo: triển khai một định nghĩa luồng dữ liệu như một chức năng 

Module 17: Tối ưu hóa luồng dữ liệu 

  • Tối ưu hóa luồng dữ liệu 
  • Kiểm soát tỷ lệ 
  • Quản lý tính toán 
  • Bài tập thực hành: xây dựng một luồng dữ liệu tối ưu hóa 

Module 18: Theo dõi, báo cáo và sửa lỗi 

  • Theo dõi từ NIFI 
  • Báo cáo 
  • Ví dụ về các nhiệm vụ báo cáo thông thường 
  • Bài Tập Thực Hành: theo dõi và báo cáo 

Module 19: Bảo mật NiFi 

  • Tổng quan về bảo mật NiFi 
  • Bảo mật truy cập vào giao diện người dùng NiFi 
  • Quản lý dữ liệu siêu dữ liệu 

Module 20: Tích hợp NiFi 

  • Kiến trúc tích hợp NiFi 
  • Các luồng sẵn 
  • Phân tích sâu hơn về NiFi và Apache Hive 

Học viên vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC