Khoá DENG-254: Preparing with Cloudera Data Engineering

Khóa học thực hành này cung cấp các khái niệm và kiến thức chính mà các nhà phát triển cần để sử dụng Apache Spark để phát triển các ứng dụng song song, hiệu suất cao trên Nền tảng Dữ liệu Cloudera (CDP). Các bài tập thực hành cho phép sinh viên thực hành việc viết các ứng dụng Spark tích hợp với các thành phần cốt lõi của CDP. Các học viên sẽ học cách sử dụng Spark SQL để truy vấn dữ liệu có cấu trúc, cách sử dụng các tính năng của Hive để nhập và hạ cấp dữ liệu, và làm việc với “dữ liệu lớn” được lưu trữ trong một hệ thống tệp phân tán. Sau khi hoàn thành khóa học này, các học viên sẽ được chuẩn bị để đối mặt với các thách thức thực tế và xây dựng các ứng dụng để thực hiện các quyết định nhanh hơn, quyết định tốt hơn, và phân tích tương tác, áp dụng vào một loạt các trường hợp sử dụng, kiến ​​trúc và ngành công nghiệp khác nhau. 

Sau khi hoàn thành khoá học, học viên sẽ có được các kiến thức và kỹ năng sau:

  • Phân phối, lưu trữ và xử lý dữ liệu trong một cụm CDP 
  • Viết, cấu hình và triển khai các ứng dụng Apache Spark 
  • Sử dụng các trình thông dịch Spark và các ứng dụng Spark để khám phá, xử lý và phân tích dữ liệu phân tán 
  • Truy vấn dữ liệu bằng cách sử dụng Spark SQL, DataFrames và bảng Hive 
  • Triển khai một ứng dụng Spark trên Dịch vụ Kỹ thuật Dữ liệu. 

Khóa học này được thiết kế cho các nhà phát triển và kỹ sư dữ liệu

Tất cả sinh viên được mong đợi có kinh nghiệm cơ bản với Linux, và sự thành thạo cơ bản với một trong hai ngôn ngữ lập trình Python hoặc Scala. Kiến thức cơ bản về SQL hữu ích. Kiến thức trước về Spark và Hadoop không yêu cầu. 

Module 1: Giới thiệu về HDFS 

  • Tổng quan về HDFS 
  • Các thành phần và tương tác của HDFS 
  • Tương tác HDFS bổ sung 
  • Tổng quan về Ozone 
  • Bài tập: Làm việc với HDFS 

Module 2: Giới thiệu về YARN 

  • Tổng quan về YARN 
  • Các thành phần và tương tác của YARN 
  • Làm việc với YARN 
  • Bài tập: Làm việc với YARN 

Module 3: Làm việc với RDDs 

  • Dữ liệu phân tán bền vững (RDDs) 
  • Bài tập: Làm việc với RDDs 
  • Làm việc với DataFrames 

Module 4: Giới thiệu về DataFrames 

  • Bài tập: Giới thiệu DataFrames 
  • Bài tập: Đọc và ghi DataFrames 
  • Bài tập: Làm việc với Columns 
  • Bài tập: Làm việc với Complex Types 
  • Bài tập: Kết hợp và phân tách DataFrames 
  • Bài tập: Tóm tắt và nhóm DataFrames 
  • Bài tập: Làm việc với UDFs 
  • Bài tập: Làm việc với Windows 

Module 5: Giới thiệu về Apache Hive 

  • Hive 
  • Biến đổi dữ liệu với Hive QL 

Module 6: Làm việc với Apache Hive 

  • Bài tập: Làm việc với phân vùng 
  • Bài tập: Làm việc với Bucket 
  • Bài tập: Làm việc với Skew 
  • Bài tập: Sử dụng Serdes để nhập dữ liệu văn bản 
  • Bài tập: Sử dụng các loại phức tạp để hạ cấp dữ liệu 

Module 7: Tích hợp Hive và Spark 

  • Tích hợp Hive và Spark 
  • Bài tập: Tích hợp Spark với Hive 

Module 8: Thách thức Xử lý Phân tán 

  • Shuffle 
  • Skew 
  • Order 

Module 9: Xử lý phân tán Spark 

  • Xử lý phân tán Spark 
  • Bài tập: Khám phá thứ tự thực hiện truy vấn 

Module 10: Dữ liệu phân tán Spark 

  • DataFrame và Dataset Persistence 
  • Các mức lưu trữ Persistence 
  • Xem RDD đã được lưu trữ 
  • Bài tập: Lưu trữ DataFrames 

Module 11: Dịch vụ kỹ thuật dữ liệu 

  • Tạo và kích hoạt các công việc Spark phiên bản 
  • Điều phối một tập hợp công việc bằng Airflow 
  • Nguyên gốc dữ liệu sử dụng Atlas 
  • Tự động mở rộng trong dịch vụ kỹ thuật dữ liệu 

Module 12: Workload XM 

  • Tối ưu hóa các tải, hiệu suất, dung lượng 
  • Xác định các công việc Spark không tối ưu 

Phụ lục: Làm việc với Datasets trong Scala 

  • Làm việc với Datasets trong Scala 
  • Bài tập: Sử dụng Datasets trong Scala 

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC