Khoá Apache Spark Application Performance Tuning

Khóa học thực hành này cung cấp các khái niệm chính và kiến thức mà các nhà phát triển cần để cải thiện hiệu suất của các ứng dụng Apache Spark của họ. Trong quá trình học, các học viên sẽ học cách xác định các nguồn gốc phổ biến của hiệu suất kém trong các ứng dụng Spark, các kỹ thuật để tránh hoặc giải quyết chúng, và các quy ước tốt nhất cho việc giám sát ứng dụng Spark.  

Khóa học “ Apache Spark Application Performance Tuning” trình bày kiến trúc và các khái niệm đằng sau Apache Spark và nền tảng dữ liệu cơ bản, sau đó xây dựng trên sự hiểu biết cơ bản này bằng cách dạy cho học viên cách tinh chỉnh mã ứng dụng Spark.  

Khóa học nhấn mạnh vào các bài giảng của giảng viên để mô tả vấn đề hiệu suất và các kỹ thuật giải quyết chúng, tiếp theo là các bài tập thực hành để học viên có cơ hội thực hành những gì họ đã học thông qua một môi trường tương tác. 

Sau khi hoàn thành khoá học, học viên sẽ đạt được những kiến thức và kinh nghiệm sau: 

  • Hiểu kiến trúc của Apache Spark, thực thi công việc và cách các kỹ thuật như đánh giá trì hoãn và pipelining có thể cải thiện hiệu suất chạy 
  • Đánh giá các đặc điểm hiệu suất của các cấu trúc dữ liệu cốt lõi như RDD và DataFrames 
  • Chọn các định dạng tệp tin sẽ cung cấp hiệu suất tốt nhất cho ứng dụng của bạn  
  • Xác định và giải quyết các vấn đề hiệu suất do sự lệch dữ liệu gây ra   
  • Sử dụng tối ưu hoá các hàm join, partitioning, bucketing để cải thiện hiệu suất SparkSQL  
  • Hiểu rõ chi phí hiệu suất của RDD, DataFrames và các hàm định nghĩa người dùng dựa trên Python  
  • Tận dụng việc lưu trữ cache để cải thiện hiệu suất ứng dụng  
  • Hiểu cách các trình tối ưu hóa Catalyst và Tungsten hoạt động  
  • Hiểu cách Workload XM có thể giúp giải quyết vấn đề và giám sát hiệu suất ứng dụng Spark một cách có chủ động  
  • Tìm hiểu về các tính năng mới trong Spark 3.0 và cụ thể là cách bộ điều chỉnh Truy vấn Thích ứng cải thiện hiệu suất. 

Khóa học này được thiết kế cho các nhà phát triển phần mềm, kỹ sư và nhà khoa học dữ liệu. 

Khóa học này được thiết kế cho các nhà phát triển phần mềm, kỹ sư và nhà khoa học dữ liệu có kinh nghiệm phát triển các ứng dụng Spark và muốn tìm hiểu cách cải thiện hiệu suất  code của họ. Đây không phải là khoá học để giới thiệu về Spark.  

Học viên khi tham gia cần hiểu về các ví dụ về Spark và các bài tập thực hành được trình bày bằng Python và khả năng lập trình bằng ngôn ngữ này.  

Học viên nên có kiến thức cơ bản với dòng lệnh Linux và kiến thức cơ bản về SQL

Module 1: Kiến trúc Spark 

  • RDDs 
  • DataFrames và Datasets 
  • Đánh giá trì hoãn 
  • Pipelining   

Module 2: Nguồn dữ liệu và Định dạng 

  • Tổng quan các định dạng có sẵn 
  • Ảnh hưởng hiệu suất 
  • Vấn đề về những tệp nhỏ   

Module 3: Suy luận Schema 

  • Chi phí của suy luận 
  • Chiến lược giảm thiểu   

Module 4: Xử lý dữ liệu lệch 

  • Nhận biết dữ liệu lệch 
  • Chiến lược giảm thiểu   

Module 5: Tổng quan Catalyst và Tungsten 

  • Tổng quan Catalyst 
  • Tổng quan Tungsten   

Module 6: Giảm thiểu Spark Shuffles 

  • Định dạng lại 
  • Gia nhập Broadcast 
  • Các hoạt động phía Map 
  • Gia nhập Sắp xếp Hợp nhất   

Module 7: Bảng Partitioned và Bảng Bucketed 

  • Bảng Partitioned 
  • Bảng Bucketed 
  • Ảnh hưởng hiệu suất   

Module 8: Cải thiện hiệu suất với hàm Join 

  • Hàm Skewed Joins 
  • Hàm Bucketed Joins 
  • Hàm Incremental Joins 

Module 9: Chi phí phụ thuộc vào Pyspark và UDFs 

  • Chi phí phụ thuộc vào Pyspark 
  • UDFs Skalar 
  • UDFs Vector sử dụng Apache Arrow 
  • UDFs Scala   

Module 10: Lưu trữ Cache để tái sử dụng 

  • Các tùy chọn lưu trữ Cache 
  • Ảnh hưởng hiệu suất 
  • Rủi ro lưu trữ Cache   

Module 11: Giới thiệu Workload XM (WXM) 

  • Tổng quan WXM 
  • WXM cho nhà phát triển Spark   

Module 12: Những điều mới trong Spark 3.0? 

  • Số lượng Shuffle Partitions phù hợp 
  • Skew Joins 
  • Chuyển đổi Sort Merge Joins thành Broadcast Joins 
  • Dynamic Partition Pruning  
  • Dynamic Coalesce Shuffle Partitions  

Phụ lục A: Xử lý Phân vùng   

Phụ lục B: Broadcast   

Phụ lục C: Lên lịch trình 

Học viên vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC