Khoá DSCI-272: Predicting with Cloudera Machine Learning

Các nhóm khoa học dữ liệu doanh nghiệp cần có quyền truy cập cộng tác vào dữ liệu kinh doanh, các công cụ và tài nguyên Điện toán cần thiết để phát triển và triển khai các luồng công việc học máy. Cloudera Machine Learning (CML), một phần của Cloudera Data Platform (CDP), cung cấp giải pháp này, cung cấp cho các nhóm khoa học dữ liệu các tài nguyên cần thiết. Khóa học này tập trung vào các luồng công việc học máy và hoạt động sử dụng CML. Các thành viên sẽ khám phá, trực quan hóa và phân tích dữ liệu. Bạn cũng sẽ huấn luyện, đánh giá và triển khai các mô hình học máy. Khóa học này đi qua một luồng công việc khoa học dữ liệu và học máy từ đầu đến cuối dựa trên các tình huống thực tế và bộ dữ liệu từ một công ty công nghệ hư cấu. Các bài thực hành và thảo luận được thực hiện bằng Python (với PySpark) sử dụng CML. 

Sau khoá học, học viên sẽ đạt được các kiến thức và kỹ năng sau:

  • Sử dụng Cloudera SDX và các thành phần khác của Cloudera Data Platform để tìm dữ liệu cho các thí nghiệm học máy 
  • Sử dụng Mẫu Ứng Dụng Học Máy (AMP) 
  • Quản lý các thí nghiệm học máy 
  • Kết nối với các nguồn dữ liệu khác nhau và khám phá dữ liệu 
  • Sử dụng Apache Spark và Spark ML 
  • Triển khai một mô hình học máy như một API REST 
  • Quản lý và giám sát các mô hình học máy đã triển khai. 

Khóa học được thiết kế cho các nhà khoa học dữ liệu cần hiểu cách sử dụng Cloudera Machine LearningCloudera Data Platform để đạt được việc phát triển mô hình nhanh hơn và triển khai học máy sản xuất ở quy mô lớn. Các kỹ sư dữ liệu, nhà phát triển và kiến trúc sư giải pháp làm việc cùng với các nhà khoa học dữ liệu cũng sẽ thấy giá trị từ khóa học này. 

Khóa học được thiết kế cho các nhà khoa học dữ liệu cần hiểu cách sử dụng Cloudera Machine LearningCloudera Data Platform để đạt được việc phát triển mô hình nhanh hơn và triển khai học máy sản xuất ở quy mô lớn. Các kỹ sư dữ liệu, nhà phát triển và kiến trúc sư giải pháp làm việc cùng với các nhà khoa học dữ liệu cũng sẽ thấy giá trị từ khóa học này. 

Module 1: Giới thiệu về CML 

  • Tổng quan 
  • CML So với CDSW 
  • Không gian làm việc ML 
  • Vai trò Không gian làm việc 
  • Dự án và Nhóm 
  • Cài đặt 
  • Runtimes/Legacy Engines 

Module 2: Giới thiệu về AMPs và Workbench 

  • Biên tập viên và Môi trường phát triển tích hợp 
  • Git 
  • Ứng dụng Web nhúng 
  • AMPs 

Module 3: Truy cập Dữ liệu và Dòng dữ liệu 

  • Tổng quan SDX 
  • Catalog Dữ liệu 
  • Phân quyền 
  • Dòng dữ liệu 

Module 4: Trực quan hóa Dữ liệu trong CML 

  • Tổng quan về Trực quan hóa Dữ liệu 
  • Khái niệm Trực quan hóa Dữ liệu CDP 
  • Sử dụng Trực quan hóa Dữ liệu trong CML 

Module 5: Thực hành 

  • Thực hành trong CML 

Module 6: Giới thiệu về Workbench tự nhiên CML 

  • Nhập mã 
  • Nhận trợ giúp 
  • Truy cập Dòng lệnh Linux 
  • Làm việc với Gói Python 
  • Định dạng Đầu ra Phiên 

Module 7: Tổng quan về Spark 

  • Cách Spark hoạt động 
  • Ngăn xếp Spark 
  • Định dạng Tập tin trong Spark 
  • Ngôn ngữ Giao diện Spark 
  • Giới thiệu về PySpark 
  • Cách các Thao tác DataFrame trở thành Công việc Spark 
  • Cách Spark thực thi một Công việc 

Module 8: Chạy một Ứng dụng Spark 

  • Chạy một Ứng dụng Spark 
  • Đọc dữ liệu vào DataFrame Spark SQL 
  • Kiểm tra Schema của DataFrame 
  • Tính toán Số hàng và Cột của DataFrame 
  • Kiểm tra một Số hàng của DataFrame 
  • Dừng một Ứng dụng Spark 

Module 9: Kiểm tra một DataFrame Spark 

  • Kiểm tra một DataFrame 
  • Kiểm tra một cột của DataFrame 

Module 10: Chuyển đổi DataFrames 

  • DataFrame Spark SQL 
  • Làm việc với Cột 
  • Làm việc với Hàng 
  • Làm việc với Giá trị Thiếu sót 

Module 11: Chuyển đổi Cột DataFrame 

  • Các Loại dữ liệu Spark SQL 
  • Làm việc với Các cột Số 
  • Làm việc với Các cột Chuỗi 
  • Làm việc với Các cột Ngày và Thời gian 
  • Làm việc với Các cột Logic  

Module 12: Loại Phức tạp 

  • Các Loại dữ liệu Bộ sưu tập Phức tạp 
  • Mảng 
  • Bản đồ 
  • Cấu trúc  

Module 13: Hàm Tự định nghĩa 

  • Hàm Tự định nghĩa 
  • Ví dụ 1: Giờ trong ngày 
  • Ví dụ 2: Khoảng cách Vòng tròn lớn  

Module 14: Đọc và Ghi DataFrame 

  • Làm việc với Tập tin Văn bản Giới hạn 
  • Làm việc với Tập tin Văn bản 
  • Làm việc với Tập tin Parquet 
  • Làm việc với Bảng Hive 
  • Làm việc với Kho Dữ liệu Đối tượng 
  • Làm việc với DataFrame Pandas  

Module 15: Kết hợp và Chia DataFrame 

  • Kết hợp và Chia DataFrame 
  • Gia nhập DataFrame 
  • Chia một DataFrame  

Module 16: Tóm tắt và Nhóm DataFrame 

  • Tóm tắt Dữ liệu với Hàm Tích tụ 
  • Nhóm Dữ liệu 
  • Pivoting Dữ liệu  

Module 17: Hàm Cửa sổ 

  • Hàm Cửa sổ 
  • Ví dụ: Số lần và Tổng tích lũy 
  • Ví dụ: Tính trung bình số ngày giữa các chuyến đi cho Mỗi người điều khiển  

Module 18: Tổng quan về Học máy 

  • Giới thiệu về Học máy 
  • Các Công cụ Học máy  

Module 19: Apache Spark Mllib 

  • Giới thiệu về Apache Spark MLlib  

Module 20: Khám phá và Trực quan hóa DataFrame 

  • Luồng công việc có thể 
  • Khám phá một biến 
  • Khám phá một cặp biến 

Module 21: Giám sát, Tinh chỉnh và Cấu hình Ứng dụng Spark 

  • Giám sát Ứng dụng Spark 
  • Cấu hình Môi trường Spark 

Module 22: Điều chỉnh và Đánh giá Mô hình Hồi quy 

  • Tạo Vector Tính năng 
  • Điều chỉnh Mô hình Hồi quy Tuyến tính 

Module 23: Điều chỉnh và Đánh giá Mô hình Phân loại 

  • Tạo Nhãn 
  • Điều chỉnh Mô hình Phân loại Logistic 

Module 24: Điều chỉnh Tham số Siêu của Thuật toán Bằng Tìm kiếm Lưới 

  • Yêu cầu cho Việc Điều chỉnh Tham số Siêu 
  • Điều chỉnh Tham số Siêu bằng Phương pháp Chia dữ liệu theo Tỷ lệ 
  • Điều chỉnh Tham số Siêu bằng Phương pháp Chia dữ liệu theo K-Fold 

Module 25: Điều chỉnh và Đánh giá Mô hình Gom cụm 

  • In và Vẽ tọa độ 
  • Điều chỉnh Mô hình Phân phối Gaus 
  • Khám phá các Hồ sơ của Cụm 

Module 26: Xử lý Văn bản: Điều chỉnh và Đánh giá Mô hình Chủ đề 

  • Điều chỉnh Mô hình Chủ đề Sử dụng Phân phối Dirichlet Ẩn 

Module 27: Điều chỉnh và Đánh giá Mô hình Gợi ý 

  • Mô hình Gợi ý 
  • Tạo Gợi ý 

Module 28: Làm việc với Đường ống Học máy 

  • Điều chỉnh Mô hình Đường ống 
  • Kiểm tra Mô hình Đường ống 

Module 29: Áp dụng Mô hình Scikit-Learn vào DataFrame Spark 

  • Xây dựng Mô hình Scikit-Learn 
  • Áp dụng Mô hình Sử dụng một Hàm UDF Spark 

Module 30: Triển khai Mô hình Học máy dưới dạng REST API trong CML 

  • Tải Mô hình Đã được Serialize 
  • Xác định Một Hàm Bao để Tạo ra Dự đoán 
  • Kiểm tra Hàm 

Module 31: Tự động Thay đổi quy mô, Hiệu suất và Cài đặt GPU 

  • Tự động Thay đổi quy mô Công việc 
  • Làm việc với GPU 

Module 32: Thước đo và Giám sát Mô hình 

  • Tại sao cần Giám sát Mô hình? 
  • Các Thước đo Phổ biến của Mô hình 
  • Giám sát Mô hình với Evidently 
  • Giám sát Mô hình Liên tục 

Phụ lục: Cung cấp Môi trường Làm việc 

  • Môi trường Làm việc và Môi trường 

Học viên vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC