Khoá DANA-262: Analyzing with Cloudera Data Warehouse

Khóa học Phân tích với Data Warehouse này sẽ giúp bạn áp dụng các kỹ năng phân tích dữ liệu truyền thống và kinh doanh thông minh vào dữ liệu lớn. Khóa học này cung cấp các công cụ mà các chuyên gia dữ liệu cần để truy cập, thao tác, biến đổi và phân tích các tập dữ liệu phức tạp bằng SQL và các ngôn ngữ script quen thuộc. 

Sau khi hoàn thành khoá học, học viên sẽ có thể đạt được các kiến thức và kỹ năng sau: 

  • Sử dụng Apache Hive và Apache Impala để truy cập dữ liệu thông qua các truy vấn 
  • Phân biệt các điểm khác biệt giữa Hive và Impala, như các khác biệt về cú pháp, định dạng dữ liệu và các tính năng được hỗ trợ 
  • Viết và thực hiện các truy vấn sử dụng các hàm, hàm tổng hợp và truy vấn con 
  • Sử dụng Unions và Joins để kết hợp các bộ dữ liệu 
  • Tạo, sửa đổi và xóa các bảng, chế độ xem và cơ sở dữ liệu 
  • Tải dữ liệu vào các bảng và lưu kết quả truy vấn 
  • Lựa chọn định dạng tệp và phát triển các kế hoạch phân vùng để đạt hiệu suất tốt hơn 
  • Sử dụng các hàm phân tích và hàm cửa sổ để hiểu rõ hơn về dữ liệu của họ 
  • Lưu trữ và truy vấn cấu trúc dữ liệu phức tạp hoặc lồng nhau 
  • Xử lý và phân tích dữ liệu bán cấu trúc và không cấu trúc 
  • Tối ưu hóa và mở rộng các khả năng của Hive và Impala 
  • Xác định xem Hive, Impala, một RDBMS, hoặc một sự kết hợp của chúng là lựa chọn tốt nhất cho một nhiệm vụ cụ thể 
  • Tận dụng các lợi ích của Data Warehouse Công cộng của CDP 

Khóa học này được thiết kế dành cho các nhà phân tích dữ liệu, chuyên gia thông minh kinh doanh, nhà phát triển, kiến trúc sư hệ thống và quản trị cơ sở dữ liệu.

Để tham gia khoá học đạt hiệu quả cao, học viên cần trang bị một số kiến thức về SQL được giả định, cũng như là quen thuộc với dòng lệnh Linux cơ bản. 

Module 1: Nền tảng cho Phân Tích Dữ Liệu Lớn 

  • Tổng quan về Phân Tích Dữ Liệu Lớn 
  • Lưu Trữ Dữ Liệu: HDFS 
  • Xử Lý Dữ Liệu Phân Tán: YARN, MapReduce và Spark 
  • Xử Lý và Phân Tích Dữ Liệu: Hive và Impala 
  • Tích Hợp Cơ Sở Dữ Liệu: Sqoop 
  • Các Công Cụ Dữ Liệu Khác 
  • Giải Thích Kịch Bản Bài Tập 

Module 2: Giới Thiệu về Apache Hive và Impala 

  • Hive là Gì? 
  • Impala là Gì? 
  • Tại Sao Sử Dụng Hive và Impala? 
  • Schema và Lưu Trữ Dữ Liệu 
  • So Sánh Hive và Impala với Cơ Sở Dữ Liệu Truyền Thống 
  • Các Trường Hợp Sử Dụng 

Module 3: Truy Vấn với Apache Hive và Impala 

  • Cơ Sở Dữ Liệu và Bảng 
  • Cú Pháp Ngôn Ngữ Truy Vấn Cơ Bản của Hive và Impala 
  • Các Loại Dữ Liệu 
  • Sử Dụng Hue để Thực hiệnTruy Vấn 
  • Sử Dụng Beeline (Shell của Hive) 
  • Sử Dụng Shell của Impala 

Module 4: Toán Tử và Hàm Tích Hợp Phổ Biến 

  • Toán Tử 
  • Hàm Skalar 
  • Hàm Tích Hợp 

Module 5: Quản Lý Dữ Liệu 

  • Lưu Trữ Dữ Liệu 
  • Tạo Cơ Sở Dữ Liệu và Bảng 
  • Tải Dữ Liệu 
  • Thay Đổi Cơ Sở Dữ Liệu và Bảng 
  • Đơn Giản Hóa Truy Vấn với Các Khung Nhìn 
  • Lưu Trữ Kết Quả Truy Vấn 

Module 6: Lưu Trữ Dữ Liệu và Hiệu Suất 

  • Phân Vùng Bảng 
  • Tải Dữ Liệu vào Các Bảng Đã Phân Vùng 
  • Khi Nào Sử Dụng Phân Vùng 
  • Lựa Chọn Định Dạng Tệp 
  • Sử Dụng Định Dạng Tệp Avro và Parquet 

Module 7: Làm Việc với Nhiều Bộ Dữ Liệu 

  • Joins và Kết Hợp 
  • Xử Lý Giá Trị NULL trong Joins 
  • Hàm Joins nâng cao 

Module 8: Hàm Phân Tích và Cửa Sổ 

  • Sử dụng hàm phân tích 
  • Các hàm phân tích khác 
  • Cửa Sổ Trượt 

Module 9: Dữ Liệu Phức Tạp 

  • Dữ liệu phức tạp với Hive 
  • Dữ liệu phức tạp với Impala 

Module 10: Phân Tích Văn Bản 

  • Sử dụng biểu thức chính quy với Hive và Impala 
  • Xử lý dữ liệu văn bản với SerDes trong Hive 
  • Phân tích tính cảm và n-grams trong Hive 

Module 11: Tối Ưu Hóa Apache Hive 

  • Hiểu Về Hiệu Suất Truy Vấn 
  • Tối ưu hóa dựa trên chi phí và thống kê 
  • Phân hộp 
  • Tối Ưu Hóa Tệp ORC 

Module 12: Tối Ưu Hóa Apache Impala 

  • Cách Impala thực hiện truy vấn 
  • Cải thiện hiệu suất Impala 

Module 13: Mở Rộng Hive và Impala 

  • Hàm người dùng định nghĩa 
  • Truy vấn tham số hóa 

Module 14: Lựa chọn công cụ tốt nhất cho công việc 

  • So Sánh Hive, Impala và  
  • Cơ sở dữ liệu quan 
  • Nên chọn cái nào? 

Module 15: CDP Public Cloud Data Warehouse 

  • Tổng Quan về Data Warehouse 
  • Tự động tăng giảm kích thước 
  • Quản lý các kho lưu trữ ảo 
  • Truy vấn dữ liệu bằng CLI và tích hợp bên thứ ba 

Module 16: Phụ Lục: Apache Kudu 

  • Apache Kudu là Gì? 
  • Bảng Kudu 
  • Sử Dụng Impala với Kudu 

Học viên vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí! 

Top khoá học

				
					
				
			

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

Tìm kiếm khóa học

Nhận tư vấn

(024) 3771 0668

ĐĂNG KÝ HỌC