Các khóa học / Khoá DENG-254: Preparing with Cloudera Data Engineering
Các khóa học / Khoá DENG-254: Preparing with Cloudera Data Engineering
Khóa học thực hành này cung cấp các khái niệm và kiến thức chính mà các nhà phát triển cần để sử dụng Apache Spark để phát triển các ứng dụng song song, hiệu suất cao trên Nền tảng Dữ liệu Cloudera (CDP). Các bài tập thực hành cho phép sinh viên thực hành việc viết các ứng dụng Spark tích hợp với các thành phần cốt lõi của CDP. Các học viên sẽ học cách sử dụng Spark SQL để truy vấn dữ liệu có cấu trúc, cách sử dụng các tính năng của Hive để nhập và hạ cấp dữ liệu, và làm việc với “dữ liệu lớn” được lưu trữ trong một hệ thống tệp phân tán. Sau khi hoàn thành khóa học này, các học viên sẽ được chuẩn bị để đối mặt với các thách thức thực tế và xây dựng các ứng dụng để thực hiện các quyết định nhanh hơn, quyết định tốt hơn, và phân tích tương tác, áp dụng vào một loạt các trường hợp sử dụng, kiến trúc và ngành công nghiệp khác nhau.
Sau khi hoàn thành khoá học, học viên sẽ có được các kiến thức và kỹ năng sau:
Khóa học này được thiết kế cho các nhà phát triển và kỹ sư dữ liệu.
Tất cả sinh viên được mong đợi có kinh nghiệm cơ bản với Linux, và sự thành thạo cơ bản với một trong hai ngôn ngữ lập trình Python hoặc Scala. Kiến thức cơ bản về SQL hữu ích. Kiến thức trước về Spark và Hadoop không yêu cầu.
Module 1: Giới thiệu về HDFS
Module 2: Giới thiệu về YARN
Module 3: Làm việc với RDDs
Module 4: Giới thiệu về DataFrames
Module 5: Giới thiệu về Apache Hive
Module 6: Làm việc với Apache Hive
Module 7: Tích hợp Hive và Spark
Module 8: Thách thức Xử lý Phân tán
Module 9: Xử lý phân tán Spark
Module 10: Dữ liệu phân tán Spark
Module 11: Dịch vụ kỹ thuật dữ liệu
Module 12: Workload XM
Phụ lục: Làm việc với Datasets trong Scala
Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí!
(024) 3771 0668