Khoá DENG-254: Preparing with Cloudera Data Engineering

Private: Các khóa học / Khoá DENG-254: Preparing with Cloudera Data Engineering

Khóa học thực hành này cung cấp các khái niệm và kiến thức chính mà các nhà phát triển cần để sử dụng Apache Spark để phát triển các ứng dụng song song, hiệu suất cao trên Nền tảng Dữ liệu Cloudera (CDP). Các bài tập thực hành cho phép sinh viên thực hành việc viết các ứng dụng Spark tích hợp với các thành phần cốt lõi của CDP. Các học viên sẽ học cách sử dụng Spark SQL để truy vấn dữ liệu có cấu trúc, cách sử dụng các tính năng của Hive để nhập và hạ cấp dữ liệu, và làm việc với “dữ liệu lớn” được lưu trữ trong một hệ thống tệp phân tán. Sau khi hoàn thành khóa học này, các học viên sẽ được chuẩn bị để đối mặt với các thách thức thực tế và xây dựng các ứng dụng để thực hiện các quyết định nhanh hơn, quyết định tốt hơn, và phân tích tương tác, áp dụng vào một loạt các trường hợp sử dụng, kiến trúc và ngành công nghiệp khác nhau.

Sau khi hoàn thành khoá học, học viên sẽ có được các kiến thức và kỹ năng sau:

Phân phối, lưu trữ và xử lý dữ liệu trong một cụm CDP
Viết, cấu hình và triển khai các ứng dụng Apache Spark
Sử dụng các trình thông dịch Spark và các ứng dụng Spark để khám phá, xử lý và phân tích dữ liệu phân tán
Truy vấn dữ liệu bằng cách sử dụng Spark SQL, DataFrames và bảng Hive
Triển khai một ứng dụng Spark trên Dịch vụ Kỹ thuật Dữ liệu.

Khóa học này được thiết kế cho các nhà phát triển và kỹ sư dữ liệu.

Tất cả sinh viên được mong đợi có kinh nghiệm cơ bản với Linux, và sự thành thạo cơ bản với một trong hai ngôn ngữ lập trình Python hoặc Scala. Kiến thức cơ bản về SQL hữu ích. Kiến thức trước về Spark và Hadoop không yêu cầu.

Module 1: Giới thiệu về HDFS

Tổng quan về HDFS
Các thành phần và tương tác của HDFS
Tương tác HDFS bổ sung
Tổng quan về Ozone
Bài tập: Làm việc với HDFS

Module 2: Giới thiệu về YARN

Tổng quan về YARN
Các thành phần và tương tác của YARN
Làm việc với YARN
Bài tập: Làm việc với YARN

Module 3: Làm việc với RDDs

Dữ liệu phân tán bền vững (RDDs)
Bài tập: Làm việc với RDDs
Làm việc với DataFrames

Module 4: Giới thiệu về DataFrames

Bài tập: Giới thiệu DataFrames
Bài tập: Đọc và ghi DataFrames
Bài tập: Làm việc với Columns
Bài tập: Làm việc với Complex Types
Bài tập: Kết hợp và phân tách DataFrames
Bài tập: Tóm tắt và nhóm DataFrames
Bài tập: Làm việc với UDFs
Bài tập: Làm việc với Windows

Module 5: Giới thiệu về Apache Hive

Hive
Biến đổi dữ liệu với Hive QL

Module 6: Làm việc với Apache Hive

Bài tập: Làm việc với phân vùng
Bài tập: Làm việc với Bucket
Bài tập: Làm việc với Skew
Bài tập: Sử dụng Serdes để nhập dữ liệu văn bản
Bài tập: Sử dụng các loại phức tạp để hạ cấp dữ liệu

Module 7: Tích hợp Hive và Spark

Tích hợp Hive và Spark
Bài tập: Tích hợp Spark với Hive

Module 8: Thách thức Xử lý Phân tán

Shuffle
Skew
Order

Module 9: Xử lý phân tán Spark

Xử lý phân tán Spark
Bài tập: Khám phá thứ tự thực hiện truy vấn

Module 10: Dữ liệu phân tán Spark

DataFrame và Dataset Persistence
Các mức lưu trữ Persistence
Xem RDD đã được lưu trữ
Bài tập: Lưu trữ DataFrames

Module 11: Dịch vụ kỹ thuật dữ liệu

Tạo và kích hoạt các công việc Spark phiên bản
Điều phối một tập hợp công việc bằng Airflow
Nguyên gốc dữ liệu sử dụng Atlas
Tự động mở rộng trong dịch vụ kỹ thuật dữ liệu

Module 12: Workload XM

Tối ưu hóa các tải, hiệu suất, dung lượng
Xác định các công việc Spark không tối ưu

Phụ lục: Làm việc với Datasets trong Scala

Làm việc với Datasets trong Scala
Bài tập: Sử dụng Datasets trong Scala

Bạn vui lòng liên hệ với Tư vấn viên qua mục chat trên website hoặc gọi đến số 024 3771 0668 để được tư vấn chi tiết về lộ trình học tập và chi phí!

Top khoá học

Khóa CCIE Service Provider

Khoá Microsoft Azure Fundamentals

Khoá Certified Associate in Project Management – CAPM

Khóa học Áp dụng AI trong Phát triển phần mềm

Đánh giá của đối tác & học viên

Các chuyên gia và sinh viên công nghệ tiềm năng bước ra từ iPMAC nói gì về khóa học?

 5/5

Trần Nguyễn Vy

- Học viên khóa Bussiness Analyst -

Mình được bạn giới thiệu qua học khóa BA cơ bản tại IPMAC. Ban đầu cứ sợ học chỉ toàn lí thuyết, nhưng khi đến trung tâm, được tiếp cận nhiều dự án thực tế bổ ích, thấy “đáng đồng tiền bát gạo” nên mình sẽ giới thiệu để bạn bè cũng qua IPMAC học.

 5/5

Lê Ngọc Dũng

- Học viên khóa Quản lý dự án chuyên nghiệp PMP -

Các thầy rất dạn dày kinh nghiệm. Ngoài khung lý thuyết, các thầy chia sẻ rất nhiều kinh nghiệm thực tế từ công việc, các case studies nên mình thấy có thể ứng dụng được luôn. Hay các phương pháp để học và tóm tắt kiến thức rất hay và dễ hiểu, tiết kiệm cho học viên rất nhiều thời gian. Đôi khi chỉ cần 1 vài case studies hay tips mình đã hiểu được một mảng kiến thức tốt hơn mà không phải “cày” trong sách.

 5/5

Nguyễn Thu Trang

- Học viên khóa Quản lý dự án chuyên nghiệp PMP -

Giảng viên của khóa học rất nhiệt tình. Ngoài nội dung slide bài giảng, các bài luyện tập của IPMAC cung cấp khá hay và chất lượng thì các thầy thường xuyên gửi thêm các nội dung có hiệu quả, dễ đọc, dễ nhớ cho học viên tìm hiểu, ôn luyện trong quá trình luyện thi chứng chỉ. Các thầy luôn sẵn sàng hỗ trợ khi học viên có vướng mắc, luôn hỏi thăm tình hình ôn thi của mình cũng như các bạn khác, hỏi han xem đang vướng ở phần nào và kịp thời gửi thêm các phần tài liệu còn đang chưa chắc chắn. Các bạn support của IPMAC rất nhiệt tình hỗ trợ trong quá trình học.

 5/5

Nguyễn Hữu Đức

- Học viên khóa Comptia Security+ -

Chất lượng giảng dạy tốt và hoàn toàn phù hợp với mức học phí, đáp ứng được nhu cầu của anh công việc hiện tại. Khóa học này là tiền đề để anh tiếp tục theo đuổi mục tiêu phát triển trong lĩnh vực bảo mật của mình. Về giảng viên, anh thấy thầy Cường là người có chuyên môn cao, rất nhiệt tình, rất quan tâm đến học viên; có nhiều định hướng hữu ích cho học viên trong tương lai. Các bạn của IPMAC cũng rất nhiệt tình, rất cố gắng hỗ trợ học viên, đảm bảo cho khóa học diễn ra suôn sẻ (mặc dù bị ảnh hưởng của đại dịch Covid-19).

 5/5

Nguyễn Công Sỹ

- Học viên khóa Ready For BA -

Khóa Ready for BA thực sự phù hợp với những người bắt đầu vào nghề như em, khi mà định nghĩa về BA trước đó còn khá mông lung. Đối với những anh chị đã đi làm rồi thì em thấy nó cũng vẫn giúp nhiều phần củng cố lại kiến thức, và giải đáp được các vấn đề BA thường đang gặp phải trong quá trình làm việc. Giảng viên của em là cô giáo có nhiều kinh nghiệm trong nghề, do đó kiến thức mà cô đưa tới mọi người cũng rất phong phú, phong cách giảng dạy nhiệt tình và dễ tiếp thu.