Этот курс ориентирован на опытных data-инженеров, которые хотят освоить новые фреймворки и отработать алгоритмы интерпретации Big Data с помощью современных инструментов экосистемы Hadoop, которые можно использовать для обработки разнообразных типов данных. Вы разберёте принципы взаимодействия с компонентами системы через консольные клиенты и API, изучите механизм сборки проектов на Scala, познакомитесь с методами оркестрации, настройки CI, мониторинга и логирования, а также рассмотрите способы тестирования и оптимизации Spark-приложений.
Показываем, как будет расти ваш заработок вместе с опытом. И сколько времени потребуется, чтобы окупить вложения в образование
Онлайн-курс познакомит вас с особенностями работы с экосистемой Hadoop и Spark-приложениями, после чего вы закрепите полученные знания на практике и разработаете ETL-систему в качестве итогового проекта.
Познакомитесь с синтаксисом мультипарадигмального языка, научитесь читать код и писать простые приложения.
Освоите работу с библиотеками, разберёте инструменты обработки данных, после чего создадите собственный Scala-проект и соберёте его с помощью SBT.
На примере проекта из домашнего задания рассмотрите проблемы при сборке в Big Data, а также сможете уверенно пользоваться JSON-массивами.
Познакомитесь с экосистемой для обработки больших объёмов данных, разберёте основные дистрибутивы CDH/HDP/CDP.
Рассмотрите возможности системы для хранения данных, изучите архитектуру и роль Zookeeper в управлении файлами.
Получите представление о системах контейнеризации и узнаете, в каких случаях применяется MapReduce.
Сможете настраивать степень сжатия при записи данных, а также научитесь подбирать подходящие форматы хранения под разные задачи.
Зададите интересующие вас вопросы наставникам, получите обратную связь по выполненным домашним заданиям.
Сможете создавать несложные Spark-приложения, а также описывать их архитектуру и понимать назначение.
Построите результирующий отчет на основе raw data с использованием Spark и различных API, после чего опубликуете готовую аналитическую витрину на GitHub.
Освоите методы оптимизации запросов Spark, а также научитесь использовать интерфейс для выявления проблем с производительностью.
С помощью DataSource API V2 разработаете собственный Spark-коннектор для настройки взаимодействия с любыми сервисами.
Научитесь писать автоматические тесты в виде кода на Scala с описанием методов для Spark job с помощью Idea Community.
Освоите машинное обучение моделей и их применение на больших объемах данных с помощью Spark и XGBoost.
Сможете управлять топиками и данными распределённого сервиса очередей, а также преобразовывать форматы.
Научитесь проектировать приложения для потоковой обработки данных с использованием дискретизированных потоков DStreams и библиотеки Structured Streaming.
Изучите способы использования предобученных моделей в Spark Structured Streaming благодаря приложениям потоковой передачи на базе Dataframe и Dataset.
Подберёте фреймворк, который максимально будет подходить для обработки потоковых данных, а также освоите базовые операции из API Flink.
Научитесь проектировать приложения с использованием Flink для реализации анализа графиков и увеличения скорости обработки данных в режиме реального времени.
Зададите интересующие вас вопросы наставникам, получите обратную связь по выполненным домашним заданиям.
Познакомитесь с предназначением, возможностями и архитектурой приложений для распределенных SQL-запросов.
Научитесь писать запросы на HiveQL и создадите аналитические таблицы по результатам обработки Big Data в Hive.
Освоите инструменты Oozie и Airflow для оркестрации ETL-процессов, научитесь загружать данные из внешних систем и проверять качество данных.
Научитесь настраивать мониторинг с помощью Grafana, а также сможете собирать логи Spark-приложений для быстрого реагирования на инфраструктурные проблемы.
Узнаете, как правильно настраивать процессы с CI/CD-поддержкой для Spark и Hive, учитывая принципы обеспечения качества.
Зададите интересующие вас вопросы наставникам, получите обратную связь по выполненным домашним заданиям.
Построите ETL-систему на основе Hadoop: от загрузки данных из внешних источников и их обработки с помощью Hive до проектирования лямбда-архитектуры для получения аналитической информации в Spark-приложении.
Познакомитесь с правилами работы над проектом и требованиями к материалу и технической документации.
Получите возможность задать вопросы и обсудить проблемы, возникающие при выполнении ДЗ и выпускной работы.
Презентуете готовый проект экспертам и получите обратную связь и развёрнутые комментарии по улучшениям и доработкам.
Просмотр обучающих видеороликов
Делаете все тогда, когда вам это удобно и в подходящем вам темпе
Объяснение возникших вопросов, закрепление пройденного материала и исправление ошибок
Данный проект, показывающий ваши навыки, будет прекрасным дополнением к вашему портфолио
Научитесь выгодно презентовать свои сильные стороны, чтобы получать больше откликов компаний
Познакомитесь с площадками для поиска работы, узнаете, как успешно пройти стажировку, и получите доступ к бирже с вакансиями компаний-партнёров
Вам потребуется пройти вступительное тестирование на наличие навыков программирования на Python, Java или Scala, знание SQL и принципов работы с реляционными БД.
Обучение организовано так, что вы можете спокойно совмещать его с работой, учебой и личной жизнью. Именно вы решаете, когда работать с материалами курса - вы занимаетесь тогда, когда удобно вам. Все уроки курса будут всегда в вашем доступе, даже после окончания курса, поэтому вы в любой момент сможете повторить пройденный материал.
Именно вы решаете, когда и сколько заниматься. Обычно студенты тратят на обучение от трех до пяти часов в неделю.
Да, вы всегда сможете задать вопрос преподавателю в личном кабинете. Также вы будете получать от него обратную связь после выполнения домашних заданий.
Да, вы можете купить курс в рассрочку, что позволит вам лучше спланировать свой бюджет.