PySpark e APACHE HOP: processamento e pipelines de dados

A uniao perfeita para tratamento e preparação de dados
4.65 (10 reviews)
Udemy
platform
Português
language
Other
category
PySpark e APACHE HOP: processamento e pipelines de dados
63
students
7 hours
content
Oct 2024
last update
$19.99
regular price

What you will learn

O que é  Hop Orchestration Platform

Entendendo sobre fluxos de trabalho e pipelines

Entendendo sobre projetos e ambientes

Instalação do APACHE HOP

Criando pipelines com arquivos texto

Realizando tratamento de dados para entendimento do processo de engenharia de dados

O que são transformações, links e ações dentro de um pipeline

Construindo um workflow, orquestrador da sequência das operações

Entendendo o HOP GUI e seus componentes

Entendendo menu barras, principal e perspectivas

Criando sua área de projetos

Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output

Entendendo o que é : View output, Preview output , Debug output

Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist

Leitura de dados em uma API: Rest Client, JSON Input, JSON Output

Construindo Workflow com execução de pipelines

Entendo o uso de variáveis globais no APACHE HOP

Automatização de pipeline ou workflow pelo HOP-RUN

Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão

Instalação de banco de dados Postgresql, usando PGAdmin

O que é PYSPARK

O que é SPARK

Instalando o SPARK em um ambiente Windows, configurando

Instalando o ANACONDA

Instalando a JDK

Entendendo o ecossistema : Apache Spark + Anaconda + JAVA

Entendendo o conceito de NÓ, CLUSTER

Conhecendo os módulos e pacotes do PYSPARK

O que é SparkContext

Entendo o que é RDD (Resilient Distributed Dataset)

Trabalhando com Spark Dataframe

Compreendendo as diferenças entre transformações e ações, operações com PYSPARK

Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take

Aprendendo o que é uma função Lambda

Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy

Monitoramento de jobs com SPARK UI

O que é SparkSession

Leitura de arquivos externos

SPARK SQL

Leitura de dados em JSON

4427508
udemy ID
12/3/2021
course created date
1/4/2022
course indexed date
Bot
course submited by