PySpark e APACHE HOP: processamento e pipelines de dados
A uniao perfeita para tratamento e preparação de dados
4.65 (10 reviews)

63
students
7 hours
content
Oct 2024
last update
$19.99
regular price
What you will learn
O que é Hop Orchestration Platform
Entendendo sobre fluxos de trabalho e pipelines
Entendendo sobre projetos e ambientes
Instalação do APACHE HOP
Criando pipelines com arquivos texto
Realizando tratamento de dados para entendimento do processo de engenharia de dados
O que são transformações, links e ações dentro de um pipeline
Construindo um workflow, orquestrador da sequência das operações
Entendendo o HOP GUI e seus componentes
Entendendo menu barras, principal e perspectivas
Criando sua área de projetos
Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
Entendendo o que é : View output, Preview output , Debug output
Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
Construindo Workflow com execução de pipelines
Entendo o uso de variáveis globais no APACHE HOP
Automatização de pipeline ou workflow pelo HOP-RUN
Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
Instalação de banco de dados Postgresql, usando PGAdmin
O que é PYSPARK
O que é SPARK
Instalando o SPARK em um ambiente Windows, configurando
Instalando o ANACONDA
Instalando a JDK
Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
Entendendo o conceito de NÓ, CLUSTER
Conhecendo os módulos e pacotes do PYSPARK
O que é SparkContext
Entendo o que é RDD (Resilient Distributed Dataset)
Trabalhando com Spark Dataframe
Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
Aprendendo o que é uma função Lambda
Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
Monitoramento de jobs com SPARK UI
O que é SparkSession
Leitura de arquivos externos
SPARK SQL
Leitura de dados em JSON
Related Topics
4427508
udemy ID
12/3/2021
course created date
1/4/2022
course indexed date
Bot
course submited by