Super Academia Engenharia de Dados - 9 cursos em 1

Nove super cursos juntos: APACHE HOP,PDI,KNIME,Databricks,Databricks Delta Lake,PySpark,NiFi,Elasticsearch,TRIFACTA

4.82 (409 reviews)

Udemy

platform

Português

language

Other

What you will learn

Visualização para explorar resultados de consultas de diferentes perspectivas

Construção de gráficos e Dashboards

Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros

Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades

Aprendizado processamento distribuído em SPARK

Entendo o que é Databricks File System (DBFS) seu sistema de arquivos

Entendo sobre Cluster

Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL

Executando scripts multilinguagens

Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards

Construindo na versão community Databricks

Trabalhando com a biblioteca dbutils Python

Integrando o Databricks ao Power BI

O que é PYSPARK

O que é SPARK

Instalando o SPARK em um ambiente Windows, configurando

Instalando o ANACONDA

Instalando a JDK

Entendendo o ecossistema : Apache Spark + Anaconda + JAVA

Entendendo o conceito de NÓ, CLUSTER

Conhecendo os módulos e pacotes do PYSPARK

O que é SparkContext

Entendo o que é RDD (Resilient Distributed Dataset)

Trabalhando com Spark Dataframe

Compreendendo as diferenças entre transformações e ações, operações com PYSPARK

Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take

Aprendendo o que é uma função Lambda

Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy

Monitoramento de jobs com SPARK UI

O que é SparkSession

Leitura de arquivos externos

SPARK SQL

Leitura de dados em JSON

Elasticsearch sobre o seu mecanismo criado para análise de dados e busca

Entender como é realizada a combinação de muitos tipos de buscas — estruturadas, não estruturadas

Compreender Elasticsearch usa APIs RESTful e JSON padrão

Aprendizado sobre Elasticsearch, Logstash e Kibana

Elasticsearch banco de dados NoSQL

Logstash ferramenta para ingestão de dados

Kibana ferramenta para criação de visualização de dados e Dashboards

Canvas utilizado para criação de infográficos, documentos e projetos gráficos com os dados

Compreender sobre como são armazenados os documentos

Entender a estrutura JSON de armazenamento

Entender sobre índices, tipos de documentos, documentos e campos

Entendimento do que são shards, conhecimento sobre partição de índices, conhecimento sobre réplica de shards

O que é um NÓ

Como utilizar e o que significa um Request Body

Como funciona a busca URI

Trabalhando com as aplicações Discover, Viazualize

Entendo sobre Apache Nifi, uma plataforma de ingestão de dados

Entendo sobre o gerenciamento e a automatização do fluxo de dados

Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados

Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões

O que é Flow File

O que é um Processor

O que é um Fluxo de Dados

O que é uma conexão

O que é um grupo de processor

Aprendendo sobre a barra de componentes

Aprendendo sobre a barra de controle navegação

Aprendendo sobre a barra de operação

Desenvolvimento de diversos fluxos de dados

Extensões: Putfile, Getfile, ExtractText, SplitText

Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile

Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute

Extensões: MergeContent, ReplaceText, CompressContent

Uso de Input Port, Funil e Process Group

O que é Hop Orchestration Platform

Entendendo sobre fluxos de trabalho e pipelines

Entendendo sobre projetos e ambientes

Instalação do APACHE HOP

Criando pipelines com arquivos texto

Realizando tratamento de dados para entendimento do processo de engenharia de dados

O que são transformações, links e ações dentro de um pipeline

Construindo um workflow, orquestrador da sequência das operações

Entendendo o HOP GUI e seus componentes

Entendendo menu barras, principal e perspectivas

Criando sua área de projetos

Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output

Entendendo o que é : View output, Preview output , Debug output

Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist

Leitura de dados em uma API: Rest Client, JSON Input, JSON Output

Construindo Workflow com execução de pipelines

Entendo o uso de variáveis globais no APACHE HOP

Automatização de pipeline ou workflow pelo HOP-RUN

Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão

Instalação de banco de dados Postgresql, usando PGAdmin

Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks

Construindo Delta Lake com processamento em batch, streaming em lote

Controle de transações sobre os dados, como um banco de dados

Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake

Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos

Uso das fases de ingestão, refinamento e enriquecimento dos dados

Diferenças das arquiteturas Data Lake x Delta Lake

Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil

Trabalhando a criação de tabelas Delta e como gerar históricos de dados

Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL

Delta Time Travel como retornar versões de dados e comandos de controle

Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo

Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados

Executando scripts batch e streaming

Entendo o que significa checkpoint e controle de gravações dos dados no Delta Lake

Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta

TRIFACTA: Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise

TRIFACTA: Perfilização de dados, ajudando na identificação de outliers

TRIFACTA: Tratamento de dados, criação de novos campos, dentre outras tarefas

TRIFACTA: Eliminação de dados nulos, inconsistências, criação de novos campos

TRIFACTA: Construção, implantação e automatização de pipelines de dados

TRIFACTA: Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace

TRIFACTA: Preparação de dados aberta que pode se conectar a diversas fontes de dados

TRIFACTA: Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho

TRIFACTA: Engenharia de dados com low-code, visual, direto na nuvem

TRIFACTA: Criação de flow de dados, que permite ao analista encadear suas ações de tratamento

PENTAHO PDI:O que é o Pentaho PDI

PENTAHO PDI:Entendendo sobre fluxos de trabalho e pipelines

PENTAHO PDI:Entendendo sobre projetos e ambientes

PENTAHO PDI:Instalando o Pentaho PDI

PENTAHO PDI:Criando pipelines com arquivos texto

PENTAHO PDI:Realizando tratamento de dados para entendimento do processo de engenharia de dados

PENTAHO PDI:O que são transformações, Jobs e ações dentro de um pipeline

PENTAHO PDI:Construindo um workflow com Jobs, orquestrador da sequência das operações

PENTAHO PDI:Entendendo os menus principais e o seu GUI e seus componentes

PDI:Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output, Row Normaliser

PENTAHO PDI:Entendendo como podem ser depurados os dados via output, logs

PENTAHO PDI:Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail

PENTAHO PDI:Leitura de dados em uma API: Rest Client, JSON Input, JSON Output

PENTAHO PDI:Construindo Workflow com execução de pipelines

PENTAHO PDI:Entendo o uso de variáveis globais no PENTAHO PDI

PENTAHO PDI:Automatização de pipeline ou workflow

PENTAHO PDI:Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão

PENTAHO PDI:Instalação de banco de dados Postgresql, uso do PGAdmin

PENTAHO PDI:Automatização de JOBs e Transformações com o Kitchen e Pan

PENTAHO PDI:Construção do projeto de dados a sua escolha e correção com o uso do Pentaho PDI

KNIME:Conceitos fundamentais de integração de dados

KNIME:Apresentação da interface do KNIME

KNIME:Manipulação e limpeza inicial dos dados

KNIME:Uso de nós de transformação para ajuste de formatos

KNIME:Utilização de APIs para agregar informações adicionais

KNIME:Entendendo a arquitetura de dados no KNIME

KNIME:O que são Nós, finalidade, instalação e reaload

KNIME:Como funciona um workflow e quais são as formas de construção

KNIME:Quais são os principais status dos Nós

KNIME:Nós: CSV FILTER, COLUMN FILTER, ROW AGGREGATOR,ROW FILTER,SORTER,RANK

KNIME:Nós: EXCEL READER, EXCEL WRITER, JOINER, RULE ENGINER, STRING MANIPULATION

KNIME:Nós: WEBPAGE RETRIEVER, XPATH, INTERACTIVE TABLE, TABLE CREATOR, GET REQUEST

KNIME:Nós: JSON PATH, DB CONNECTOR, DB QUERY READER

KNIME:Instalação do postgres

KNIME:Manipulando dados em banco de dados

KNIME:Exportando Workflow

KNIME:Importando Workflow

KNIME:Webscraping em site com KNIME

Screenshots

Super Academia Engenharia de Dados - 9 cursos em 1 - Screenshot_01

Super Academia Engenharia de Dados - 9 cursos em 1 - Screenshot_02

Super Academia Engenharia de Dados - 9 cursos em 1 - Screenshot_03

Super Academia Engenharia de Dados - 9 cursos em 1 - Screenshot_04