Super Academia Engenharia de Dados - 9 cursos em 1
Nove super cursos juntos: APACHE HOP,PDI,KNIME,Databricks,Databricks Delta Lake,PySpark,NiFi,Elasticsearch,TRIFACTA
4.82 (409 reviews)

3,632
students
28 hours
content
Oct 2024
last update
$59.99
regular price
What you will learn
Visualização para explorar resultados de consultas de diferentes perspectivas
Construção de gráficos e Dashboards
Unificação de dados em diversos formatos: texto, JSON, PARQUET, dentre outros
Trabalhada por administrador da plataforma, analista de dados, cientista de dados e engenheiro de dados com diversas funcionalidades
Aprendizado processamento distribuído em SPARK
Entendo o que é Databricks File System (DBFS) seu sistema de arquivos
Entendo sobre Cluster
Aprendendo a gerenciar e criar Notebooks em R, SCALA, Python e SQL
Executando scripts multilinguagens
Gerenciando a ingestão de dados e análise de dados, gerando gráficos e dashboards
Construindo na versão community Databricks
Trabalhando com a biblioteca dbutils Python
Integrando o Databricks ao Power BI
O que é PYSPARK
O que é SPARK
Instalando o SPARK em um ambiente Windows, configurando
Instalando o ANACONDA
Instalando a JDK
Entendendo o ecossistema : Apache Spark + Anaconda + JAVA
Entendendo o conceito de NÓ, CLUSTER
Conhecendo os módulos e pacotes do PYSPARK
O que é SparkContext
Entendo o que é RDD (Resilient Distributed Dataset)
Trabalhando com Spark Dataframe
Compreendendo as diferenças entre transformações e ações, operações com PYSPARK
Operações: collect, count, parallelize, getNumPartitions, textFile, first, filter, cache, Show, take
Aprendendo o que é uma função Lambda
Operações: flatMap, map, reduceByKey, sortBY, join, leftOuterjoin, rightOuterjoin, select, groupBy, orderBy
Monitoramento de jobs com SPARK UI
O que é SparkSession
Leitura de arquivos externos
SPARK SQL
Leitura de dados em JSON
Elasticsearch sobre o seu mecanismo criado para análise de dados e busca
Entender como é realizada a combinação de muitos tipos de buscas — estruturadas, não estruturadas
Compreender Elasticsearch usa APIs RESTful e JSON padrão
Aprendizado sobre Elasticsearch, Logstash e Kibana
Elasticsearch banco de dados NoSQL
Logstash ferramenta para ingestão de dados
Kibana ferramenta para criação de visualização de dados e Dashboards
Canvas utilizado para criação de infográficos, documentos e projetos gráficos com os dados
Compreender sobre como são armazenados os documentos
Entender a estrutura JSON de armazenamento
Entender sobre índices, tipos de documentos, documentos e campos
Entendimento do que são shards, conhecimento sobre partição de índices, conhecimento sobre réplica de shards
O que é um NÓ
Como utilizar e o que significa um Request Body
Como funciona a busca URI
Trabalhando com as aplicações Discover, Viazualize
Entendo sobre Apache Nifi, uma plataforma de ingestão de dados
Entendo sobre o gerenciamento e a automatização do fluxo de dados
Entendendo sobre coleta de dados, transmissão de dados, armazenamento de dados
Ecossistema NiFi: Repositórios, controle de fluxo, máquina JVM, extensões
O que é Flow File
O que é um Processor
O que é um Fluxo de Dados
O que é uma conexão
O que é um grupo de processor
Aprendendo sobre a barra de componentes
Aprendendo sobre a barra de controle navegação
Aprendendo sobre a barra de operação
Desenvolvimento de diversos fluxos de dados
Extensões: Putfile, Getfile, ExtractText, SplitText
Extensões: EvaluateXpath, UpdateAttribute, GenerateFlowFile
Extensões: RouteOnAttribute, SplitXML, LogMessage, LogAttibute
Extensões: MergeContent, ReplaceText, CompressContent
Uso de Input Port, Funil e Process Group
O que é Hop Orchestration Platform
Entendendo sobre fluxos de trabalho e pipelines
Entendendo sobre projetos e ambientes
Instalação do APACHE HOP
Criando pipelines com arquivos texto
Realizando tratamento de dados para entendimento do processo de engenharia de dados
O que são transformações, links e ações dentro de um pipeline
Construindo um workflow, orquestrador da sequência das operações
Entendendo o HOP GUI e seus componentes
Entendendo menu barras, principal e perspectivas
Criando sua área de projetos
Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output
Entendendo o que é : View output, Preview output , Debug output
Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail, File Exist
Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
Construindo Workflow com execução de pipelines
Entendo o uso de variáveis globais no APACHE HOP
Automatização de pipeline ou workflow pelo HOP-RUN
Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
Instalação de banco de dados Postgresql, usando PGAdmin
Entendendo a arquitetura chamada Lakehouse sobre o Data Lake no Databricks
Construindo Delta Lake com processamento em batch, streaming em lote
Controle de transações sobre os dados, como um banco de dados
Trabalhando com características ACID (Atomicidade, Consistência, Isolamento, Durabilidade) ao Delta Lake
Entendendo versionamento dos dados, permite que os dados sejam acessados e revertam para versões anteriores de dados, controle de históricos
Uso das fases de ingestão, refinamento e enriquecimento dos dados
Diferenças das arquiteturas Data Lake x Delta Lake
Aprendendo como otimização dos processos de coleta e tratamento dos dados, reduzindo o tempo de processamento e descartando o que não for útil
Trabalhando a criação de tabelas Delta e como gerar históricos de dados
Trabalhando com cluster, DBFS, Notebook em R, Scala, Pyhton e SQL
Delta Time Travel como retornar versões de dados e comandos de controle
Controle de auditoria, agindo na conformidade de dados quanto de depuração simples para entender como os dados mudaram ao longo do tempo
Executando reversões nos dados, evitando duplicação e realizando refinamento, ajustes, atualizações e exclusões dos dados
Executando scripts batch e streaming
Entendo o que significa checkpoint e controle de gravações dos dados no Delta Lake
Trabalhando com Schema Evolution na inclusão de atributos as tabelas delta
TRIFACTA: Suporte para todas as principais nuvens, Google, AWS, Azure e on-premise
TRIFACTA: Perfilização de dados, ajudando na identificação de outliers
TRIFACTA: Tratamento de dados, criação de novos campos, dentre outras tarefas
TRIFACTA: Eliminação de dados nulos, inconsistências, criação de novos campos
TRIFACTA: Construção, implantação e automatização de pipelines de dados
TRIFACTA: Action com os dados: Columns, Rename, Sort, Calculate, Group By, Filter Rows, Replace
TRIFACTA: Preparação de dados aberta que pode se conectar a diversas fontes de dados
TRIFACTA: Decida entre ETL ou ELT, ou uma combinação ideal dos dois com base no desempenho
TRIFACTA: Engenharia de dados com low-code, visual, direto na nuvem
TRIFACTA: Criação de flow de dados, que permite ao analista encadear suas ações de tratamento
PENTAHO PDI:O que é o Pentaho PDI
PENTAHO PDI:Entendendo sobre fluxos de trabalho e pipelines
PENTAHO PDI:Entendendo sobre projetos e ambientes
PENTAHO PDI:Instalando o Pentaho PDI
PENTAHO PDI:Criando pipelines com arquivos texto
PENTAHO PDI:Realizando tratamento de dados para entendimento do processo de engenharia de dados
PENTAHO PDI:O que são transformações, Jobs e ações dentro de um pipeline
PENTAHO PDI:Construindo um workflow com Jobs, orquestrador da sequência das operações
PENTAHO PDI:Entendendo os menus principais e o seu GUI e seus componentes
PDI:Componentes pipelines: Sort, Select value, CSV file input, Value mapper, Filter rows, Dummy, Unique rows, Merge Join, Text File Output, Row Normaliser
PENTAHO PDI:Entendendo como podem ser depurados os dados via output, logs
PENTAHO PDI:Componentes pipelines: Number Range, Concat Field, String Operations, Replace in String, IF Field Value is Null, Split Fields, CSV File Input, Mail
PENTAHO PDI:Leitura de dados em uma API: Rest Client, JSON Input, JSON Output
PENTAHO PDI:Construindo Workflow com execução de pipelines
PENTAHO PDI:Entendo o uso de variáveis globais no PENTAHO PDI
PENTAHO PDI:Automatização de pipeline ou workflow
PENTAHO PDI:Construindo pipelines em banco de dados Postgresql: Table Input, Table Output, Configurando conexão
PENTAHO PDI:Instalação de banco de dados Postgresql, uso do PGAdmin
PENTAHO PDI:Automatização de JOBs e Transformações com o Kitchen e Pan
PENTAHO PDI:Construção do projeto de dados a sua escolha e correção com o uso do Pentaho PDI
KNIME:Conceitos fundamentais de integração de dados
KNIME:Apresentação da interface do KNIME
KNIME:Manipulação e limpeza inicial dos dados
KNIME:Uso de nós de transformação para ajuste de formatos
KNIME:Utilização de APIs para agregar informações adicionais
KNIME:Entendendo a arquitetura de dados no KNIME
KNIME:O que são Nós, finalidade, instalação e reaload
KNIME:Como funciona um workflow e quais são as formas de construção
KNIME:Quais são os principais status dos Nós
KNIME:Nós: CSV FILTER, COLUMN FILTER, ROW AGGREGATOR,ROW FILTER,SORTER,RANK
KNIME:Nós: EXCEL READER, EXCEL WRITER, JOINER, RULE ENGINER, STRING MANIPULATION
KNIME:Nós: WEBPAGE RETRIEVER, XPATH, INTERACTIVE TABLE, TABLE CREATOR, GET REQUEST
KNIME:Nós: JSON PATH, DB CONNECTOR, DB QUERY READER
KNIME:Instalação do postgres
KNIME:Manipulando dados em banco de dados
KNIME:Exportando Workflow
KNIME:Importando Workflow
KNIME:Webscraping em site com KNIME
Screenshots




Related Topics
4222540
udemy ID
8/4/2021
course created date
8/16/2021
course indexed date
Bot
course submited by