O que você não sabia sobre o AWS Glue

O Amazon Glue está ganhando popularidade porque muitas empresas começaram a usar serviços de integração de dados gerenciados.

ETL é um processo que transfere dados de um banco de dados de origem para um data warehouse. O ETL é complexo e difícil de implementar para todos os dados corporativos devido à sua complexidade. A Amazon introduziu o AWS Glue para resolver esse problema.

Os desenvolvedores de ETL e engenheiros de dados usam o Glue para criar, monitorar e executar fluxos de trabalho de ETL.

O que é o AWS Glue?

O AWS Glue, um serviço de integração de dados sem servidor, facilita a localização, preparação, movimentação e integração de dados de várias fontes. Isso é útil para aprendizado de máquina (ML) e análise.

Reduz drasticamente o tempo necessário para preparar os dados para análise. Ele encontra e lista automaticamente os dados, gera código Scala ou Python para transmitir os dados da fonte e carrega e transforma o trabalho de acordo com os eventos cronometrados.

Isso permite agendamento flexível e cria um ambiente Apache Spark que pode ser dimensionado para carregamento de dados direcionado. Além disso, o AWS Glue fornece monitoramento e alteração de fluxo de dados complexos. O AWS Glue é um serviço sem servidor que simplifica as operações complicadas do desenvolvimento de aplicativos.

Permite a integração rápida de vários dados válidos. Ele também decompõe e autoriza os dados rapidamente.

Para que é usado o AWS Glue?

É importante conhecer os melhores lugares para usar o Amazon Glue. Estes são apenas alguns exemplos de usos do AWS Glue que você deve considerar.

  • Glue é uma ferramenta que permite executar consultas sem servidor nos data lakes do Amazon S3. O Amazon Glue é uma ótima ferramenta para você começar. Ele torna todos os seus dados acessíveis em uma única interface, permitindo que você os analise sem precisar movê-los.
  • O Amazon Glue pode ser usado para entender seus ativos de dados. O Amazon Glue facilita a pesquisa de diferentes conjuntos de dados da AWS usando o Data Catalog. Você também pode salvar dados em vários serviços da AWS usando o Data Catalog e ainda ter uma visualização consistente.
  • A cola pode ser útil ao criar fluxos de trabalho de ETL orientados a eventos. Você pode executar suas operações ETL do Amazon S3 chamando suas tarefas Glue ETL por meio de um serviço AWS Lambda.
  • O AWS Glue também pode ser usado para limpar, verificar, formatar e organizar dados para armazenamento em um data lake ou warehouse.

Quais são os componentes do AWS Glue?

Abaixo estão os principais componentes do AWS Glue:

  • Catálogo de dados: Este catálogo de dados contém metadados e a estrutura de dados.
  • Banco de dados: Esta é a chave para acessar e criar o banco de dados para origens e destinos.
  • Tabela: crie uma ou várias tabelas no banco de dados que podem ser usadas pelo destino e pela origem.
  • Rastreador e classificador: o rastreador recupera dados da origem usando classificações internas ou personalizadas. Ele cria/usa tabelas de metadados pré-definidas no catálogo de dados.
  • Job: Este é o trabalho da lógica de negócios para executar uma tarefa ETL. Essa lógica de negócios é escrita internamente pelo Apache Spark usando linguagens python e scala.
  • Acionador: Um acionador ETL é um dispositivo que inicia a execução de um trabalho ETL sob demanda ou em um determinado momento.
  • Endpoint para desenvolvimento: Isso cria um ambiente no qual o script de tarefa ETL é testado, desenvolvido e depurado.
  Como corrigir o IME do teclado japonês que não funciona (guia completo)

Benefícios do AWS Glue

Estes são os benefícios de usá-lo em seu local de trabalho ou dentro de uma organização.

  • O AWS Glue verifica todos os dados disponíveis com um rastreador.
  • Os dados finais processados ​​podem ser armazenados em vários lugares (Amazon RDS e Amazon Redshift, Amazon S3, etc.
  • É um serviço baseado em nuvem. Não há necessidade de gastar dinheiro em infraestruturas no local.
  • Por ser um ETL sem servidor, é uma opção econômica.
  • É rápido. Ele fornece imediatamente o código ETL Python/Scala.

Principais recursos do AWS Glue?

O Amazon Glue tem todos os recursos necessários para integrar dados para que você possa obter melhores insights e usar seu conhecimento para fazer novos avanços em minutos, em vez de meses. Aqui estão alguns dos recursos que você deve conhecer.

  • Interface de arrastar e soltar: Um editor de tarefas de arrastar e soltar permite criar um processo ETL. O AWS Glue criará imediatamente o código necessário para extrair, converter e fazer upload dos dados.
  • Descoberta automática de esquema: para criar rastreadores que se conectam a diferentes fontes de dados, você pode usar o serviço Glue. Ele organiza os dados e extrai informações relevantes. Esses dados podem ser usados ​​para monitorar processos ETL por tarefas ETL.
  • Agendamento de Trabalho: A cola pode ser usada sob demanda ou de acordo com um agendamento agendado. O agendador pode ser usado para construir pipelines ETL complexos, estabelecendo dependências entre tarefas.
  • Geração de código: o Glue Elastic Views permite que você crie facilmente visualizações materializadas que combinam e replicam dados de diferentes fontes de dados sem precisar escrever nenhum código proprietário.
  • Aprendizado de máquina integrado: o Glue vem com um recurso de aprendizado de máquina integrado chamado “FindMatches”. Ele desduplica registros que não são cópias perfeitas uns dos outros.
  • Pontos de extremidade do desenvolvedor: se você deseja desenvolver ativamente seu código ETL, o Glue fornece pontos de extremidade do desenvolvedor que permitem modificar, depurar e testar o código que ele cria.
  • Glue DataBrew: É uma ferramenta de preparação de dados que pode ser usada por analistas de dados e cientistas de dados para ajudá-los a limpar e normalizar dados. Ele usa a interface ativa e visual do Glue DataBrew.

Como funcionam os preços do AWS Glue?

O AWS Glue cobra uma taxa por hora, que é cobrada por segundo para crawlers (descobrindo os dados) e trabalhos de ETL (processando e carregando os dados). Uma taxa mensal simples é cobrada para acessar e armazenar metadados no AWS Glue Data Catalog.

O Amazon Glue começa em US$ 0,44. Você pode escolher entre quatro planos:

  • Tarefas ETL, endpoints de desenvolvimento e outras tarefas ETL estão disponíveis por US$ 0,44
  • As sessões interativas de crawlers estão disponíveis por US$ 0,44
  • Os trabalhos do DataBrew começam em US$ 0,48
  • O armazenamento mensal e as solicitações ao Catálogo de Dados custam US$ 1,00

A AWS não oferece um plano Glue gratuito. Cada hora custará US$ 0,44 por DPU. Em média, custaria US $ 21 por dia. Os preços podem variar dependendo de onde você mora.

  Como deslizar o dedo em um iPhone ou iPad

Etapas para configurar o AWS Glue

O Data Catalog pode ser usado para localizar e pesquisar rapidamente vários conjuntos de dados da AWS sem precisar mover os dados. Depois que os dados são catalogados, eles ficam imediatamente disponíveis para consulta e pesquisa usando o Amazon Athena e o Amazon EMR.

Ref.: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS e bancos de dados no Amazon EC2 – Descubra seus dados, armazene metadados e use o AWS Glue Data Catalog para descobri-los
  • Catálogo de dados do AWS Glue – gerencie dados com o catálogo de dados atuando como um repositório central para metadados
  • AWS Glue ETL – Leia e grave metadados em seu catálogo de dados
  • Amazon Athena e Amazon Redshift, Amazon EMR, Amazon ETL – Obtenha o catálogo de dados para ETL, análises e muito mais.

Como configurar o AWS Glue?

Primeiro, faça login no Console de gerenciamento da AWS e abra o console do IAM. Clique em Criar função. Em seguida, para tipo de função, localize Glue e selecione Permissões.

Estou escolhendo AWSGlueServiceRole para permissões gerais do AWS Glue Studio e AWS Glue e a política gerenciada pela AWS AmazonS3FullAccess para acesso a recursos do Amazon S3.

Insira um nome de função.

Clique em Criar Função.

Crie um bucket do Amazon S3.

Crie uma pasta dentro do bucket do S3.

Escolha o arquivo para upload.

Por fim, carregue o arquivo no bucket.

Em seguida, abra o AWS Glue no console de gerenciamento da AWS e crie um banco de dados.

Agora que você tem um banco de dados no AWS Glue, crie um crawler.

Na fonte de dados, selecione o bucket do S3 que você criou.

Em seguida, selecione a função do IAM para AWS Glue que você criou no início.

Por fim, na saída, selecione gluedb que você criou.

Revise todas as configurações e crie o rastreador.

Depois que o rastreador for criado, selecione-o e clique em Executar. Depois de algum tempo, você terá o status pronto.

Ao executar o crawler, o banco de dados obterá uma tabela com todos os dados do arquivo CSV.

Ao clicar em visualizar dados, você será levado ao Amazon Athena (editor de consultas). Ao executar a consulta, você pode ver os dados da tabela.

Agora você pode usar esse crawler do AWS Glue com sucesso em qualquer trabalho de ETL.

O que é o AWS Glue Databrew?

O AWS Glue DataBrew permite que os usuários normalizem e limpem dados sem escrever nenhum código. O DataBrew pode reduzir o tempo necessário para preparar dados para machine learning e análise em até 80% em comparação com a preparação de dados desenvolvida sob medida.

Existem mais de 250 transformações de dados pré-fabricadas que podem ser usadas para automatizar tarefas de preparação de dados, como filtrar anomalias, corrigir valores inválidos e converter dados em formatos padrão.

O DataBrew facilita a colaboração de cientistas de dados, analistas de negócios e engenheiros na extração de insights de dados brutos. O DataBrew não tem servidor, portanto, você não precisa gerenciar a infraestrutura ou criar clusters para explorar e transformar terabytes de dados brutos.

Recursos do DataBrew para empresas

Preparação de dados visualizados

DataBrew é uma maneira diferente de visualizar dados que normalmente são visualizados em bancos de dados colunares como números alfanuméricos. O DataBrew visualiza todas as fontes de dados carregadas para ajudá-lo a entender as relações e a hierarquia dos dados.

  Corrigir o erro do cartão SIM do Samsung Galaxy Note 5

Mais de 250 Automações de Preparação de Dados

Espera-se que os cientistas de dados sigam uma variedade de fluxos de trabalho isolados e repetíveis como parte de seu trabalho. Esses fluxos de trabalho e processos foram modelados pela AWS como módulos de linguagem e módulos agnósticos de dados. Essa biblioteca inclui ações que podem ser usadas por usuários finais.

Linhagem de dados

Semelhante aos logs de auditoria usados ​​para rastrear a atividade do cliente na rede de TI de uma rede de TI, a linhagem de dados permite rastrear as atividades de transformação de dados no AWS DataBrew. Essas informações incluem a fonte de dados, as transformações aplicadas e a saída de dados, incluindo o local de destino.

Mapeamento de dados

O Databrew permite que você encontre campos correspondentes em duas fontes de dados. Depois que os campos correspondentes forem identificados, eles podem ser carregados em um esquema.

AWS Glue DataBrew: benefícios

Abaixo estão os recursos do AWS Glue DataBrew:

  • Menor barreira à entrada para preparação de dados
  • Geração automatizada de perfis de dados
  • Automatize mais de 250 processos de preparação de dados
  • Sugestões Prescritivas Inteligentes

Alternativas ao AWS Glue

Fluxo de ar

O Airflow pertence à seção Workflow Manager de uma pilha de tecnologia. É uma ferramenta de código aberto que suporta estrelas do GitHub, bifurcações do GitHub e outros recursos. O Airflow permite que você crie fluxos de trabalho usando diagramas acíclicos direcionados (DAGs). O agendador do Airflow executa suas tarefas usando uma matriz de trabalhadores e seguindo as dependências especificadas.

Malhão

Matillion ETL, uma ferramenta ETL/ELT, foi projetada explicitamente para plataformas de bancos de dados em nuvem, como Amazon Redshift e Google BigQuery. É uma interface de usuário moderna baseada em navegador com recursos avançados de ETL/ELT push-down. Você pode estar em funcionamento em minutos com uma configuração rápida.

Ponto

Stitch é um serviço ETL de código aberto que conecta várias fontes de dados e replica dados para destinos preferenciais. É muito fácil de usar, pois você não precisa de nenhum conhecimento de codificação para mover dados entre origens e destinos no Stitch. É fácil de usar, tem uma GUI amigável e é rápido.

O Stitch não permite que você escolha um painel pré-fabricado, ao contrário de outras ferramentas ETL. Em vez disso, você deve integrar seus dados aos data warehouses abertos selecionados como destino. Pode ser difícil navegar pelos inventários.

Alteryx

O Alteryx é uma plataforma de automação de análise que auxilia na preparação e combinação da coleta de dados. Esses dados podem ser usados ​​para acelerar processos e fornecer insights de negócios. Por ser uma ferramenta de arrastar e soltar, você não precisa de nenhum conhecimento de programação. O Alteryx é um ótimo lugar para obter conselhos e respostas de profissionais do setor.

Conclusão

Então, isso foi tudo sobre o AWS Glue, que é uma solução baseada em nuvem que permite trabalhar com pipelines ETL. Resumindo, o processo de interação do usuário do AWS Glue é composto de três fases. Para criar um catálogo de dados, você primeiro usa rastreadores de dados. Em seguida, você cria o código ETL exigido pelo pipeline de dados da AWS. Por fim, o agendamento ETL é criado. Espero que este blog tenha lhe dado uma boa visão geral do Amazon Glue.

Você também pode explorar as melhores dicas para proteger o armazenamento do AWS S3.