O Amazon Glue está ganhando popularidade porque muitas empresas começaram a usar serviços de integração de dados gerenciados.
ETL é um processo que transfere dados de um banco de dados de origem para um data warehouse. O ETL é complexo e difícil de implementar para todos os dados corporativos devido à sua complexidade. A Amazon introduziu o AWS Glue para resolver esse problema.
Os desenvolvedores de ETL e engenheiros de dados usam o Glue para criar, monitorar e executar fluxos de trabalho de ETL.
últimas postagens
O que é o AWS Glue?
O AWS Glue, um serviço de integração de dados sem servidor, facilita a localização, preparação, movimentação e integração de dados de várias fontes. Isso é útil para aprendizado de máquina (ML) e análise.
Reduz drasticamente o tempo necessário para preparar os dados para análise. Ele encontra e lista automaticamente os dados, gera código Scala ou Python para transmitir os dados da fonte e carrega e transforma o trabalho de acordo com os eventos cronometrados.
Isso permite agendamento flexível e cria um ambiente Apache Spark que pode ser dimensionado para carregamento de dados direcionado. Além disso, o AWS Glue fornece monitoramento e alteração de fluxo de dados complexos. O AWS Glue é um serviço sem servidor que simplifica as operações complicadas do desenvolvimento de aplicativos.
Permite a integração rápida de vários dados válidos. Ele também decompõe e autoriza os dados rapidamente.
Para que é usado o AWS Glue?
É importante conhecer os melhores lugares para usar o Amazon Glue. Estes são apenas alguns exemplos de usos do AWS Glue que você deve considerar.
- Glue é uma ferramenta que permite executar consultas sem servidor nos data lakes do Amazon S3. O Amazon Glue é uma ótima ferramenta para você começar. Ele torna todos os seus dados acessíveis em uma única interface, permitindo que você os analise sem precisar movê-los.
- O Amazon Glue pode ser usado para entender seus ativos de dados. O Amazon Glue facilita a pesquisa de diferentes conjuntos de dados da AWS usando o Data Catalog. Você também pode salvar dados em vários serviços da AWS usando o Data Catalog e ainda ter uma visualização consistente.
- A cola pode ser útil ao criar fluxos de trabalho de ETL orientados a eventos. Você pode executar suas operações ETL do Amazon S3 chamando suas tarefas Glue ETL por meio de um serviço AWS Lambda.
- O AWS Glue também pode ser usado para limpar, verificar, formatar e organizar dados para armazenamento em um data lake ou warehouse.
Quais são os componentes do AWS Glue?
Abaixo estão os principais componentes do AWS Glue:
- Catálogo de dados: Este catálogo de dados contém metadados e a estrutura de dados.
- Banco de dados: Esta é a chave para acessar e criar o banco de dados para origens e destinos.
- Tabela: crie uma ou várias tabelas no banco de dados que podem ser usadas pelo destino e pela origem.
- Rastreador e classificador: o rastreador recupera dados da origem usando classificações internas ou personalizadas. Ele cria/usa tabelas de metadados pré-definidas no catálogo de dados.
- Job: Este é o trabalho da lógica de negócios para executar uma tarefa ETL. Essa lógica de negócios é escrita internamente pelo Apache Spark usando linguagens python e scala.
- Acionador: Um acionador ETL é um dispositivo que inicia a execução de um trabalho ETL sob demanda ou em um determinado momento.
- Endpoint para desenvolvimento: Isso cria um ambiente no qual o script de tarefa ETL é testado, desenvolvido e depurado.
Benefícios do AWS Glue
Estes são os benefícios de usá-lo em seu local de trabalho ou dentro de uma organização.
- O AWS Glue verifica todos os dados disponíveis com um rastreador.
- Os dados finais processados podem ser armazenados em vários lugares (Amazon RDS e Amazon Redshift, Amazon S3, etc.
- É um serviço baseado em nuvem. Não há necessidade de gastar dinheiro em infraestruturas no local.
- Por ser um ETL sem servidor, é uma opção econômica.
- É rápido. Ele fornece imediatamente o código ETL Python/Scala.
Principais recursos do AWS Glue?
O Amazon Glue tem todos os recursos necessários para integrar dados para que você possa obter melhores insights e usar seu conhecimento para fazer novos avanços em minutos, em vez de meses. Aqui estão alguns dos recursos que você deve conhecer.
- Interface de arrastar e soltar: Um editor de tarefas de arrastar e soltar permite criar um processo ETL. O AWS Glue criará imediatamente o código necessário para extrair, converter e fazer upload dos dados.
- Descoberta automática de esquema: para criar rastreadores que se conectam a diferentes fontes de dados, você pode usar o serviço Glue. Ele organiza os dados e extrai informações relevantes. Esses dados podem ser usados para monitorar processos ETL por tarefas ETL.
- Agendamento de Trabalho: A cola pode ser usada sob demanda ou de acordo com um agendamento agendado. O agendador pode ser usado para construir pipelines ETL complexos, estabelecendo dependências entre tarefas.
- Geração de código: o Glue Elastic Views permite que você crie facilmente visualizações materializadas que combinam e replicam dados de diferentes fontes de dados sem precisar escrever nenhum código proprietário.
- Aprendizado de máquina integrado: o Glue vem com um recurso de aprendizado de máquina integrado chamado “FindMatches”. Ele desduplica registros que não são cópias perfeitas uns dos outros.
- Pontos de extremidade do desenvolvedor: se você deseja desenvolver ativamente seu código ETL, o Glue fornece pontos de extremidade do desenvolvedor que permitem modificar, depurar e testar o código que ele cria.
- Glue DataBrew: É uma ferramenta de preparação de dados que pode ser usada por analistas de dados e cientistas de dados para ajudá-los a limpar e normalizar dados. Ele usa a interface ativa e visual do Glue DataBrew.
Como funcionam os preços do AWS Glue?
O AWS Glue cobra uma taxa por hora, que é cobrada por segundo para crawlers (descobrindo os dados) e trabalhos de ETL (processando e carregando os dados). Uma taxa mensal simples é cobrada para acessar e armazenar metadados no AWS Glue Data Catalog.
O Amazon Glue começa em US$ 0,44. Você pode escolher entre quatro planos:
- Tarefas ETL, endpoints de desenvolvimento e outras tarefas ETL estão disponíveis por US$ 0,44
- As sessões interativas de crawlers estão disponíveis por US$ 0,44
- Os trabalhos do DataBrew começam em US$ 0,48
- O armazenamento mensal e as solicitações ao Catálogo de Dados custam US$ 1,00
A AWS não oferece um plano Glue gratuito. Cada hora custará US$ 0,44 por DPU. Em média, custaria US $ 21 por dia. Os preços podem variar dependendo de onde você mora.
Etapas para configurar o AWS Glue
O Data Catalog pode ser usado para localizar e pesquisar rapidamente vários conjuntos de dados da AWS sem precisar mover os dados. Depois que os dados são catalogados, eles ficam imediatamente disponíveis para consulta e pesquisa usando o Amazon Athena e o Amazon EMR.
Ref.: https://aws.amazon.com/glue/
- Amazon Redshift, Amazon S3, Amazon RDS e bancos de dados no Amazon EC2 – Descubra seus dados, armazene metadados e use o AWS Glue Data Catalog para descobri-los
- Catálogo de dados do AWS Glue – gerencie dados com o catálogo de dados atuando como um repositório central para metadados
- AWS Glue ETL – Leia e grave metadados em seu catálogo de dados
- Amazon Athena e Amazon Redshift, Amazon EMR, Amazon ETL – Obtenha o catálogo de dados para ETL, análises e muito mais.
Como configurar o AWS Glue?
Primeiro, faça login no Console de gerenciamento da AWS e abra o console do IAM. Clique em Criar função. Em seguida, para tipo de função, localize Glue e selecione Permissões.
Estou escolhendo AWSGlueServiceRole para permissões gerais do AWS Glue Studio e AWS Glue e a política gerenciada pela AWS AmazonS3FullAccess para acesso a recursos do Amazon S3.
Insira um nome de função.
Clique em Criar Função.
Crie um bucket do Amazon S3.
Crie uma pasta dentro do bucket do S3.
Escolha o arquivo para upload.
Por fim, carregue o arquivo no bucket.
Em seguida, abra o AWS Glue no console de gerenciamento da AWS e crie um banco de dados.
Agora que você tem um banco de dados no AWS Glue, crie um crawler.
Na fonte de dados, selecione o bucket do S3 que você criou.
Em seguida, selecione a função do IAM para AWS Glue que você criou no início.
Por fim, na saída, selecione gluedb que você criou.
Revise todas as configurações e crie o rastreador.
Depois que o rastreador for criado, selecione-o e clique em Executar. Depois de algum tempo, você terá o status pronto.
Ao executar o crawler, o banco de dados obterá uma tabela com todos os dados do arquivo CSV.
Ao clicar em visualizar dados, você será levado ao Amazon Athena (editor de consultas). Ao executar a consulta, você pode ver os dados da tabela.
Agora você pode usar esse crawler do AWS Glue com sucesso em qualquer trabalho de ETL.
O que é o AWS Glue Databrew?
O AWS Glue DataBrew permite que os usuários normalizem e limpem dados sem escrever nenhum código. O DataBrew pode reduzir o tempo necessário para preparar dados para machine learning e análise em até 80% em comparação com a preparação de dados desenvolvida sob medida.
Existem mais de 250 transformações de dados pré-fabricadas que podem ser usadas para automatizar tarefas de preparação de dados, como filtrar anomalias, corrigir valores inválidos e converter dados em formatos padrão.
O DataBrew facilita a colaboração de cientistas de dados, analistas de negócios e engenheiros na extração de insights de dados brutos. O DataBrew não tem servidor, portanto, você não precisa gerenciar a infraestrutura ou criar clusters para explorar e transformar terabytes de dados brutos.
Recursos do DataBrew para empresas
Preparação de dados visualizados
DataBrew é uma maneira diferente de visualizar dados que normalmente são visualizados em bancos de dados colunares como números alfanuméricos. O DataBrew visualiza todas as fontes de dados carregadas para ajudá-lo a entender as relações e a hierarquia dos dados.
Mais de 250 Automações de Preparação de Dados
Espera-se que os cientistas de dados sigam uma variedade de fluxos de trabalho isolados e repetíveis como parte de seu trabalho. Esses fluxos de trabalho e processos foram modelados pela AWS como módulos de linguagem e módulos agnósticos de dados. Essa biblioteca inclui ações que podem ser usadas por usuários finais.
Linhagem de dados
Semelhante aos logs de auditoria usados para rastrear a atividade do cliente na rede de TI de uma rede de TI, a linhagem de dados permite rastrear as atividades de transformação de dados no AWS DataBrew. Essas informações incluem a fonte de dados, as transformações aplicadas e a saída de dados, incluindo o local de destino.
Mapeamento de dados
O Databrew permite que você encontre campos correspondentes em duas fontes de dados. Depois que os campos correspondentes forem identificados, eles podem ser carregados em um esquema.
AWS Glue DataBrew: benefícios
Abaixo estão os recursos do AWS Glue DataBrew:
- Menor barreira à entrada para preparação de dados
- Geração automatizada de perfis de dados
- Automatize mais de 250 processos de preparação de dados
- Sugestões Prescritivas Inteligentes
Alternativas ao AWS Glue
Fluxo de ar
O Airflow pertence à seção Workflow Manager de uma pilha de tecnologia. É uma ferramenta de código aberto que suporta estrelas do GitHub, bifurcações do GitHub e outros recursos. O Airflow permite que você crie fluxos de trabalho usando diagramas acíclicos direcionados (DAGs). O agendador do Airflow executa suas tarefas usando uma matriz de trabalhadores e seguindo as dependências especificadas.
Malhão
Matillion ETL, uma ferramenta ETL/ELT, foi projetada explicitamente para plataformas de bancos de dados em nuvem, como Amazon Redshift e Google BigQuery. É uma interface de usuário moderna baseada em navegador com recursos avançados de ETL/ELT push-down. Você pode estar em funcionamento em minutos com uma configuração rápida.
Ponto
Stitch é um serviço ETL de código aberto que conecta várias fontes de dados e replica dados para destinos preferenciais. É muito fácil de usar, pois você não precisa de nenhum conhecimento de codificação para mover dados entre origens e destinos no Stitch. É fácil de usar, tem uma GUI amigável e é rápido.
O Stitch não permite que você escolha um painel pré-fabricado, ao contrário de outras ferramentas ETL. Em vez disso, você deve integrar seus dados aos data warehouses abertos selecionados como destino. Pode ser difícil navegar pelos inventários.
Alteryx
O Alteryx é uma plataforma de automação de análise que auxilia na preparação e combinação da coleta de dados. Esses dados podem ser usados para acelerar processos e fornecer insights de negócios. Por ser uma ferramenta de arrastar e soltar, você não precisa de nenhum conhecimento de programação. O Alteryx é um ótimo lugar para obter conselhos e respostas de profissionais do setor.
Conclusão
Então, isso foi tudo sobre o AWS Glue, que é uma solução baseada em nuvem que permite trabalhar com pipelines ETL. Resumindo, o processo de interação do usuário do AWS Glue é composto de três fases. Para criar um catálogo de dados, você primeiro usa rastreadores de dados. Em seguida, você cria o código ETL exigido pelo pipeline de dados da AWS. Por fim, o agendamento ETL é criado. Espero que este blog tenha lhe dado uma boa visão geral do Amazon Glue.
Você também pode explorar as melhores dicas para proteger o armazenamento do AWS S3.