Como os cofres de dados são o futuro do armazenamento de dados[+5 Learning Resources]

Twittar

À medida que as empresas geram cada vez mais dados, a abordagem tradicional de armazenamento de dados torna-se cada vez mais difícil e cara de manter. O Data Vault, uma abordagem relativamente nova para data warehousing, oferece uma solução para esse problema ao fornecer uma maneira escalável, ágil e econômica de gerenciar grandes volumes de dados.

Nesta postagem, exploraremos como os Data Vaults são o futuro do armazenamento de dados e por que cada vez mais empresas estão adotando essa abordagem. Também forneceremos recursos de aprendizado para aqueles que desejam se aprofundar no assunto!

O que é Cofre de Dados?

Data Vault é uma técnica de modelagem de data warehouse particularmente adequada para data warehouses ágeis. Ele oferece um alto grau de flexibilidade para extensões, uma completa historicização unitária dos dados e permite uma forte paralelização dos processos de carregamento de dados. Dan Linstedt desenvolveu a modelagem do Data Vault na década de 1990.

Após a primeira publicação em 2000, ela ganhou maior atenção em 2002 por meio de uma série de artigos. Em 2007, Linstedt ganhou o endosso de Bill Inmon, que o descreveu como a “escolha ideal” para sua arquitetura Data Vault 2.0.

Qualquer pessoa que lide com o termo data warehouse ágil acabará rapidamente com o Data Vault. O que a tecnologia tem de especial é que ela está focada nas necessidades das empresas porque permite ajustes flexíveis e de baixo esforço para um data warehouse.

O Data Vault 2.0 considera todo o processo de desenvolvimento e a arquitetura e consiste no método de componentes (implementação), arquitetura e modelo. A vantagem é que essa abordagem considera todos os aspectos da inteligência de negócios com o data warehouse subjacente durante o desenvolvimento.

O modelo Data Vault oferece uma solução moderna para superar as limitações das abordagens tradicionais de modelagem de dados. Com sua escalabilidade, flexibilidade e agilidade, ele fornece uma base sólida para a construção de uma plataforma de dados que pode acomodar a complexidade e a diversidade dos ambientes de dados modernos.

A arquitetura hub-and-spoke do Data Vault e a separação de entidades e atributos permitem a integração e harmonização de dados em vários sistemas e domínios, facilitando o desenvolvimento incremental e ágil.

Uma função crucial do Data Vault na construção de uma plataforma de dados é estabelecer uma única fonte de verdade para todos os dados. Sua visão unificada de dados e suporte para capturar e rastrear alterações de dados históricos por meio de tabelas satélite permitem conformidade, auditoria, requisitos regulatórios e análises e relatórios abrangentes.

Os recursos de integração de dados quase em tempo real do Data Vault via carregamento delta facilitam o manuseio de grandes volumes de dados em ambientes em rápida mudança, como aplicativos de Big Data e IoT.

Data Vault vs. Modelos Tradicionais de Data Warehouse

Third-Normal-Form (3NF) é um dos mais renomados modelos tradicionais de data warehouse, geralmente preferido em muitas implementações grandes. Aliás, isso corresponde às ideias de Bill Inmon, um dos “antepassados” do conceito de data warehouse.

Como usar o Xubuntu no Raspberry Pi 4

A arquitetura Inmon é baseada no modelo de banco de dados relacional e elimina a redundância de dados ao dividir as fontes de dados em tabelas menores que são armazenadas em data marts e interconectadas usando chaves primárias e estrangeiras. Ele garante que os dados sejam consistentes e precisos ao impor regras de integridade referencial.

O objetivo do formulário normal era construir um modelo de dados abrangente para toda a empresa para o data warehouse principal; no entanto, ele apresenta problemas de escalabilidade e flexibilidade devido a data marts altamente acoplados, dificuldades de carregamento quase em tempo real, solicitações trabalhosas e design e implementação de cima para baixo.

O modelo Kimbal, usado para OLAP (processamento analítico online) e data marts, é outro famoso modelo de data warehouse no qual as tabelas de fatos contêm dados agregados e as tabelas de dimensões descrevem os dados armazenados em um esquema em estrela ou em um projeto de esquema em floco de neve. Nessa arquitetura, os dados são organizados em tabelas de fatos e dimensões que são desnormalizadas para simplificar a consulta e a análise.

O Kimbal é baseado em um modelo dimensional otimizado para consultas e relatórios, tornando-o ideal para aplicativos de inteligência de negócios. No entanto, teve problemas com o isolamento de informações orientadas por assunto, redundância de dados, estruturas de consulta incompatíveis, dificuldades de escalabilidade, granularidade inconsistente de tabelas de fatos, problemas de sincronização e a necessidade de design de cima para baixo com implementação de baixo para cima.

Em contraste, a arquitetura de cofre de dados é uma abordagem híbrida que combina aspectos das arquiteturas 3NF e Kimball. É um modelo baseado em princípios relacionais, normalização de dados e matemática de redundância que representa relacionamentos entre entidades de maneira diferente e estrutura campos de tabela e timestamps de maneira diferente.

Nesta arquitetura, todos os dados são armazenados em um cofre de dados brutos ou data lake, enquanto os dados comumente usados são armazenados em um formato normalizado em um cofre de negócios que contém dados históricos e específicos do contexto que podem ser usados para geração de relatórios.

O Data Vault aborda os problemas dos modelos tradicionais por ser mais eficiente, escalável e flexível. Ele permite carregamento quase em tempo real, melhor integridade de dados e fácil expansão sem afetar as estruturas existentes. O modelo também pode ser expandido sem migrar as tabelas existentes.

Abordagem de modelagemEstrutura de dadosAbordagem de designModelagem 3NFTabelas em 3NFBottom-upModelagem KimbalStar Schema ou Snowflake SchemaTop-downData VaultHub-and-SpokeBottom-up

Arquitetura do Data Vault

O Data Vault tem uma arquitetura hub-and-spoke e consiste essencialmente em três camadas:

Camada de preparo: coleta os dados brutos dos sistemas de origem, como CRM ou ERP

Camada de Data Warehouse: Quando modelada como um modelo de Cofre de Dados, esta camada inclui:

Cofre de dados brutos: armazena os dados brutos.
Business Data Vault: inclui dados harmonizados e transformados com base em regras de negócios (opcional).
Metrics Vault: armazena informações de tempo de execução (opcional).
Cofre operacional: armazena os dados que fluem diretamente dos sistemas operacionais para o data warehouse (opcional).

Camada Data Mart: Esta camada modela dados como esquema em estrela e/ou outras técnicas de modelagem. Ele fornece informações para análise e relatórios.

Fonte da imagem: Lamia Yessad

O Data Vault não requer uma nova arquitetura. Novas funções podem ser construídas em paralelo diretamente usando os conceitos e métodos do Data Vault, e os componentes existentes não são perdidos. Os frameworks podem tornar o trabalho significativamente mais fácil: eles criam uma camada entre o data warehouse e o desenvolvedor e, assim, reduzem a complexidade da implementação.

Como desativar o aprendizado de novas palavras com o modo de navegação anônima do SwiftKey

Componentes do cofre de dados

Durante a modelagem, o Data Vault divide todas as informações pertencentes ao objeto em três categorias – em contraste com a modelagem clássica da terceira forma normal. Essas informações são armazenadas estritamente separadas umas das outras. As áreas funcionais podem ser mapeadas no Data Vault nos chamados hubs, links e satélites:

#1. hubs

Os hubs são o coração do conceito central do negócio, como cliente, vendedor, venda ou produto. A tabela de hub é formada em torno da chave comercial (nome ou local da loja) quando uma nova instância dessa chave comercial é introduzida pela primeira vez no data warehouse.

O hub não contém informações descritivas nem FKs. Ele consiste apenas na chave de negócios, com uma sequência gerada pelo warehouse de chaves de ID ou hash, carimbo de data/hora de carregamento e fonte de registro.

#2. links

Os links estabelecem relacionamentos entre as chaves de negócios. Cada entrada em um link modela nm relacionamentos de qualquer número de hubs. Ele permite que o cofre de dados reaja com flexibilidade às mudanças na lógica de negócios dos sistemas de origem, como mudanças na cordialidade dos relacionamentos. Assim como o hub, o link não contém nenhuma informação descritiva. Ele consiste nos IDs de sequência dos hubs aos quais faz referência, um ID de sequência gerado pelo warehouse, carimbo de data/hora de carregamento e fonte de registro.

#3. Satélites

Os satélites contêm as informações descritivas (contexto) para uma chave comercial armazenada em um hub ou um relacionamento armazenado em um link. Os satélites funcionam “somente inserir”, o que significa que o histórico de dados completo é armazenado no satélite. Vários satélites podem descrever uma única chave de negócios (ou relacionamento). No entanto, um satélite só pode descrever uma chave (hub ou link).

Fonte da imagem: Carbidfischer

Como construir um modelo de cofre de dados

Construir um modelo de Cofre de Dados envolve várias etapas, cada uma delas crítica para garantir que o modelo seja escalável, flexível e capaz de atender às necessidades do negócio:

#1. Identificar Entidades e Atributos

Identifique as entidades de negócios e seus atributos correspondentes. Envolve trabalhar em estreita colaboração com as partes interessadas nos negócios para entender seus requisitos e os dados que precisam capturar. Depois que essas entidades e atributos forem identificados, separe-os em hubs, links e satélites.

#2. Definir relacionamentos de entidades e criar links

Depois de identificar as entidades e atributos, os relacionamentos entre as entidades são definidos e os links são criados para representar esses relacionamentos. Cada link recebe uma chave comercial que identifica o relacionamento entre as entidades. Os satélites são adicionados para capturar os atributos e relacionamentos das entidades.

#3. Estabeleça regras e padrões

Depois de criar links, um conjunto de regras e padrões de modelagem de cofre de dados deve ser estabelecido para garantir que o modelo seja flexível e possa lidar com mudanças ao longo do tempo. Essas regras e padrões devem ser revisados e atualizados regularmente para garantir que permaneçam relevantes e alinhados com as necessidades do negócio.

#4. Preencher o modelo

Após a criação do modelo, ele deve ser preenchido com dados usando uma abordagem de carregamento incremental. Envolve carregar os dados nos hubs, links e satélites usando cargas delta. O delta carrega para garantir que apenas as alterações feitas nos dados sejam carregadas, reduzindo o tempo e os recursos necessários para a integração de dados.

#5. Testar e validar o modelo

Por fim, o modelo deve ser testado e validado para garantir que atenda aos requisitos de negócios e seja escalável e flexível o suficiente para lidar com mudanças futuras. Manutenção e atualizações regulares devem ser realizadas para garantir que o modelo permaneça alinhado com as necessidades de negócios e continue a fornecer uma visão unificada dos dados.

Os 11 melhores jogos do Apple Watch para se divertir no seu pulso

Recursos de aprendizagem do cofre de dados

O Mastering Data Vault pode fornecer habilidades e conhecimentos valiosos que são muito procurados nas indústrias atuais baseadas em dados. Aqui está uma lista abrangente de recursos, incluindo cursos e livros, que podem ajudar a aprender as complexidades do Data Vault:

#1. Modelagem de Data Warehouse com Data Vault 2.0

Este curso da Udemy é uma introdução abrangente à abordagem de modelagem do Data Vault 2.0, gerenciamento de projetos Agile e integração de Big Data. O curso cobre o básico e os fundamentos do Data Vault 2.0, incluindo sua arquitetura e camadas, negócios e cofres de informações e técnicas avançadas de modelagem.

Ele ensina como projetar um modelo de Data Vault do zero, converter modelos tradicionais como 3NF e modelos dimensionais em Data Vault e entender os princípios da modelagem dimensional em Data Vault. O curso requer conhecimento básico de bancos de dados e fundamentos de SQL.

Com uma classificação alta de 4,4 em 5 e mais de 1.700 avaliações, este curso campeão de vendas é adequado para quem procura construir uma base sólida em Data Vault 2.0 e integração de Big Data.

#2. Modelagem de cofre de dados explicada com caso de uso

Este curso da Udemy tem como objetivo orientá-lo na criação de um modelo de cofre de dados usando um exemplo prático de negócios. Ele serve como um guia para iniciantes em modelagem de cofre de dados, abrangendo conceitos-chave, como os cenários apropriados para usar modelos de cofre de dados, as limitações da modelagem OLAP convencional e uma abordagem sistemática para construir um modelo de cofre de dados. O curso é acessível a indivíduos com conhecimento mínimo de banco de dados.

#3. The Data Vault Guru: um guia pragmático

O Data Vault Guru do Sr. Patrick Cuba é um guia abrangente para a metodologia de cofre de dados, que oferece uma oportunidade única de modelar o data warehouse corporativo usando princípios de automação semelhantes aos usados na entrega de software.

O livro fornece uma visão geral da arquitetura moderna e, em seguida, oferece um guia completo sobre como fornecer um modelo de dados flexível que se adapta às mudanças na empresa, o cofre de dados.

Além disso, o livro estende a metodologia de cofre de dados, fornecendo correção automática de cronograma, trilhas de auditoria, controle de metadados e integração com ferramentas de entrega ágil.

#4. Construindo um Data Warehouse Escalável com o Data Vault 2.0

Este livro fornece aos leitores um guia abrangente para criar um data warehouse escalável do início ao fim usando a metodologia Data Vault 2.0.

Este livro cobre todos os aspectos essenciais da construção de um data warehouse escalável, incluindo a técnica de modelagem do Data Vault, projetada para evitar falhas típicas de data warehouse.

O livro apresenta numerosos exemplos para ajudar os leitores a entender os conceitos claramente. Com suas percepções práticas e exemplos do mundo real, este livro é um recurso essencial para qualquer pessoa interessada em armazenamento de dados.

#5. O elefante na geladeira: etapas guiadas para o sucesso do cofre de dados

The Elephant in the Fridge de John Giles é um guia prático que visa ajudar os leitores a alcançar o sucesso do Data Vault começando com o negócio e terminando com o negócio.

O livro enfoca a importância da ontologia corporativa e da modelagem de conceitos de negócios e fornece orientação passo a passo sobre como aplicar esses conceitos para criar um modelo de dados sólido.

Por meio de conselhos práticos e padrões de amostra, o autor oferece uma explicação clara e descomplicada de tópicos complicados, tornando o livro um excelente guia para quem é novo no Data Vault.

Palavras Finais

O Data Vault representa o futuro do armazenamento de dados, oferecendo às empresas vantagens significativas em termos de agilidade, escalabilidade e eficiência. É particularmente adequado para empresas que precisam carregar grandes volumes de dados rapidamente e para aquelas que desejam desenvolver seus aplicativos de inteligência de negócios de maneira ágil.

Além disso, as empresas que possuem uma arquitetura de silo existente podem se beneficiar muito com a implementação de um data warehouse central upstream usando o Data Vault.

Você também pode estar interessado em aprender sobre a linhagem de dados.