A Arquitetura Data Mesh surge como uma proposta para estabelecer uma gestão de dados compartilhada e centralizada dentro de uma organização.
O objetivo principal é edificar uma cultura e governança de dados que possibilite a autonomia das equipes, fomentando o autoatendimento e impulsionando a colaboração e inovação através do uso estratégico de dados. Vamos aprofundar nossa compreensão sobre o que constitui o Data Mesh.
O Que é a Malha de Dados?
De forma simplificada, Data Mesh representa uma arquitetura descentralizada para a gestão de dados organizacionais. Isso implica que o controle e a propriedade dos dados são conferidos às equipes que efetivamente os utilizam, em vez de centralizar essa gestão em um único grupo ou departamento.
A arquitetura Data Mesh realça a importância dos dados como um ativo vital. Ela é projetada para aprimorar a governança, a qualidade e a integração dos dados nas organizações, ao mesmo tempo em que cultiva uma cultura de tomada de decisões baseadas em informações.
Arquitetura da Malha de Dados
A arquitetura Data Mesh geralmente se estrutura em três componentes principais: fontes de dados, infraestrutura e pipelines de dados orientados por domínio, gerenciados por responsáveis funcionais.
Crédito da imagem: Microsoft
- Fontes de dados: Representam as diversas origens de dados utilizadas na organização, como bancos de dados, APIs e sensores.
- Infraestrutura de dados: Refere-se à infraestrutura subjacente que suporta o armazenamento, processamento e gestão dos dados. Isso pode envolver data lakes, data warehouses e outros sistemas de armazenamento e processamento.
- Pipelines de dados orientados por domínio: São os caminhos pelos quais os dados fluem das fontes até a infraestrutura, tornando-se acessíveis para as equipes funcionais que deles necessitam. Estes pipelines são administrados pelos responsáveis funcionais, garantindo a qualidade e adequação dos dados às necessidades da empresa.
Estes três elementos operam de maneira interconectada e integrada, em vez de constituírem silos de dados isolados. Em uma arquitetura Data Mesh, as equipes são encarregadas dos dados que empregam, incluindo sua qualidade, acessibilidade e segurança.
Esta abordagem descentralizada assegura que os dados sejam utilizados de forma eficaz e que as equipes possuam as informações necessárias para decisões bem fundamentadas. Além disso, promove uma cultura de decisões baseadas em dados, tornando os dados mais acessíveis, transparentes e confiáveis.
Etapas Essenciais para Projetar uma Arquitetura Data Mesh
Para implementar o Data Mesh em uma organização, as seguintes etapas podem ser consideradas:
#1. Identificação de Domínios de Negócios
O primeiro passo na implementação de uma malha de dados é identificar os domínios de negócios dentro da organização. Estas são as áreas do negócio que geram valor para os clientes. Cada domínio de negócios deve ter um proprietário claramente definido, responsável pelos dados utilizados nesse domínio.
#2. Estabelecimento da Governança de Dados
É fundamental estabelecer uma estrutura de governança de dados clara para garantir o uso responsável e ético dos dados. Isso envolve definir funções e responsabilidades para a gestão de dados, estabelecer padrões para a qualidade e precisão dos dados e determinar processos para acesso e uso dos dados.
#3. Definição da Propriedade dos Dados
Cada domínio de negócios deve ser responsável pelos dados que utiliza, incluindo sua qualidade e precisão. Isso significa que o domínio do negócio deve estar envolvido na criação e manutenção dos dados, bem como em seu uso e divulgação.
#4. Promoção da Alfabetização em Dados
Para capacitar os funcionários a tomarem decisões informadas com base em dados, é crucial promover a alfabetização em dados dentro da organização. Isso pode ser alcançado através de programas de treinamento e educação, bem como fornecendo acesso a ferramentas e recursos que facilitem o trabalho dos funcionários com os dados.
#5. Democratização do Acesso aos Dados
O Data Mesh incentiva a democratização dos dados, o que implica que os dados devem estar acessíveis a todos os funcionários. Isso pode ser feito através de ferramentas e recursos que permitam o acesso e utilização dos dados em toda a organização.
#6. Implementação de Operações de Dados
Para garantir a gestão e manutenção adequadas dos dados, é essencial implementar processos e práticas para operações de dados. Isso inclui tarefas como ingestão de dados, transformação de dados, armazenamento e recuperação de dados.
Princípios da Malha de Dados
A implementação do Data Mesh se baseia em um conjunto de princípios e práticas que visam criar uma cultura de tomada de decisões baseada em dados, e que facilitem o acesso e uso dos dados por todos os colaboradores.
Estes quatro princípios incluem:
Crédito da imagem: altexsoft
#1. Arquitetura e Propriedade Descentralizada de Dados Orientadas ao Domínio
Este princípio ressalta a importância de organizar os dados de acordo com os domínios de negócios, com cada unidade de negócio sendo responsável pelos dados que utiliza e pela qualidade desses dados. Isso ajuda a assegurar que os dados estejam alinhados com as necessidades da empresa e de seus clientes, e permite que as unidades de negócio acessem e utilizem dados de outras partes da organização com mais facilidade.
#2. Dados como um Produto
Este princípio aborda os dados como um ativo valioso que deve ser gerenciado e administrado como um produto. Isso inclui definir produtos de dados, estabelecer equipes de produtos de dados e criar um roteiro de produtos de dados.
#3. Infraestrutura de Dados de Autoatendimento como uma Plataforma
Este princípio incentiva a criação de um modelo de autoatendimento para dados, onde as unidades de negócio têm maior controle sobre os dados que utilizam e podem acessar e usar dados de outras partes da organização de maneira mais simples.
#4. Governança Computacional Federada
Este princípio estabelece uma estrutura para a governança de dados que considera as necessidades e objetivos de várias partes interessadas, incluindo unidades de negócios, TI e cientistas de dados. Essa abordagem contribui para assegurar que os dados sejam usados de maneira responsável e ética, além de promover a alfabetização em dados e a tomada de decisões baseada em dados dentro da organização.
A Importância da Malha de Dados
Diversas razões podem levar uma organização a considerar a adoção da malha de dados:
Melhoria na Qualidade e Precisão dos Dados
Ao organizar os dados em torno dos domínios de negócios e estabelecer uma propriedade e governança claras, o Data Mesh pode contribuir para melhorar a qualidade e a precisão dos dados dentro de uma organização. Isso pode garantir que os dados estejam alinhados com as necessidades da empresa e de seus clientes, além de subsidiar uma tomada de decisão mais informada.
Acessibilidade e Usabilidade Aprimoradas dos Dados
A malha de dados promove a democratização dos dados, o que significa que os dados devem ser acessíveis a todos os funcionários. Isso pode ser feito através do fornecimento de ferramentas e recursos que permitam que os funcionários acessem e utilizem dados de toda a organização. Ao facilitar o acesso e uso dos dados, o Data Mesh pode ajudar a melhorar a alfabetização de dados e a tomada de decisões baseadas em dados dentro da organização.
Maior Controle sobre os Dados
Com o Data Mesh, as unidades de negócios têm maior controle sobre os dados que utilizam e a qualidade desses dados. Isso pode ajudar a garantir que os dados estejam alinhados com as necessidades do negócio e possam ser acessados e utilizados com mais facilidade pelas pessoas que deles necessitam.
Melhoria na Governança de Dados
A malha de dados promove o estabelecimento de estruturas de governança de dados claras, que contribuem para assegurar que os dados sejam utilizados de forma responsável e ética. Isso inclui a definição de funções e responsabilidades para a gestão de dados, o estabelecimento de padrões para qualidade e precisão dos dados, e a determinação de processos para acesso e utilização dos dados.
Em geral, a adoção do Data Mesh pode auxiliar as organizações a aproveitarem melhor seus ativos de dados e a promoverem uma cultura de tomada de decisões orientada por dados.
Data Mesh vs. Data Lake
Existem várias diferenças entre a malha de dados e o data lake, em termos de foco, organização de dados, ênfase na governança e alfabetização de dados e abordagem para acesso e uso de dados.
Segue uma comparação entre o Data Mesh e o Data Lake em formato tabular:
Data Mesh | Data Lake |
Focado nas necessidades da empresa e de seus clientes | Focado em aspectos técnicos de armazenamento e processamento de dados |
Organiza os dados em torno de domínios de negócios | Organiza dados em uma estrutura hierárquica de arquivos |
Os dados são de propriedade e gerenciados por unidades de negócios | Os dados podem ser acessados por vários departamentos ou equipes |
Enfatiza a governança de dados e a alfabetização em dados | Não se concentra necessariamente na governança de dados ou na alfabetização em dados |
Viabiliza uma cultura de tomada de decisões baseada em dados | Fornece um repositório centralizado para armazenar e processar dados |
Incentiva o acesso a dados de autoatendimento | Pode exigir intervenção de TI para acessar e usar dados |
Promove a democratização dos dados | Pode ter acesso limitado aos dados devido a questões de segurança ou privacidade |
Segue princípios de design orientados ao domínio | Não segue uma estrutura de design específica |
Envolve processos e práticas de operações de dados | Pode não ter processos específicos para operações de dados |
Pode demandar mais planejamento e design iniciais | Pode ser mais flexível e permitir armazenamento e processamento de dados ad hoc |
Um data lake é um repositório central que possibilita armazenar todos os seus dados, sejam eles estruturados ou não, em qualquer escala. Ele serve como um local para armazenar os dados em sua forma bruta e granular, antes de qualquer processamento ou transformação. Isso permite que as organizações armazenem e analisem dados de maneira mais flexível e econômica do que com os data warehouses tradicionais.
Por outro lado, a malha de dados é projetada para capacitar as equipes a terem propriedade e gestão sobre seus próprios dados, em vez de depender de um grupo centralizado para essa gestão.
Recursos para Aprendizado sobre Data Mesh
Há uma variedade de recursos disponíveis online para aprender sobre Data Mesh, o que pode tornar a tarefa de encontrar os mais úteis um desafio. Aprender sobre Data Mesh da maneira correta é essencial para garantir uma sólida compreensão dos conceitos e a capacidade de aplicá-los de forma eficaz no seu trabalho.
Esses recursos podem fornecer uma base para a compreensão dos princípios e práticas da malha de dados e auxiliar no desenvolvimento das habilidades necessárias para gerenciar e analisar dados em um ambiente Data Mesh de maneira eficiente.
#1. Data Mesh – Um Conceito Moderno de Gestão de Dados Descentralizada
Neste curso da Udemy, o instrutor aborda os fundamentos da arquitetura de malha de dados para uma gestão de dados eficaz. Além disso, ele fornece diversos estudos de caso sobre a implementação do Data Mesh.
É possível concluir este curso na Udemy em uma semana, dependendo da sua programação e do tempo que você pode dedicar ao curso. Contudo, é importante ter em mente que o curso foi desenvolvido para fornecer uma visão abrangente do Data Mesh e, portanto, pode demandar mais tempo para entender e absorver totalmente o material.
#2. Data Mesh: A Masterclass Completa
Este curso sobre Data Mesh é uma excelente opção para profissionais que desejam aprimorar suas carreiras. Ele abrange todos os tópicos relacionados ao projeto de uma malha de dados e à arquitetura de produto de dados.
Ao concluir este curso, você estará apto a implementar o conceito de malha de dados em empresas do mundo real. Não é necessário nenhum conhecimento prévio sobre malha de dados para começar este curso.
#3. Malha de Dados: Entregando Valor Baseado em Dados em Escala
Este livro apresenta o conceito de malha de dados e oferece uma visão geral clara de como projetar uma arquitetura de malha de dados, além de um guia para a estratégia e execução da malha de dados.
Muitos leitores consideraram o livro um guia útil e prático para compreender os princípios e padrões do Data Mesh e para implementá-lo nas organizações.
Conclusão
O Data Mesh é um padrão de design e uma estrutura cultural para a construção de uma organização orientada por dados. Ele se baseia na ideia de criar uma “fonte única de verdade” para os dados dentro de uma organização e promover o conceito de dados como um produto.
Isso é alcançado através do uso de governança de dados descentralizada, na qual equipes multifuncionais são responsáveis pela qualidade, disponibilidade e manutenção dos dados em seu domínio.
O Data Mesh também enfatiza a importância de estabelecer um entendimento claro dos contratos de dados entre diferentes equipes e incentiva o uso de ferramentas e plataformas de descoberta de dados para facilitar o compartilhamento de dados dentro da organização.
Espero que este artigo tenha sido útil para você aprender sobre o Data Mesh e seus princípios. Você também pode ter interesse em aprender sobre virtualização de dados.