O que é o Azure SQL Data Warehouse?

A Microsoft transformou seus serviços do Azure em soluções de nuvem de nível empresarial, incorporando recursos de ponta, como gerenciamento e análise de dados.

A Microsoft lançou o Azure SQL Data Warehouse quando tomou a decisão de usar a nuvem. A Microsoft está impulsionando o Azure SQL Data Warehouse com grande energia. É um serviço de gerenciamento de banco de dados flexível que combina recursos elásticos de data warehouse com ele.

O que é o Azure SQL Data Warehouse?

Azure SQL Data Warehouse (agora chamado Azure Synapse Dedicated SQL Pool, um data warehouse baseado em nuvem, permite criar e entregar um data warehouse no Microsoft Azure. O Azure Data Warehouse pode processar grandes quantidades de dados relacionais e não relacionais. Ele oferece Recursos de armazenamento de dados SQL e uma plataforma de computação em nuvem.

Ele suporta servidores SQL nativamente e pode migrar servidores SQL existentes para o SQL Data Warehouse. Você também pode usar as mesmas consultas e construções. Além disso, os assinantes têm acesso instantâneo para dimensionar, pausar e reduzir seus recursos de data warehouse.

Ele é usado para fornecer uma solução completa de data warehouse baseada em SQL de classe empresarial. Também pode ser usado das seguintes maneiras:

  • Migração de data warehouses existentes (on-premises) para a nuvem
  • Forneça uma solução de data warehouse para aplicativos e serviços que precisam de armazenamento e recuperação de dados em tempo de execução – como aplicativos da web.
  • Uma solução de data warehouse híbrida que se conecta ao Data Warehouse hospedado no Azure e ao SQL Server no local.

O melhor recurso do Azure SQL Data Warehouse é sua natureza elástica. Ele permite a escalabilidade e a capacidade de gerenciar recursos de armazenamento e computação separadamente. Ele cria uma plataforma ganha/ganha onde os usuários pagam apenas pelo que usam e quando usam.

O lado de computação do Azure SQL Data Warehouse é baseado na Unidade de Data Warehouse (DWU), que rastreia recursos computacionais, como E/S de armazenamento e memória em todos os nós de computação participantes.

O Azure SQL Data Warehouse oferece um recurso de segurança de conexão. Isso permite limitar o acesso a endereços IP ou intervalos de IP específicos usando regras de firewall. A integração com a autenticação do Azure Active Directory (AAD) permitirá que você se conecte ao Azure SQL Data Warehouse usando identidades do Azure AD.

  12 melhores softwares e ferramentas de monitoramento de rede revisados ​​em 2020

A criptografia de várias camadas fornece proteção em repouso, em movimento e em uso para proteger seus dados contra uso indevido. Ferramentas adicionais estão disponíveis para auditar e monitorar dados e identificar violações de segurança.

Quando combinado com outras ferramentas da Microsoft, o Azure SQL Data Warehouse oferece desempenho inigualável, o que é uma grande vantagem em relação a outros serviços comparáveis ​​no mercado.

Pool SQL dedicado do Azure Synapse

Azure Synapse SQL Pool Dedicated SQL Pool (anteriormente Azure SQL Data Warehouse) é um banco de dados de processamento massivamente paralelo semelhante a tecnologias de banco de dados de expansão baseadas em coluna, como Snowflake e Amazon Redshift. Parece um SQL Server tradicional para o usuário final, mas não armazena e processa dados em um nó.

Isso pode melhorar drasticamente o desempenho de data warehouses maiores do que alguns Terabytes de tamanho, mas pode haver soluções melhores para implementações menores.

A arquitetura subjacente é muito diferente dos SQL Servers tradicionais. Isso significa que a sintaxe e os métodos de desenvolvimento também são diferentes.

As distribuições são mapeadas para nós Compute em um pool SQL dedicado. O pool remapeia suas distribuições para os nós de computação à medida que você compra mais recursos de computação.

Você pode importar grandes dados usando consultas SQL PolyBase simples e, em seguida, usar o mecanismo de consulta distribuído para análises de alto desempenho.

O pool SQL dedicado, anteriormente SQL DW, fornecerá à sua empresa uma única fonte de verdade que permite integrar e analisar dados com mais rapidez e fornecer insights mais robustos.

Qual é a diferença entre os pools SQL dedicados do Azure Synapse e os pools SQL dedicados em um espaço de trabalho do Azure Synapse Analytics?

O PowerShell é uma das áreas mais confusas na documentação entre “o pool SQL dedicado (anteriormente SQLDW) e os pools SQL dedicados do “Synapse Analytics”.

A implementação original do SQL DW usa um servidor lógico semelhante ao Azure SQL DB. Um módulo do PowerShell chamado Az.Sql é compartilhado.

Este módulo cria um novo pool SQL (anteriormente SQLDW) usando o cmdlet New.AzSqlDatabase. Possui um parâmetro “Edition” que permite especificar que você deseja um DataWarehouse.

O Synapse Analytics veio com um novo módulo do PowerShell da Az.Synapse quando foi lançado pela primeira vez. Para criar um pool SQL dedicado em um espaço de trabalho do Synapse Analytics, você usaria New-AzSynapseSqlPool.

Este módulo do PowerShell não exige que você inclua o parâmetro “Edition”, pois ele é usado apenas para artefatos Synapse.

Um pool SQL dedicado fornece computação e armazenamento baseados em T-SQL. Os dados podem ser carregados, modelados e processados ​​no Synapse para fornecer informações mais rápidas.

O Azure Synapse oferece pools SQL Serverless e Apache Spark, além de pools SQL dedicados. Você pode escolher o caminho certo com base em suas necessidades.
Um pool de SQL sem servidor permite consultar os dados armazenados em seu data lake.

  Encontre laptops econômicos especificamente para jogos, programação ou uso geral

O que o pool SQL dedicado do Azure Synapse faz?

O Pool SQL Dedicado do Azure Synapse usa uma arquitetura de expansão para distribuir a computação de dados em vários nós. Você pode dimensionar a computação independentemente do armazenamento porque a computação é diferente do armazenamento.

Os pools de SQL sem servidor são sem servidor e são dimensionados automaticamente para atender aos requisitos de recursos de consulta. Ele se adapta às mudanças de topologias adicionando, removendo ou fazendo failover de nós. Isso garante que sua consulta tenha recursos suficientes e possa ser concluída com êxito.

O Synapse SQL é baseado em uma arquitetura baseada em nós. O Synapse SQL usa uma arquitetura baseada em nó. Os aplicativos podem se conectar ao nó de controle e emitir comandos T-SQL. Este é o ponto único para o Synapse SQL.

Os nós de controle SQL do Azure Synapse usam um mecanismo de consulta distribuído que otimiza as consultas para processamento paralelo e, em seguida, passa as operações para os nós de computação para que eles possam fazer seu trabalho em paralelo.

O nó de controle do pool SQL sem servidor usa o mecanismo de processamento de consulta distribuído (DQP), para otimizar e orquestrar a execução distribuída.

Isso é feito dividindo a consulta do usuário em consultas menores que podem ser executadas em nós Compute. Cada tarefa é uma unidade de execução distribuída. Ele recupera dados de outras tarefas, agrupa arquivos e os lê do armazenamento.

Os nós de computação armazenam todos os dados do usuário e executam consultas paralelas. Data Movement Service (DMS), um serviço interno de nível de sistema, move dados entre nós para permitir consultas paralelas e retornar resultados precisos.

O Synapse SQL usa o Armazenamento do Azure para segurança de dados do usuário. O Armazenamento do Azure armazena e gerencia seus dados. Há uma taxa separada para uso de armazenamento.

Recursos dos pools SQL dedicados do Azure Synapse

Aqui estão os principais recursos do pool SQL do Azure Synapse:

  • Você pode consultar os dados em vários formatos, como Parquet, JSON e CSV no data lake.
  • Os usuários podem visualizar os dados mais recentes usando uma abstração relacional.
  • O T-SQL permite transformar os dados no lago de maneira simples e escalável
  • Os cientistas de dados podem examinar rapidamente a estrutura e o conteúdo dos dados do lago usando OPENROWSET ou recursos de inferência de esquema automático.
  • Os engenheiros de dados podem usar o pool para explorar o lago e transformar, criar ou simplificar seus pipelines de transformação de dados.
  • Os analistas de dados podem acessar os dados e gerar tabelas externas por meio da linguagem T-SQL e outras ferramentas familiares. Essas ferramentas também podem ser conectadas a um pool SQL sem servidor.
  • Gere instantaneamente relatórios de BI por profissionais de inteligência de negócios em tabelas Spark ou data lake.
  Como usar cartões Amiibo em 'Animal Crossing: New Horizons'

Pool de SQL dedicado vs. Pool de SQL sem servidor

Pool de SQL sem servidor

Os workspaces do Azure Synapse têm um pool SQL sem servidor que atua como um serviço de consulta em data lakes. Não requer configuração adicional para acessar os dados. É totalmente sem servidor e não requer infraestrutura para configurar ou manter.

O dimensionamento pode ser feito automaticamente para atender aos requisitos de recursos. O usuário paga apenas pelos dados processados ​​e não por quaisquer recursos reservados. O pool de SQL sem servidor também cria estatísticas para otimizar as execuções de consulta.

Por exemplo, quando executamos uma consulta duas vezes ou executamos duas consultas com planos de execução semelhantes, essas estatísticas podem ser reutilizadas.
Esses recursos nos permitem analisar rapidamente grandes quantidades de dados sem copiá-los ou carregá-los em uma loja específica.

Pool SQL dedicado

O pool SQL dedicado do Synapse é o sucessor do Azure SQL Data Warehouse e oferece todos os recursos de armazenamento de dados corporativos. No entanto, não há pool de SQL sem servidor. Em vez disso, os usuários devem criar e excluir o pool SQL dedicado do Synapse. Também podemos escolher os recursos que ele usará.

Esses recursos são medidos usando os pools SQL dedicados do Synapse. Eles são chamados de unidades de armazenamento de dados (DWUs). Um DWU refere-se a uma combinação de recursos de CPU, memória e E/S.

O número de DWUs determina o desempenho e o custo do pool. Em vez de ser cobrado por consulta, seremos cobrados por qualquer momento em que o pool estiver ativo, independentemente do trabalho realizado.

Para evitar custos extras, os pools dedicados podem ser interrompidos e reiniciados. Criamos um pool SQL dedicado de 100 DWUs para nosso teste.

Depois que o pool é criado, os dados podem ser carregados nele usando o comando COPY, PolyBase com consultas T–SQL ou um pipeline. Esses dados serão armazenados em armazenamento colunar em tabelas relacionais.

Dedicado SQL PoolServerless SQL PoolIsso permite consultar o data lake e ingeri-lo.Os usuários podem consultar arquivos do data lake.Infraestrutura é necessária.Não é necessário estabelecer infraestrutura ou manter clusters.Antes de realizar qualquer operação, é necessário obter servidores dedicados.Nenhuma infraestrutura é necessária para transformação ou exploração de dados.Tabelas relacionais são usadas para armazenar dados.Data Lake armazena dados.Você pode gerenciar custos pausando o pool SQL e reduzindo o warehouse.O custo é automaticamente tratado e faturado de acordo com uma base de pagamento por solicitação.Os recursos reservados estão sujeitos a custo.Custos de processamento de dados por consulta são cobrados.Pago por DWU provisionado.Pago por TB Processado.

Conclusão

Então, isso era tudo sobre o Azure SQL Data Warehouse (agora chamado Azure Synapse Dedicated SQL Pool). Embora um Pool SQL Dedicado possa parecer semelhante a um SQL Server tradicional de muitos ângulos, a arquitetura subjacente (Processamento Massivamente Paralelo) é totalmente diferente. Isso significa que determinados conceitos e técnicas são aplicáveis ​​apenas a um Pool SQL Dedicado.

Você também pode explorar as diferenças entre Data Lake e Data Warehouse.