O Google Cloud anunciou o Datastream, um serviço de captura de dados de mudança sem servidor (CDC) e replicação, disponível agora na versão Preview. O Datastream permite que as empresas sincronizem dados em bancos de dados heterogêneos, sistemas de armazenamento e aplicativos de maneira confiável e com latência mínima para oferecer suporte a análises em tempo real, replicação de banco de dados e arquiteturas orientadas a eventos. É possível fornecer fluxos de mudança de maneira fácil e contínua de bancos de dados Oracle e MySQL para serviços do Google Cloud, como BigQuery, Cloud SQL, Google Cloud Storage e Cloud Spanner, economizando tempo e recursos e garantindo que os dados sejam precisos e atualizados.
“As empresas globais estão exigindo a captura de dados alterados para fornecer recursos de replicação em fontes de dados distintas e fornecer uma fonte em tempo real de streaming de dados para análises em tempo real e operações de negócios”, disse Stewart Bond, diretor de Integração de Dados e Pesquisa de Software de Inteligência da IDC.
No entanto, as empresas estão achando difícil realizar esses recursos porque as ofertas de replicação de dados comumente usadas são caras, complicadas de configurar e exigem uma sobrecarga significativa de gerenciamento e monitoramento para serem executadas de maneira flexível ou em escala. Isso deixa os clientes com uma arquitetura fragmentada e difícil de manter.
O Datastream está enfrentando esses desafios com uma abordagem diferenciada. Sua arquitetura sem servidor aumenta ou diminui de forma contínua e transparente conforme os volumes de dados mudam em tempo real, liberando as equipes para se concentrarem em fornecer insights atualizados em vez de gerenciar a infraestrutura. Ele também oferece a experiência do cliente simplificada, facilidade de uso e segurança que os clientes esperam, com opções de conectividade privada incorporadas à experiência de configuração guiada.
A nova ferramenta se integra a modelos de Dataflow desenvolvidos e extensíveis para extrair os fluxos de mudança gravados no Cloud Storage e criar tabelas replicadas atualizadas no BigQuery para análise. Ele também aproveita os modelos do Dataflow para replicar e sincronizar bancos de dados no Cloud SQL ou Cloud Spanner para migrações de banco de dados e configurações de nuvem híbrida.
O Datastream também fornece um conector Oracle nativo do Google no novo recurso de replicação do Cloud Data Fusion para facilitar o pipelining ETL/ELT. E, ao entregar fluxos de mudança diretamente no Cloud Storage, os clientes podem aproveitar o Datastream para implementar arquiteturas modernas voltadas para eventos.
Características
O Datastream lê eventos CDC (inserções, atualizações e exclusões) dos bancos de dados de origem e grava esses eventos com latência mínima em um destino de dados. Ele aproveita o fato de que cada fonte de banco de dados tem seu próprio log de CDC – para MySQL é o binlog, para Oracle é LogMiner – que usa para seus próprios objetivos de replicação interna e consistência. Usando a tecnologia de leitura de log de alta escala, nativa do Google, sem agente, o Datastream pode gerar fluxos de alterações por eventos baseados no log de CDC do banco de dados, minimizando o impacto de desempenho no banco de dados de origem de forma rápida e eficiente.
Cada evento gerado inclui toda a linha de dados do banco de dados, com o tipo de dados e o valor de cada coluna. Os tipos de dados, seja, por exemplo, um tipo Oracle NUMBER ou um tipo MySQL NUMERIC, são normalizados em tipos unificados Datastream. Os tipos unificados representam um superconjunto sem perdas de todos os tipos de origem possíveis, e a normalização significa que os dados de diferentes origens podem ser facilmente processados e consultados downstream de maneira independente da origem.
Se um sistema downstream precisar saber o tipo de dados da fonte original, ele pode executar uma chamada de API rápida para o Datastream’s Schema Registry, que armazena esquemas atualizados e com versão para cada fonte de dados. Isso também permite a resolução do desvio do esquema downstream em andamento conforme os esquemas do banco de dados de origem mudam.
Os fluxos de eventos gerados, chamados de “fluxos de mudança”, são então gravados como arquivos, no formato JSON ou Avro durante a visualização ou em outros formatos como Parquet no futuro, em um intervalo do Cloud Storage organizado por tabela de origem e horários de evento . Os arquivos são girados conforme os esquemas da tabela mudam, de modo que os eventos em um único arquivo sempre têm o mesmo esquema, bem como em um tamanho de arquivo configurável ou configuração de frequência de rotação. Dessa forma, os clientes podem encontrar o melhor equilíbrio entre a velocidade de disponibilidade de dados e o tamanho do arquivo que faz mais sentido para seu caso de uso de negócios.
Integração
Por meio de sua integração com o Dataflow, o Datastream possibilita tabelas replicadas e atualizadas para análises no BigQuery e para replicação e sincronização de dados com Cloud SQL e Spanner. O Datastream se refere a essas tabelas constantemente atualizadas como “visualizações materializadas”. Eles são mantidos atualizados por meio de upserts baseados em modelos do Dataflow no Cloud SQL ou Spanner, ou por meio de consolidações no BigQuery. As consolidações, realizadas como parte do modelo do Dataflow, pegam os fluxos de mudança que são gravados em uma tabela de log no BigQuery e empurra essas mudanças para uma tabela final, que espelha a tabela da fonte.
Datastream oferece uma variedade de métodos de conectividade segura para fontes, para que seus dados estejam sempre seguros em trânsito. E com sua arquitetura sem servidor, o Datastream pode aumentar ou diminuir os leitores e a capacidade de processamento para acompanhar perfeitamente a velocidade dos dados e garantir latência mínima de ponta a ponta. À medida que os volumes de dados diminuem, o Datastream diminui automaticamente. O resultado é um modelo de preço “pague pelo o que usar”, em que o cliente nunca terá de pagar por máquinas ociosas ou se preocupar com gargalos e atrasos durante picos de dados.
Serviço
cloud.google.com
Leia nesta edição:
MATÉRIA DE CAPA | TIC APLICADA
Campo digitalizado: sustentabilidade e eficiência
TELECOMUNICAÇÕES
Infra para Conectividade: competição quente
NEGÓCIOS
Unidos para inovar
Esta você só vai ler na versão digital
APLICAÇÃO
A boa gestão de mídias sociais fortalece a marca
Baixe o nosso aplicativo