book_icon

AWS apresenta cinco novos recursos de banco de Dados e Analytics

Para ajudarmos os clientes a aproveitar ao máximo seu crescente volume e variedade de Dados, estamos empenhados em oferecer o conjunto mais amplo e aprofundado de serviços de banco de Dados e Analytics. Os novos recursos anunciados contribuem para isso.

AWS apresenta cinco novos recursos de banco de Dados e Analytics

No AWS re:Invent 2022, a Amazon Web Services, uma empresa da Amazon.com, anunciou cinco novos recursos em seus portfólios de banco de Dados e Analytics que aceleram e facilitam o gerenciamento e a análise de Dados em escala petabyte por parte dos clientes. Esses novos recursos disponíveis para Amazon DocumentDB (compatível com MongoDB), Amazon OpenSearch Service e Amazon Athena tornam mais fácil para os clientes executar bancos de Dados de alto desempenho e workloads de Analytics em escala. Além disso, a AWS anunciou um novo recurso para o AWS Glue que permite o gerenciamento automático da qualidade dos Dados em Data Lakes e pipelines. Além disso, o Amazon Redshift agora oferece suporte para configuração de alta disponibilidade em diversas zonas da AWS. O anúncio ajuda os clientes a aproveitar ao máximo os seus Dados na AWS, permitindo que eles acessem as ferramentas certas para seus workloads, operem em escala e elevem a disponibilidade.

As organizações criam e armazenam petabytes – ou mesmo exabytes – de Dados decorrentes de um número crescente de fontes (como mídia digital, transações online e dispositivos conectados) 

“Dados são intrinsecamente dinâmicos, e para aproveitar todo o seu potencial é preciso ter uma estratégia de ponta a ponta que possa ser escalada de acordo com as necessidades do cliente e que acomode todos os tipos de casos de uso, tanto atuais quanto futuros”, comenta Swami Sivasubramanian, vice-presidente de Bancos de Dados, Analytics e Machine Learning da AWS. “Para ajudarmos os clientes a aproveitar ao máximo seu crescente volume e variedade de Dados, estamos empenhados em oferecer o conjunto mais amplo e aprofundado de serviços de banco de Dados e Analytics. Os novos recursos anunciados contribuem para isso, tornando ainda mais fácil para os clientes consultar, gerenciar e escalar seus dados para tomadas de decisões mais rápidas e fundamentadas.”

Atualmente, as organizações criam e armazenam petabytes – ou mesmo exabytes – de Dados decorrentes de um número crescente de fontes (como mídia digital, transações online e dispositivos conectados). Para maximizarem o valor desses Dados, os clientes precisam de uma estratégia de ponta a ponta que forneça acesso às ferramentas certas para todos os workloads e aplicações, além da capacidade de execução confiável em escala à medida que o volume e a velocidade dos Dados aumentam. Com o objetivo de auxiliar os clientes que criam suas próprias estratégias de ponta a ponta, a AWS oferece o conjunto mais abrangente de serviços e soluções de Dados do setor. Ele inclui bancos de Dados totalmente gerenciados e otimizados para os casos de uso mais importantes dos clientes, como o Amazon Aurora para bancos de Dados relacionais e o Amazon DocumentDB para bancos de Dados de documentos. Esse conjunto também inclui uma ampla variedade de serviços de Analytics para ajudar os clientes a obter insights valiosos de seus dados, como o Amazon OpenSearch Service para workloads de pesquisa e Analytics (por exemplo, monitoramento de aplicativos em tempo real, log Analytics e pesquisa de sites), Amazon Athena para Analytics interativas, AWS Glue para integração de Dados e Amazon Redshift para armazenamento de Dados. O anúncio contribui para esses serviços com recursos avançados.

 Amazon DocumentDB Elastic Clusters potencializam aplicações em escala de petabytes com milhões de gravações por segundo
Dezenas de milhares de clientes usam o Amazon DocumentDB para executar seus workloads de documentos porque ele é rápido, escalável, altamente disponível e totalmente gerenciado. Embora cada nó do Amazon DocumentDB possa escalar até 64 tebibytes de dados e oferecer suporte a milhões de solicitações de leitura por segundo, um subconjunto de clientes com workloads extremamente exigentes precisa da capacidade de escalar além desses limites para oferecer suporte a milhões de gravações por segundo e armazenar petabytes de dados. Anteriormente, esses clientes tinham que distribuir de forma manual os dados e gerenciar a capacidade em vários nós do Amazon DocumentDB. Com os Amazon DocumentDB Elastic Clusters, os clientes podem escalar além dos limites de um único nó de banco de dados em minutos, permitindo milhões de leituras e gravações por segundo e armazenando até dois petabytes de dados. À medida que as demandas de workload aumentam, os Amazon DocumentDB Elastic Clusters usam um sistema de armazenamento distribuído para dividir automaticamente grandes conjuntos de dados em vários nós. Isso elimina a necessidade de os clientes gravarem código personalizado para distribuir conjuntos de dados e gerenciarem manualmente a capacidade entre os nós. A infraestrutura subjacente é gerenciada de forma automática, para que os clientes possam escalar a capacidade com facilidade, de acordo com suas necessidades, sem precisar provisionar, escalar ou gerenciar clusters de banco de dados.

 Amazon OpenSearch Serverless escala automaticamente os workloads de pesquisa e analytics
 Para potencializar casos de uso como pesquisa em sites e monitoramento de aplicações em tempo real, dezenas de milhares de clientes usam o Amazon OpenSearch Service. Muitos desses workloads são propensos a picos repentinos e intermitentes de uso, o que dificulta o planejamento da capacidade. O Amazon OpenSearch Serverless provisiona, configura e escala de forma automática a infraestrutura OpenSearch para fornecer ingestão rápida de Dados e respostas de consulta em milissegundos, mesmo para workloads imprevisíveis e intermitentes. Com o Amazon OpenSearch Serverless, a ingestão de Dados e os recursos de pesquisa são escalados de forma independente, permitindo que essas operações sejam executadas simultaneamente, sem nenhum impacto no desempenho. Os clientes que usam o Amazon OpenSearch Serverless têm acesso a benefícios sem servidor (como provisionamento automático, escalabilidade sob demanda e pagamento por uso), além dos recursos do Amazon OpenSearch Service, como visualizações de Dados integradas, que os ajudam a entender os dados de log, identificar anomalias e visualizar rankings de relevância de pesquisa.

 Amazon Athena for Apache Spark acelera a inicialização de Analytics interativas para menos de um segundo
Os clientes usam o Amazon Athena, um serviço de consulta interativa sem servidor, porque é uma das maneiras mais fáceis e rápidas de consultar petabytes de Dados no Amazon Simple Storage Service (Amazon S3) usando uma interface SQL padrão. Muitos clientes procuram a mesma facilidade de uso quando se trata do Apache Spark, uma estrutura de processamento de código aberto para workloads de Big Data que oferece suporte a linguagens populares (isto é, Java, Scala, Python e R). Embora os desenvolvedores desfrutem de rápida velocidade de consulta e facilidade de uso no Apache Spark, eles não desejam dedicar tempo para configurar, gerenciar e escalar sua própria infraestrutura de Apache Spark sempre que realizam uma consulta. Agora, com o Amazon Athena for Apache Spark, eles não precisam provisionar, configurar e escalar recursos por conta própria. As aplicações interativas do Apache Spark se iniciam em menos de um segundo e são executadas mais rapidamente do que o código aberto usando o tempo de execução Spark otimizado da AWS. Como o Amazon Athena é integrado a outros serviços da AWS, os clientes podem consultar dados de várias fontes, encadear cálculos para análises complexas e visualizar os resultados. O Amazon Athena for Apache Spark determina automaticamente os recursos necessários, de acordo com a demanda da aplicação, e os escala para que os clientes paguem apenas pelas consultas realizadas.

 AWS Glue Data Quality monitora e gerencia automaticamente a atualização, precisão e integridade dos Dados
Centenas de milhares de clientes usam o AWS Glue para criar e gerenciar pipelines de dados modernos de maneira rápida, fácil e econômica. As organizações precisam monitorar a qualidade dos Dados – mensurando atualização, precisão e integridade – das informações em seus Data Lakes e pipelines para garantir que sejam de alta qualidade antes de usá-los para alimentar suas aplicações de análise ou Machine Learning. No entanto, o gerenciamento eficaz da qualidade de Dados é um processo demorado e complexo, exigindo que os engenheiros de Dados passem dias reunindo estatísticas detalhadas sobre os dados, identificando manualmente as regras de qualidade com base nessas estatísticas e aplicando-as em milhares de conjuntos e pipelines de dados. Depois que essas regras são implementadas, os engenheiros devem monitorar de maneira contínua os erros ou alterações nos dados para ajustar as regras adequadamente. O AWS Glue Data Quality mede, monitora e gerencia de forma automática a qualidade dos Data Lakes do Amazon S3 e dos pipelines do AWS Glue, reduzindo o tempo de análise de dados e identificação de regras de dias para horas. O AWS Glue Data Quality calcula estatísticas para conjuntos de dados do cliente (como mínimas, máximas, histogramas e correlações) e as utiliza para recomendar regras automaticamente a fim de garantir a atualização, precisão e integridade dos Dados. Os clientes podem programar o AWS Glue Data Quality para execução periódica conforme os dados são alterados, com análise automática e proposta de alterações nas regras de qualidade para garantir relevância. Os engenheiros de dados podem configurar ações para alertar os usuários ou interromper os pipelines quando ocorrerem problemas de qualidade, sem precisar gravar código.

 Amazon Redshift agora oferece suporte a implementações multi-AZ
 Dezenas de milhares de clientes da AWS processam coletivamente exabytes de Dados com o Amazon Redshift todos os dias. Para dar suporte aos workloads de missão crítica desses clientes, o Amazon Redshift oferece recursos que aumentam a disponibilidade e a confiabilidade, como Backups automáticos e a capacidade de realocar clusters para outras zonas de disponibilidade em questão de minutos. Atualmente, muitos bancos de dados usam um modo de replicação primary-standby para alta disponibilidade quando um único banco de dados atende ao tráfego ativo, e as cópias standby replicam os dados da versão ativa caso precisem substituí-la. Com base nesses recursos, o Amazon Redshift agora oferece uma configuração de alta disponibilidade para permitir uma recuperação rápida e minimizar o risco de perda de dados. Com o Amazon Redshift Multi-AZ, os clusters são implementados em várias zonas de disponibilidade e utilizam todos os recursos para processar consultas de leitura e gravação, eliminando a necessidade de cópias em espera subutilizadas e maximizando o desempenho do valor pago pelos clientes. Já que o armazenamento de Dados multi-AZ ainda é gerenciado como um único data warehouse do Amazon Redshift com apenas um Endpoint, não é necessária nenhuma alteração na aplicação para manter a continuidade dos negócios.

A United Airlines opera uma grande rede de rotas domésticas e internacionais, que abrange cidades grandes e pequenas nos EUA e em todos os seis continentes habitados. “A United Airlines está desenvolvendo centenas de ferramentas baseadas em Dados e Analytics para nossos clientes e funcionários, o que torna o gerenciamento e a manutenção da qualidade dos Dados essenciais para nossas operações”, afirma Sarang Bapat, diretor de Engenharia de Dados da United Airlines. “Estamos animados com o AWS Glue Data Quality, que nos permitirá identificar, analisar e atuar de forma automática em questões relacionadas a qualidade de Dados em apenas alguns minutos. Isso nos ajudará a tomar decisões fundamentadas, oportunas e precisas e a economizar inúmeras horas de identificação e correção manual de todos os problemas relacionados a Dados.”

A Janssen Pharmaceuticals, uma subsidiária da Johnson & Johnson, pesquisa e fabrica medicamentos com foco nas necessidades em constante mudança dos pacientes e do setor da saúde. “A Janssen Pharmaceuticals usa o Amazon Redshift para viabilizar insights críticos que orientam decisões importantes para nossos cientistas de dados, administradores de dados, usuários de negócios e partes interessadas externas”, comenta Shyam Mohapatra, diretor de Tecnologia da Informação da Janssen Pharmaceutical Companies da Johnson & Johnson. “Com o Amazon Redshift Multi-AZ, temos certeza de que nosso Data warehouse estará disponível sem interrupções que possam atrasar ou afetar nossa capacidade de tomar decisões comerciais importantes.”

Serviço
aws.amazon.com/data
aws.amazon.com

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.