book_icon

Databricks anuncia aprimoramentos em sua plataforma Data Lakehouse

Novidades incluem melhor desempenho e funcionalidade de armazenamento, governança de dados expandida, inovações de compartilhamento para incluir um mercado de análise e salas limpas de dados

Databricks anuncia aprimoramentos em sua plataforma Data Lakehouse

A Databricks, empresa de dados e IA, apresentou a evolução do seu produto Databricks Lakehouse Platform, que chega com novos recursos, incluindo melhor desempenho e funcionalidade de armazenamento, governança de dados expandida, inovações de compartilhamento para incluir um mercado de análise e salas limpas de dados para colaboração segura, otimização automática de custos para operações de ETL e aprendizado de máquina (ML), além de melhorias do ciclo de vida.

“Nossos clientes querem poder fazer business intelligence, IA e ML em uma plataforma, onde seus dados já residem. Isso requer os melhores recursos de armazenamento de dados da categoria que podem ser executados diretamente em seu Data Lake. Comparando-nos com os mais altos padrões, provamos repetidamente que o Databricks Lakehouse Platform oferece às equipes de dados o melhor dos dois mundos em uma plataforma simples, aberta e Multinuvem”, disse Ali Ghodsi, cofundador e CEO da Databricks. “Os anúncios são um passo significativo no avanço de nossa visão da Lakehouse, pois estamos tornando mais rápido e fácil do que nunca maximizar o valor dos dados, dentro e entre as empresas”, comentou.

Salas limpas, disponível nos próximos meses, fornecerão uma maneira de compartilhar e unir dados entre organizações com um ambiente hospedado seguro e sem necessidade de replicação de dados.

Entre os novos recursos estão:

– O Databricks SQL Serverless, disponível em versão prévia na AWS, fornece computação elástica instantânea, segura e totalmente gerenciada para melhorar o desempenho a um custo menor.

– Photon, o mecanismo de consulta de configuração para sistemas Lakehouse, estará disponível no Databricks Workspaces nas próximas semanas, expandindo ainda mais o alcance do Photon em toda a plataforma. Nos dois anos desde que o Photon foi anunciado, ele processou exabytes de dados, executou bilhões de consultas, entregou preço/desempenho de referência em até 12 vezes melhor do que os tradicionais data Warehouses em Nuvem.

– Conectores de código aberto para Go, Node.js e Python agora simplificam ainda mais o acesso ao Lakehouse a partir de aplicativos operacionais.

– O Databricks SQL CLI agora permite que desenvolvedores e analistas executem consultas diretamente de seus computadores locais.

– O Databricks SQL agora fornece federação de consultas, oferecendo a capacidade de consultar fontes de dados remotas, incluindo PostgreSQL, MySQL, AWS Redshift e outras, sem a necessidade de extrair e carregar primeiro os dados dos sistemas de origem.

Governança de dados

Segundo informações, o Unity Catalog, que estará disponível na AWS e no Azure nas próximas semanas, oferece uma solução de governança centralizada para todos os dados e ativos de IA, com pesquisa e descoberta integradas, linhagem automatizada para todas as cargas de trabalho, com desempenho e escalabilidade para um Lakehouse em qualquer Nuvem. Além disso, a Databricks introduziu a linhagem de dados para o Unity Catalog no início deste mês, expandindo significativamente os recursos de governança de dados no Lakehouse e dando às empresas uma visão completa de todo o ciclo de vida dos dados. Com a linhagem de dados, os clientes obtêm visibilidade sobre a origem dos dados em seu Lakehouse, quem os criou e quando, como foram modificados ao longo do tempo, como estão sendo usados ​​em cargas de trabalho de Data Warehouse e ciência de dados e muito mais.

Como o primeiro mercado para todos os dados e IA, disponível nos próximos meses, o Databricks Marketplace fornece um mercado aberto para empacotar e distribuir ativos de dados e análises. Indo além dos marketplaces que simplesmente oferecem conjuntos de dados, o Databricks Marketplace permite que os provedores de dados empacotem e monetizem com segurança uma série de ativos, como tabelas de dados, arquivos, modelos de aprendizado de máquina, notebooks e painéis de análise. Os consumidores de dados podem descobrir facilmente novos dados e ativos de IA, iniciar suas análises e obter insights e valor dos dados mais rapidamente.

Por exemplo, em vez de adquirir acesso a um conjunto de dados e investir seu próprio tempo para desenvolver e manter painéis para relatar sobre ele, eles podem optar por simplesmente assinar painéis pré-existentes que já fornecem as análises necessárias. O Databricks Marketplace é alimentado por Delta Sharing, permitindo que os provedores de dados compartilhem seus dados sem precisar mover ou replicar os dados de seu armazenamento em nuvem. Isso permite que os provedores entreguem dados para outras nuvens, ferramentas e plataformas de uma única fonte.

A Databricks também está ajudando os clientes a compartilhar e colaborar com dados além dos limites organizacionais. Salas limpas, disponível nos próximos meses, fornecerão uma maneira de compartilhar e unir dados entre organizações com um ambiente hospedado seguro e sem necessidade de replicação de dados. No contexto de mídia e publicidade, por exemplo, duas empresas podem querer entender a sobreposição de público e o alcance da campanha. As soluções de sala limpa existentes têm limitações, pois geralmente são restritas a ferramentas SQL e correm o risco de duplicação de dados em várias plataformas. Com Cleanrooms, as organizações podem colaborar facilmente com clientes e parceiros em qualquer nuvem e fornecer a eles a flexibilidade de executar cálculos complexos e cargas de trabalho usando SQL e ferramentas baseadas em ciência de dados – incluindo Python, R e Scala – com controles consistentes de privacidade de dados.

A Databricks continua investindo na inovação de MLOps com a introdução do MLflow 2.0. Colocar um pipeline de Machine Learnig em produção requer configurar a infraestrutura, não apenas escrever código. Isso pode ser difícil para novos usuários e tedioso para todos em escala. O MLflow Pipelines, possibilitado pelo MLflow 2.0, agora lida com os detalhes operacionais para os usuários. Em vez de configurar a orquestração de notebooks, os usuários podem simplesmente definir os elementos do pipeline em um arquivo de configuração e o MLflow Pipelines gerencia a execução automaticamente. Olhando além do MLflow, a Databricks também adicionou Serverless Model Endpoints para dar suporte direto à hospedagem do modelo de produção, bem como painéis de monitoramento de modelo integrados para ajudar as equipes a analisar o desempenho do modelo no mundo real.

Outra novidade é o Delta Live Tables (DLT), a primeira estrutura de ETL a usar uma abordagem simples e declarativa para criar pipelines de dados confiáveis. Desde seu lançamento no início deste ano, a Databricks continua a expandir o DLT com novos recursos, incluindo a introdução de uma nova camada de otimização de desempenho projetada para acelerar a execução e reduzir os custos do ETL. Além disso, o novo dimensionamento automático aprimorado foi desenvolvido especificamente para dimensionar recursos de maneira inteligente com as flutuações de cargas de trabalho de streaming, e o Change Data Capture (CDC) para dimensões de alteração lenta – tipo 2, rastreia facilmente todas as alterações nos dados de origem para fins de conformidade e experimentação de Machine Learning.

Serviço
www.databricks.com

Armazenamento

dados

Data Lakehouse

Databricks

Machine Learning

ML

Sala Limpa

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.