A Databricks, empresa global de dados e IA, anunciou o lançamento do Databricks LakeFlow, uma nova solução que unifica e simplifica todos os aspectos da engenharia de dados, desde a ingestão de dados até a transformação e orquestração. Com o LakeFlow, as equipes de dados agora podem ingerir dados em escala de forma simples e eficiente de bancos de dados como MySQL, Postgres e Oracle e aplicativos corporativos como Salesforce, Dynamics, Sharepoint, Workday, NetSuite e Google Analytics. A Databricks também está introduzindo o Real Time Mode for Apache Spark, que permite o processamento de fluxo em latência ultrabaixa.
O LakeFlow automatiza a implementação, operação e monitoramento de pipelines em escala na produção com suporte integrado para CI/CD e fluxos de trabalho avançados que oferecem suporte a acionamento, ramificação e execução condicional.
As verificações de qualidade de dados e o monitoramento de integridade são integrados a sistemas de alerta, como o PagerDuty. O LakeFlow torna a criação e operação de pipelines de dados de nível de produção simples e eficientes, ao mesmo tempo em que aborda os casos de uso de engenharia de dados mais complexos, permitindo que até mesmo as equipes de dados mais ocupadas atendam à crescente demanda por dados confiáveis e IA.
Construção e operação de pipelines de dados confiáveis
A engenharia de dados é essencial para democratizar os dados e a IA dentro das empresas, mas continua sendo um campo desafiador e complexo. As equipes de dados devem ingerir dados de sistemas em silos e, muitas vezes, proprietários, incluindo bancos de dados e aplicativos corporativos, muitas vezes exigindo a criação de conectores complexos e frágeis. Além disso, a preparação de dados envolve a manutenção de uma lógica complexa, e falhas e picos de latência podem levar a interrupções operacionais e clientes insatisfeitos. A implementação de pipelines e o monitoramento da qualidade dos dados normalmente exigem ferramentas adicionais e díspares, complicando ainda mais o processo. As soluções existentes são fragmentadas e incompletas, levando a baixa qualidade dos dados, problemas de confiabilidade, altos custos e um acúmulo crescente de trabalho.
O LakeFlow aborda esses desafios simplificando todos os aspectos da engenharia de dados por meio de uma experiência única e unificada construída na Databricks Data Intelligence Platform, com integrações profundas com Catálogo Unity para governança de ponta a ponta e computação sem servidor, permitindo uma execução altamente eficiente e escalável.
Principais características do LakeFlow
LakeFlow Connect: fornece uma variedade de conectores nativos e escaláveis para bancos de dados como MySQL, Postgres, SQL Server e Oracle, bem como aplicativos corporativos como Salesforce, Dynamics, Sharepoint, Workday e NetSuite. Esses conectores são totalmente integrados ao Unity Catalog, proporcionando uma governança de dados robusta. O LakeFlow Connect incorpora os recursos de baixa latência e alta eficiência de Arco, que foi adquirida pela Databricks em novembro de 2023. O LakeFlow Connect disponibiliza todos os dados, independentemente do tamanho, formato ou localização, para análise em lote e em tempo real.
LakeFlow Pipelines: construído sobre a tecnologia Delta Live Tables altamente escalável da Databricks, o LakeFlow Pipelines permite que as equipes de dados implementem transformação de dados e ETL em SQL ou Python. Os clientes agora podem habilitar o Real Time Mode para streaming de baixa latência sem alterações de código. O LakeFlow elimina a necessidade de orquestração manual e unifica o processamento em lote e fluxo. Ele oferece processamento de dados incremental para um ótimo preço/desempenho. O LakeFlow Pipelines torna até mesmo as transformações de dados em lote e streaming mais complexas simples de construir e fáceis de operar.
LakeFlow Jobs: fornece orquestração automatizada, integridade e entrega de dados, abrangendo agendamento, blocos de anotações e consultas SQL até treinamento de ML e atualizações automáticas de painéis. Ele fornece recursos aprimorados de fluxo de controle e total observabilidade para ajudar a detectar, diagnosticar e mitigar problemas de dados para aumentar a confiabilidade do pipeline. O LakeFlow Jobs automatiza a implementação, a orquestração e o monitoramento de pipelines de dados em um único lugar, tornando mais fácil para as equipes de dados cumprir suas promessas de entrega de dados.
Leia nesta edição:
PRÊMIO IC - DESTAQUES DE TIC 2024
Usuários e profissionais do setor de TIC escolhem os produtos e as marcas que melhor os atenderam
TELECOMUNICAÇÕES
5G: a real revolução ainda está para acontecer
ESCPECIAL - ANUÁRIO DE TIC 2024/25
Contatos estratégicos
Esta você só vai ler na versão digital
TENDÊNCIAS
As tecnologias que estão moldando o futuro do e-commerce
Baixe o nosso aplicativo