book_icon

Databricks compra a Tabular e promete unificar as tecnologias Lakehouses

Ao reunir os criadores do Apache Iceberg e do Delta Lake, os dois principais formatos de Lakehouse de open source, a Databricks vai liderar o caminho para compatibilidade de dados

Databricks compra a Tabular e promete unificar as tecnologias Lakehouses

A Databricks, empresa de dados e IA, anunciou um acordo para adquirir a Tabular, companhia de gerenciamento de dados fundada por Ryan Blue, Daniel Weeks e Jason Reid. Ao reunir os criadores originais do Apache Iceberg e do Delta Lake da Linux Foundation, os dois principais formatos de Lakehouse de open source, a Databricks vai liderar o caminho rumo à compatibilidade de dados para que as organizações não fiquem mais limitadas aos formatos em que seus dados estão. A companhia deve trabalhar em cooperação com as plataformas Delta Lake e Iceberg para trazer maior compatibilidade de formatos para o Lakehouse, tanto a curto prazo, dentro do Delta Lake UniForm, quanto a longo prazo, evoluindo para um padrão único, aberto e comum de operacionalidade. Com a aquisição, Databricks e Tabular trabalharão juntas em prol de uma visão única sobre Lakehouses abertos.

A Databricks afirma que foi pioneira na arquitetura Lakehouse em 2020 e permitiu a integração de workloads tradicionais de Data Warehousing com workloads de IA em uma única plataforma governada de dados. Para isso funcionar, todos os dados têm de estar em um formato open source, de forma que diferentes workloads, aplicações e ferramentas possam acessar as mesmas informações. A arquitetura Lakehouse maximiza a produtividade da empresa ao democratizar o acesso aos dados. Isso se contrasta com as Warehouses de dados proprietários, em que apenas um motor SQL proprietário pode ler, escrever ou compartilhá-los, e os dados frequentemente têm de ser copiados e exportados para serem utilizados por outras aplicações, criando uma grande dependência no fornecedor. Quatro anos depois, 74% das empresas já implementaram a arquitetura de Lakehouse.

A aquisição destaca o compromisso da Databricks com o uso de formatos open source e de dados de fonte aberta na Nuvem, ajudando a garantir que as organizações tenham o controle dos seus dados

A base dos Lakehouses é feita de formatos de dados de open source que permitem transações ACID com informações armazenadas em unidades. Esses formatos melhoram drasticamente a confiabilidade e o desempenho das operações de dados no Data Lake e foram projetados especificamente para mecanismos de open source, como Apache Spark, Trino e Presto. Para abordar esses desafios, a Databricks trabalhou com a Linux Foundation para criar o projeto Delta Lake. Desde a sua criação, o Delta Lake contou com mais de 500 colaboradores de código de diversas organizações e mais de 10 mil empresas em todo o mundo usam a solução para processar mais de quatro exabytes de dados em média por dia.

Na mesma época da criação do Delta Lake, Ryan Blue e Daniel Weeks desenvolveram o projeto Iceberg na Netflix e o doaram para a fundação Apache Software Foundation. Desde então, o Delta Lake e o Iceberg tornaram-se os dois principais padrões de open source para formatos de Lakehouse. Embora ambos sejam baseados no Apache Parquet e dividam objetivos e designs semelhantes, eles se tornaram incompatíveis devido ao desenvolvimento independente.

Ao longo do tempo, vários outros programas proprietários e de open source passaram a adotar estes formatos. No entanto, normalmente implementavam apenas uma das normas e, na maioria das vezes, apenas parte dela, o que resultava em dados organizacionais fragmentados e em silos, comprometendo o valor da arquitetura Lakehouse.

O caminho para a interoperabilidade

As empresas precisam de interoperabilidade de dados para aproveitar os benefícios dos Lakehouses e a Databricks vai trabalhar próxima das comunidades do Delta Lake e do Iceberg para levar essa capacidade aos formatos. Será uma longa jornada, que provavelmente levará vários anos para ser concluída. Foi por isso que, no ano passado, a Databricks apresentou o Delta Lake UniForm. As tabelas do UniForm proporcionam uma interoperabilidade entre Delta Lake, Iceberg e Hudi, e comportam a interface de catálogo restful do Iceberg para que companhias possam usar mecanismos e ferramentas de análise com os quais já estão familiarizadas para todos os seus dados. Totalmente disponível hoje, o UniForm permite que as organizações alcancem essa compatibilidade. Com a chegada da equipe original do Iceberg, a Databricks vai ampliar consideravelmente as ambições do Delta Lake UniForm.

“A Databricks foi pioneira no Lakehouse e, nos últimos quatro anos, o mundo adotou essa a arquitetura, combinando o melhor dos Data Warehouses e dos Data Lakes para ajudar os clientes a diminuir o custo total de propriedades (TCO), adotar o open source e desenvolver projetos de IA mais rapidamente. Infelizmente, o paradigma do Lakehouse foi dividido entre os dois formatos mais populares: Delta Lake e Iceberg. A Databricks e a Tabular vão trabalhar com a comunidade de código aberto para aproximar esses dois formatos ao longo do tempo, aumentando a abertura e reduzindo os silos e o atrito para os clientes”, afirma Ali Ghodsi, cofundador e CEO da Databricks. “No ano passado, anunciamos o Delta Lake UniForm para trazer interoperabilidade a estes dois formatos, e estamos animados para reunir os principais líderes em formatos abertos de Lakehouse para fazer do UniForm a melhor maneira de unificar os dados para cada workload”, comentou.

Compromisso mútuo com dados open source

A Databricks e a Tabular compartilham um histórico de defender formatos de open source. Ambas empresas foram criadas para comercializar tecnologias de open source desenvolvidas pelos seus fundadores e, atualmente, a Databricks é a maior e mais bem-sucedida companhia independente de open source por receita, tendo doado 12 milhões de linhas de código para projetos de open source. A aquisição destaca o compromisso da Databricks com o uso de formatos open source e de dados de fonte aberta na Nuvem, ajudando a garantir que as organizações tenham o controle dos seus dados e se libertem do bloqueio criado por formatos proprietários de outros fornecedores.

“Nós criamos o Apache Iceberg para resolver desafios críticos de dados com foco em correção, desempenho e escalabilidade. Tem sido incrível ver a popularidade do Iceberg e do Delta Lake crescer massivamente, em grande parte impulsionada pelo fato do Lakehouse open source ter se tornado o padrão do setor. Ao nos unirmos à Databricks, pretendemos construir a melhor plataforma de gestão de dados baseada em formatos abertos de Lakehouse, para que as companhias não tenham de se preocupar em escolher o formato ‘correto’ ou ficarem presas a formatos de dados proprietários”, comemorou Ryan Blue, cofundador e CEO da Tabular.

 

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *


As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.