book_icon

Data Lakehouses: entre o avanço e a vulnerabilidade dos Dados corporativos

Unificar o melhor dos dois mundos — a flexibilidade dos Data Lakes e a Governança dos Data Warehouses é um desafio complexo. E é justamente esse desafio que os Data Lakehouses buscam solucionar. Ao integrar, em uma única camada, todos os tipos de Dados — estruturados, semiestruturados e não estruturados —, essas arquiteturas permitem que empresas realizem análises avançadas, como Machine Learning (ML) e Business Intelligence (BI), em seus dados, tudo em uma única plataforma, eliminando gargalos e custos associados à coordenação de sistemas separados.

De acordo com uma pesquisa da empresa de Data Lakehouses, Dremio, mais de 70% dos profissionais de TI e Dados acreditam que o Data Lakehouse será a principal arquitetura de análise nos próximos três anos, pois ao eliminar redundâncias e simplificar o acesso, o modelo oferece eficiência operacional e acelera a inovação em áreas estratégicas, especialmente na Inteligência Artificial (IA).

Mas, como toda revolução tecnológica, o avanço dos Data Lakehouses traz consigo um paradoxo: quanto mais centralizados e integrados os Dados, maior o impacto de uma interrupção ou incidente cibernético.

O movimento em direção aos Data Lakehouses modernos tem um ponto de virada claro: a criação do Apache Iceberg, em 2017. Desenvolvido por engenheiros da Netflix e da Apple, e posteriormente doado à fundação Apache Software Foundation, o projeto nasceu de um problema concreto, segundo informação disponibilizada pela IBM. Ainda segundo Dados publicados no portal da empresa, na época a Netflix utilizava o Apache Hive, mas a plataforma não conseguia garantir correção, estabilidade de transações ou Governança de tabelas em larga escala.

O resultado? Processos engessados, riscos constantes de inconsistência e uma infraestrutura que não acompanhava a velocidade dos negócios.

A resposta veio com o Iceberg — um formato de tabela de código aberto, escalável e transacional, que permitiu à Netflix processar petabytes de Dados e gerenciar mais de um milhão de tabelas com eficiência e segurança lógica. Desde então, gigantes como Apple e Airbnb também confiam nesse modelo, consolidando o Iceberg como um pilar do ecossistema de Dados moderno.

Apesar do avanço técnico, há um ponto sensível que ainda expõe as organizações: a proteção e a recuperação dos Dados.

Os Data Lakehouses baseados em Iceberg são excelentes para análises e IA, mas frequentemente carecem de mecanismos robustos de cyber resiliência. Recursos nativos, como snapshots — cópias instantâneas de Dados —, são úteis, mas insuficientes. Por estarem vinculados à conta original e não oferecerem isolamento real, continuam vulneráveis a ataques de ransomware, falhas humanas e problemas de conformidade.

Além disso, restaurar Dados a partir de backups que não “entendem” o formato Iceberg exige processos manuais e demorados — o que pode transformar minutos de indisponibilidade em horas (ou até dias) de interrupção.

A era da IA
Os Dados que alimentam modelos de Inteligência Artificial e análises avançadas se tornaram o novo ouro corporativo — e, como todo ativo valioso, exigem proteção rigorosa. No entanto, à medida que as organizações expandem seus ambientes de Data Lakehouse para dar suporte a projetos de IA, também ampliam seus pontos cegos em relação à Segurança e à recuperação dessas informações.

Para enfrentar esse desafio, começam a surgir abordagens mais maduras de proteção de Dados nativas para Data Lakehouses, capazes de criar cópias imutáveis e isoladas (air-gapped), automatizar políticas de conformidade e otimizar custos de armazenamento.

Mais que mecanismos de backup, essas estratégias representam um cinto abrangente de Segurança Digital para empresas que desejam inovar com confiança. Afinal, de nada adianta treinar o modelo de IA mais avançado do mercado se a base de Dados que o sustenta, permanece vulnerável a falhas ou ataques.

Outro ponto que torna os Data Lakehouses uma evolução inevitável é sua contribuição para a eficiência e sustentabilidade.

Ao unificar armazenamento e análise, elimina-se a necessidade de múltiplas cópias e infraestruturas redundantes — uma economia que impacta diretamente em custos e questões ambientais.

O Data Lakehouse é, sem dúvida, um marco na evolução da engenharia de Dados. Mas seu verdadeiro sucesso não será medido apenas pela velocidade com que entrega insights, e sim pela capacidade de proteger, recuperar e governar essas informações com a mesma eficiência.

O futuro dos Dados pertence às empresas que compreenderem uma lição simples — mas urgente: não há Transformação Digital sem Cyber resiliência.

Por Marcelo Rodrigues, diretor-geral da Commvault Brasil.

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.
Revista Digital