
A Datadog, plataforma de monitoramento e segurança para aplicativos em Nuvem, anunciou a disponibilidade geral do Data Jobs Monitoring, um novo produto que ajuda equipes de plataforma de dados e engenheiros de dados a detectar trabalhos problemáticos do Spark e Databricks em qualquer lugar em seus pipelines de dados, corrigir trabalhos com falha e de longa execução mais rapidamente e otimizar a computação superprovisionada de recursos para redução de custos.
O Data Jobs Monitoring (Monitoramento de Trabalhos de Dados) mostra imediatamente trabalhos específicos que precisam de melhorias de otimização e confiabilidade, permitindo que as equipes analisem detalhadamente os rastreamentos de execução de tarefas para que possam correlacionar sua telemetria de trabalho à infraestrutura de Nuvem para depuração rápida.
“O Data Jobs Monitoring permite que minha organização centralize nossas cargas de trabalho de dados em um único lugar, com o restante de nossos aplicativos e infraestrutura, o que melhorou drasticamente nossa confiança na plataforma que estamos escalando”, disse Matt Camilli, chefe de Engenharia da Rhythm Energy. “Como resultado, minha equipe é capaz de resolver nossas falhas de trabalho do Databricks 20% mais rápido devido à facilidade de configurar alertas em tempo real e encontrar a causa raiz da falha no trabalho”, afirmou.
“Quando os pipelines de dados falham, a qualidade dos dados é afetada, o que pode prejudicar a confiança das partes interessadas e retardar a tomada de decisões. Trabalhos de longa duração podem levar a picos de custo, tornando fundamental que as equipes entendam como provisionar os recursos ideais”, disse Michael Whetten, vice-presidente de Produto da Datadog. “O Data Jobs Monitoring ajuda as equipes a fazer exatamente isso, dando aos engenheiros de plataforma de dados visibilidade total de seus trabalhos maiores e mais caros para ajudá-los a melhorar a qualidade dos dados, otimizar seus pipelines e priorizar a redução de custos”, observou.
O Data Jobs Monitoring ajuda as equipes a:
Detecte falhas de trabalho e picos de latência: alertas prontos para uso notificam imediatamente as equipes quando os trabalhos falharam ou estão sendo executados além das linhas de base detectadas automaticamente, para que possam ser resolvidos antes que haja impactos negativos na experiência do usuário final. Os filtros recomendados apresentam os problemas mais importantes que estão afetando a integridade do trabalho e do cluster, para que possam ser priorizados.
Identifique e resolva trabalhos errados mais rapidamente: as exibições de rastreamento detalhadas mostram às equipes exatamente onde um trabalho falhou em seu fluxo de execução para que tenham o contexto completo para uma solução de problemas mais rápida. Várias execuções de trabalho podem ser comparadas entre si para agilizar a análise de causa raiz e identificar tendências e alterações na duração da execução, métricas de desempenho do Spark, utilização e configuração do cluster.
Identificar oportunidades de redução de custos: a utilização de recursos e as métricas de aplicativos do Spark ajudam as equipes a identificar maneiras de reduzir os custos de computação para clusters superprovisionados e otimizar execuções de trabalho ineficientes.

Leia nesta edição:

CAPA - TECNOLOGIA
Arquitetura neuromórfica, a plataforma inspirada no cérebro humano

MERCADO
O bom negócio da locação de equipamentos de TI

SEGURANÇA DIGITAL
Dilemas e oportunidades de blockchain para identidade
EXCLUSIVA DIGITAL

VERSÃO LATAM
Agora a versão digital também é LATAM
Baixe o nosso aplicativo














