book_icon

Estudo da Dattell revela as ferramentas de dados mais populares do mercado

A pesquisa analisou 340 mil vagas de emprego, cruzando os dados com as 20 principais ferramentas de engenharia de dados que aparecem nas ofertas

Estudo da Dattell revela as ferramentas de dados mais populares do mercado

A engenharia de dados é o campo dedicado à construção de infraestrutura de dados para ingerir, processar e armazenar grandes quantidades de dados. Este é um campo em rápido crescimento, com o número de empregos em engenharia de dados e o número de ferramentas no mercado aumentando constantemente. De acordo com a empresa de engenharia de dados Dattell, não havia no mercado um relatório abrangente baseado em pesquisa sobre a ampla popularidade de diferentes ferramentas, quais tecnologias as empresas estão investindo mais e quais habilidades os empregadores estão procurando. Assim, a empresa avaliou a popularidade de 59 ferramentas de engenharia de dados usando 3,5 bilhões de pontos de dados para responder à pergunta: “Quais são as ferramentas de engenharia de dados mais populares?” Foram analisadas cinco categorias: Orquestração de Dados, Processamento de Dados, Armazenamento de Dados, Visualização e Idiomas e Bibliotecas.

Os engenheiros de dados estão optando por usar ferramentas de orquestração de dados porque podem reduzir o tempo de desenvolvimento, melhorar a escalabilidade e ajudar a lidar com vários ambientes de Nuvem

De acordo com o estudo, as cinco ferramentas de engenharia de dados mais populares incluem duas tecnologias de armazenamento de dados (MongoDB e PostgreSQL), duas ferramentas de orquestração de dados (Kubernetes e Ansible) e uma ferramenta de visualização de dados (Tableau).

Dando um passo para trás para analisar as 20 principais ferramentas de engenharia de dados:

7 são armazenamento de dados: MongoDB, PostgreSQL, Elasticsearch , Apache Hadoop , Splunk , Amazon Redshift e OpenSearch.

5 são orquestração de dados: Kubernetes, Ansible, Terraform, Chef e Puppet .

4 são processamento de dados: Apache Spark, Apache Kafka, Segment e Hive.

4 são para visualização: Tableau, Microsoft Power BI, Grafana e Kibana.

Segundo o estudo, o que esse detalhamento diz é que não há um segmento de engenharia de dados que domine o resto. Todos são importantes, exigindo atenção e recursos. Além disso, um quarto dessas ferramentas são totalmente gratuitas para usar: Hadoop, Kafka, Kubernetes, PostgreSQL e Spark.

Emprego vs ferramentas

A pesquisa analisou 340 mil vagas de emprego, cruzando os dados com as 20 principais ferramentas de engenharia de dados que aparecem nas ofertas, sendo que 35% eram orquestração de dados, 30% armazenamento de dados, 29% visualização de dados e 6% processamento de dados. E das ferramentas, Tableau e Kubernetes foram os vencedores disparados por aparecerem na maioria das vagas de emprego.

As 20 principais ferramentas que os empregadores estão listando nas vagas de emprego são: Tableau, Kubernetes, Ansible, Hadoop, Terraform, Splunk, Power BI, MongoDB, PostgreSQL, Elasticsearch, Puppet, Snowflake, Spark, Looker, Kafka, Redshift, Grafana, Kibana, Presto e Google BigQuery.

Juntos, Apache Spark e Apache Kafka dominam o espaço de processamento de dados com mais de 50% da popularidade de todas as ferramentas de processamento de dados consideradas. Curiosamente, ambas são ferramentas gratuitas e de código aberto. Isso mostra que empresas e engenheiros de dados não estão vendo uma necessidade generalizada de pagar por ferramentas de processamento de dados. Nessa área, as empresas estão investindo em funcionários e/ou consultores especialistas em tecnologias livres e de código aberto.

Das 11 ferramentas de armazenamento de dados avaliadas, a mais popular foi o MongoDB, uma ferramenta paga, seguida do PostgreSQL, uma ferramenta gratuita. A popularidade de ferramentas totalmente gratuitas e pagas está bastante bem dividida na área de armazenamento de dados, com as ferramentas pagas sendo preferidas 59% das vezes.

Já o Python é a linguagem mais popular, seguida rapidamente por Java e SQL. A importância das habilidades linguísticas é demonstrada pelas listas de empregos abertas, com Python, SQL e Java atualmente listados em 550 mil vagas de emprego. O estudo analisou 6 linguagens e bibliotecas usadas para o trabalho de engenharia de dados. Python foi o mais popular sendo preferido 38% das vezes, seguido de perto por Java (33%) e depois SQL (22%). Sem surpresa, mais bibliotecas de nicho e linguagens Pandas (4%), Scala (2%) e Julia (1%) são usadas com menos frequência.

Outras categorias

As ferramentas de orquestração de dados estão rapidamente se tornando obrigatórias para aplicativos com estado na infraestrutura de dados. Os engenheiros de dados estão optando por usar ferramentas de orquestração de dados porque podem reduzir o tempo de desenvolvimento, melhorar a escalabilidade e ajudar a lidar com vários ambientes de Nuvem. Embora ambas as ferramentas se enquadrem na categoria de orquestração de dados, elas são usadas de maneira diferente. O Kubernetes é usado para gerenciar e manter a integridade do contêiner. O Ansible é usado para implantar alterações, configurações e gerenciar atualizações e implantações.

A visualização de dados é importante para extrair insights de dados coletados e processados. As empresas usam os dados visualizados para identificar padrões e tendências para auxiliar na tomada de decisões. Esse uso de visualização de dados é frequentemente chamado de inteligência de negócios. Alguns produtos, como o Kibana, possuem versões gratuitas disponíveis para uso. No entanto, essas versões não incluem todas as funcionalidades do produto pago. Por esse motivo, consideramos o Kibana e produtos similares como produtos pagos, não produtos gratuitos.

O relatório analisou 13 ferramentas de visualização juntas, 6 delas não tiveram popularidade suficiente para aparecer no resultado final. Esses produtos incluem Periscope, IBM ELM, Logilica, Databank, OpenSearch Dashboards e Allstacks. Ter popularidade menos ampla não necessariamente informa sobre a qualidade de um produto. Alguns produtos, como o Tableau, podem ser aplicados a muitos casos de uso diferentes. Por outro lado, produtos de nicho, como o IBM Engineering Lifecycle Management, são projetados para um uso específico.

Serviço
www.dattell.com

Últimas Notícias
Você também pode gostar
As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.