A sub-representação em problemas de classificação

Em um futuro não muito distante, algoritmos de Inteligência Artificial deverão estar presentes em quase todos os campos do conhecimento e das atividades econômicas. Na área da saúde, por exemplo, algoritmos de classificação de exames de imagem poderão facilitar a triagem de pacientes, indicando quais têm mais chances de desenvolver câncer em determinada área do corpo, possíveis fraturas e outros problemas.

Casos como esses contam com uma particularidade: a informação-chave está presente na menor parte das amostras coletadas. Quando se fala em detecção de um câncer, por exemplo, muito provavelmente a pequena parte do total de exames realizados estará relacionada à doença. Se nada for feito para levar essa característica em consideração, boa parte dos modelos acabará visando aos resultados em favor da classe majoritária, ou seja, da que diz que não há presença de câncer na imagem analisada, levando a consequências catastróficas.

Esse problema ocorre nos chamados datasets desbalanceados, nos quais uma ou mais classes estão sub-representadas. Os tratamentos disponíveis para esse tipo de contratempo recaem tipicamente em duas abordagens: ajustes nos Dados e introdução de métodos com custos heterogêneos, a depender da classe. Enquanto o primeiro se relaciona com técnicas de aumento das amostras das classes sub-representadas (oversampling) ou diminuição de registros das classes sobre-representadas (undersampling), o segundo impõe diferentes penalidades de acordo com o erro cometido pelo modelo (procura penalizar mais o erro relacionado à classe sub-representada).

Ajustes nos Dados tipicamente recorrem a técnicas de oversampling ou undersampling. Assim, é possível encontrar a escolha randômica de registros a serem duplicados (oversampling) ou deletados (undersampling). Outra possibilidade seria a escolha direta desses registros. Ao duplicar as informações, o modelo se torna mais propenso ao overfitting, podendo perder a capacidade de boa generalização na detecção dos casos de interesse. Por outro lado, ao jogar registros fora, o modelo deixa de contar com a informação presente, o que pode ser prejudicial para o próprio aprendizado.

Visando superar os problemas de descarte de informação (undersampling) e propensão ao overfitting (oversampling), surgiu a técnica chamada Synthetic Minority Oversampling Technique (SMOTE). Em resumo, trata-se da busca de pontos próximos aos da informação sub-representada, calculando a diferença entre o registro em questão e seu vizinho mais próximo e multiplicando por um número entre zero e um. Por fim, o resultado é adicionado ao vetor em consideração. Esse processo acaba expandindo a região onde essas minorias se encontram, permitindo melhor generalização na detecção dos casos de interesse.

Já os métodos com custos heterogêneos buscam penalizar mais o modelo quando esse erra para a classe sub-representada. Basicamente, ao longo do processo de aprendizado do algoritmo, várias funções de perda são calculadas e procuram sumarizar o erro do modelo (valor observado versus previsto) em apenas um número, de forma que ao longo de sucessivas interações o valor diminua. Ao colocar pesos diferentes para erros diferentes na função de perda, o algoritmo acaba focando nas classes desejadas (no caso exemplificado, a minoritária) e buscando ser mais assertivo.

Seja por ajuste nos dados, seja procurando métodos mais sensíveis a classes sub-representadas, tratar o problema de baixa representatividade dos “casos-chaves” é necessário para evitar equívocos nas recomendações dos modelos. Para que a sociedade consiga incorporar a Inteligência Artificial ao seu dia a dia, os algoritmos devem estar preparados para os mais diferentes cenários, diminuindo o risco de recomendações que podem levar a consequências graves. A depender do uso, a intervenção humana ainda se fará necessária, especialmente para validar resultados com menor taxa de “confiança”. De toda forma, reduzir o escopo do ser humano na tomada de decisões, permitindo que foque no que é, de fato, crítico, trata-se de um processo já em andamento em diversas sociedades.

Por Matheus Sesso Gay , Auto ML & Time-Series Lead na 4intelligence.

4Intelligence classes sobre-representadas (undersampling)classes sub-representadas (oversampling)datasets desbalanceados informação-chave Inteligência Artificial Matheus Sesso Gay

As opiniões dos artigos/colunistas aqui publicados refletem exclusivamente a posição de seu autor, não caracterizando endosso, recomendação ou favorecimento por parte da Infor Channel ou qualquer outros envolvidos na publicação. Todos os direitos reservados. É proibida qualquer forma de reutilização, distribuição, reprodução ou publicação parcial ou total deste conteúdo sem prévia autorização da Infor Channel.

A sub-representação em problemas de classificação

Amil agiliza atendimento ao cliente com IA da Neo & Hypeone

Wipro anuncia soluções de IA desenvolvidas pela Nvidia mirando a próxima onda de IA

Nutanix expande parceria com AWS para acelerar a migração para a Nuvem

Amil agiliza atendimento ao cliente com IA da Neo & Hypeone

Amil agiliza atendimento ao cliente com IA da Neo & Hypeone

Wipro anuncia soluções de IA desenvolvidas pela Nvidia mirando a próxima onda de IA

Wipro anuncia soluções de IA desenvolvidas pela Nvidia mirando a próxima onda de IA

Nutanix expande parceria com AWS para acelerar a migração para a Nuvem

Nutanix expande parceria com AWS para acelerar a migração para a Nuvem

Onda do metaverso avança para o setor de alimentação: como o universo food poderá at...

Onda do metaverso avança para o setor de alimentação: como o universo food poderá atender a “nova in...

Cloud é solução para governança fiscal em tempos de pandemia

Cloud é solução para governança fiscal em tempos de pandemia

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Onda do metaverso avança para o setor de alimentação: como o universo food poderá atender...

Onda do metaverso avança para o setor de alimentação: como o universo food poderá atender a “nova i...

Cloud é solução para governança fiscal em tempos de pandemia

Cloud é solução para governança fiscal em tempos de pandemia

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Agenda & Eventos

Compartilhar:

Amil agiliza atendimento ao cliente com IA da Neo & Hypeone

Wipro anuncia soluções de IA desenvolvidas pela Nvidia mirando a próxima onda de IA

Nutanix expande parceria com AWS para acelerar a migração para a Nuvem

Amil agiliza atendimento ao cliente com IA da Neo & Hypeone

Amil agiliza atendimento ao cliente com IA da Neo & Hypeone

Wipro anuncia soluções de IA desenvolvidas pela Nvidia mirando a próxima onda de IA

Wipro anuncia soluções de IA desenvolvidas pela Nvidia mirando a próxima onda de IA

Nutanix expande parceria com AWS para acelerar a migração para a Nuvem

Nutanix expande parceria com AWS para acelerar a migração para a Nuvem

Onda do metaverso avança para o setor de alimentação: como o universo food poderá at...

Onda do metaverso avança para o setor de alimentação: como o universo food poderá atender a “nova in...

Cloud é solução para governança fiscal em tempos de pandemia

Cloud é solução para governança fiscal em tempos de pandemia

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Onda do metaverso avança para o setor de alimentação: como o universo food poderá atender...

Onda do metaverso avança para o setor de alimentação: como o universo food poderá atender a “nova i...

Cloud é solução para governança fiscal em tempos de pandemia

Cloud é solução para governança fiscal em tempos de pandemia

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Os maiores erros nos programas de capacitação em Tecnologia de grandes empresas

Agenda & Eventos

Informe seu e-mail para receber os destaques da semana.