Home > Data science e estratégia

Machine learning e os modelos logísticos supervisionados de classificação

Embora muito úteis para classificação de observações, as aplicações de modelos logísticos ainda é incipiente em diversas áreas do conhecimento

Luiz Paulo Fávero

03/06/2019 às 21h16

Foto:

Em um de meus últimos artigos discuti os conceitos e os critérios para utilização correta dos modelos supervisionados de 'machine learning'. Alguns destes modelos apresentam finalidade de classificação, como os modelos logísticos binários e multinomiais que, embora bastante úteis e de fácil aplicação, ainda são pouco utilizados em muitas áreas do conhecimento humano.

Mesmo que o desenvolvimento de softwares e o incremento da capacidade de processamento dos computadores tenham propiciado a sua aplicação de forma mais direta, muitos pesquisadores, analistas e gestores ainda desconhecem as suas utilidades e, sobretudo, as condições para que seu uso seja correto. Diferentemente das tradicionais técnicas de regressão estimadas por meio de métodos como o de mínimos quadrados, em que a variável dependente apresenta-se de forma quantitativa e devem ser obedecidos alguns pressupostos, os modelos logísticos são utilizados quando o fenômeno a ser estudado apresenta-se de forma qualitativa e, portanto, representado por uma ou mais variáveis 'dummy', dependendo da quantidade de possibilidades de resposta (categorias) desta variável 'outcome'.

Imagine, por exemplo, que um cientista tenha interesse em avaliar a probabilidade de ocorrência de infarto em executivos do mercado financeiro, com base em suas características físicas (peso, cintura abdominal), em seus hábitos alimentares e em seus hábitos de saúde (exercícios físicos, tabagismo). Já um analista deseja avaliar a chance de consumidores que adquirem bens duráveis num determinado período tornarem-se inadimplentes, em função da renda, do estado civil e da escolaridade de cada um deles. Note que o infarto ou a inadimplência são as variáveis 'outcome' nos dois casos e seus eventos podem ou não ocorrer, em função das variáveis explicativas inseridas nos respectivos modelos e, portanto, são variáveis qualitativas dicotômicas que representam cada um dos fenômenos em estudo. O intuito, nestas situações, é o de estimar a probabilidade de ocorrência destes fenômenos e, para tanto, modelos supervisionados de 'machine learning' para classificação deverão ser estimados, como os modelos logísticos binários.

Imagine ainda que outro analista tenha o interesse em estudar a probabilidade de obtenção de crédito por parte de empresas de micro e pequeno porte, em função de suas características financeiras e operacionais. Sabe-se que cada empresa poderá receber crédito integral sem restrição, crédito com restrição ou não receber crédito algum. Neste caso, a variável 'outcome' que representa o fenômeno em estudo é também qualitativa, porém oferece três possibilidades de resposta (categorias), e portanto, para que sejam estimadas as probabilidades de ocorrência das alternativas propostas, deve-se fazer uso dos modelos logísticos multinomiais.

Logo, se um fenômeno em estudo se apresentar por meio de apenas e tão somente duas categorias, será representado por apenas uma única variável 'dummy', em que a primeira categoria será a de referência e indicará o não evento de interesse ('dummy= 0) e a outra categoria indicará o evento de interesse ('dummy'= 1), e estaremos lidando com os modelos logísticos binários. Por outro lado, se o fenômeno em estudo apresentar mais de duas categorias como possibilidades de ocorrência, precisaremos inicialmente definir a categoria de referência para, a partir daí, estimar modelos logísticos multinomiais.

Ao se ter uma variável qualitativa como fenômeno a ser estudado, fica inviável a estimação do modelo por meio dos métodos tradicionais de regressão, uma vez que esta variável dependente não apresenta média e variância e, portanto, não há como minimizar a somatória dos termos de erro ao quadrado sem que seja feita uma incoerente ponderação arbitrária. Como a inserção desta variável dependente em softwares de modelagem é feita com base na digitação de valores que representam cada uma das possibilidades de resposta, é comum que haja um “esquecimento” sobre a definição dos rótulos ('labels') das categorias correspondentes a cada um dos valores digitados e, portanto, é possível que um pesquisador desavisado ou iniciante estime o modelo por meio da tradicional regressão por mínimos quadrados, inclusive obtendo 'outputs', uma vez que o software interpretará aquela variável dependente como sendo quantitativa.

Acreditem, isso é um erro grave, porém, infelizmente, mais comum do que parece em ambientes acadêmicos e organizacionais! Cuidado, existem inclusive muitos cursos de 'data science' e 'analytics' (e derivações) sendo oferecidos de maneira presencial ou online que, em suas aulas, não se atentam para este fato e cometem o grave erro da ponderação arbitrária em variáveis qualitativas.

A seguir, apresento um vídeo elaborado por mim, em parceria com a Montvero e com a Estatidados (agradecimentos a Thiago Marques) que mostra, de maneira clara e didática, as condições para aplicação e como podem ser estimados os modelos logísticos binários preditivos.

 

"Nos campos da observação, a chance favorece apenas a mente preparada."

Louis Pasteur

 

Junte-se a nós e receba nossas melhores histórias de tecnologia. Newsletter Newsletter por e-mail