Aprendizado de máquina: do “melhor palpite” às ​​melhores decisões baseadas em dados

Aprendizado de máquina: do "melhor palpite" às ​​melhores decisões baseadas em dados 1

Os cientistas de dados que trabalham com aprendizado de máquina inauguraram a era de big data de hoje. Os modelos tradicionais de aprendizado de máquina (ML) agora são muito bem-sucedidos na previsão de resultados com base em dados. Mas os modelos de ML geralmente não são projetados para responder ao que poderia ser feito para alterar essa probabilidade. Este é o conceito de inferência causal. E até recentemente, poucas ferramentas estavam disponíveis para ajudar os cientistas de dados a treinar e aplicar modelos de inferência causal, escolher entre os modelos e determinar quais parâmetros usar.

A IBM Research mudou isso. Lançado em 2019, o IBM Causal Inference 360 ​​Toolkit de software livre é o primeiro de seu tipo a oferecer um conjunto completo de métodos, todos sob uma API unificada, que ajuda os cientistas de dados a aplicar e compreender a inferência causal em seus modelos.

Agora, a IBM introduziu um novo website personalizado para o IBM Causal Inference 360 ​​Toolkit, completo com tutoriais, informações de e e demos, mostrando recursos para vários domínios, incluindo saúde, agricultura e marketing nos setores financeiro e financeiro. . Uma nova versão da biblioteca Python de código aberto com funcionalidades adicionais também foi lançada.

O que é inferência causal?

Tomar decisões envolve fazer perguntas e tentar obter a melhor resposta possível. À pergunta: “E se eu comer ovos todos os dias no café da manhã?” Dependendo do que está sendo medido e dos fatores adicionais envolvidos, a resposta pode variar amplamente. E se as pessoas que costumam comer ovos no café da manhã também forem as que se exercitam todas as manhãs? Talvez a diferença que vemos no resultado seja motivada por exercícios e não por comer ovos.

Isso é chamado de variável de confusão, que afeta a decisão e o resultado. E é isso que a inferência causal tenta resolver. Qual é a resposta à pergunta depois de controlar (o máximo possível a partir dos dados) a variável de confusão?

A seguir, tenta-se explicar como o resultado é influenciado por diferentes parâmetros – por exemplo, quantos ovos são consumidos; o que se come com os ovos; se a pessoa está acima do peso, etc. Também podemos tentar contabilizar o que procuramos, se nos interessar se a pessoa engordaria, dormiria melhor, comeria menos durante o dia ou baixaria o colesterol, por exemplo.

Resumindo, pode ser fácil começar com uma pergunta que pode ser respondida usando dados. Mas para obter uma resposta confiável, você precisaria ajustar os parâmetros envolvidos e o tipo de modelo que está sendo usado.

A inferência causal consiste em um conjunto de métodos que tentam estimar o efeito de uma intervenção em um resultado a partir de dados observacionais. Com o IBM Causal Inference 360 ​​Toolkit, as pessoas podem usar várias ferramentas para mover seus processos de tomada de decisão de um cenário de “melhor estimativa” para respostas concretas baseadas em dados.

A biblioteca IBM Causality 360 é uma biblioteca Python de software livre que usa modelos de aprendizado de máquina internamente e, ao contrário da maioria dos pacotes, permite que os usuários conectem quase qualquer modelo de ML que desejarem. Também possui metodologias para selecionar os melhores modelos e seus parâmetros com base em paradigmas de ML, como validação cruzada, e para usar novas e bem estabelecidas métricas causais específicas.

Exemplos no mundo real

No laboratório de pesquisa da IBM em Haifa, Israel, eles usaram o Kit de ferramentas Causal Inference 360 ​​como parte de sua pesquisa sobre reutilização de drogas1. A reutilização ou reposicionamento de medicamentos é um método para encontrar novos usos terapêuticos para medicamentos aceitos. Aqui, a pergunta que a equipe fez foi: “O que aconteceria se o paciente X tomasse o medicamento Y?”

O resultado foi a descoberta de dois novos tratamentos potenciais para a demência que freqüentemente acompanha a doença de Parkinson. Você pode encontrar mais detalhes sobre como a modelagem causal funcionou nesta pesquisa aqui.

Em outro exemplo, a equipe procurou entender se as novas práticas de irrigação contribuem para a redução desejada na poluição e no vazamento de nutrientes. Para fazer isso, eles usaram um conjunto de dados que capturou vários aspectos do uso da terra agrícola, incluindo seu método de irrigação e medição de escoamento. Eles observaram que os dados mostraram pouco efeito. Eles então usaram o IBM Causal Inference 360 ​​Toolkit para corrigir o fato de que os métodos de irrigação são altamente dependentes do tipo de uso da terra e da cultura. O resultado mudou: eles demonstraram que a introdução dessas novas técnicas de irrigação reduz o escoamento. Isso poderia economizar fertilização e água, além de reduzir a poluição da bacia. Essa diminuição pode ser posteriormente quantificada para estimar a compensação entre a poupança e o investimento inicial.

Com o novo recurso e o site do IBM Causal Inference 360 ​​Toolkit, a IBM espera ajudar as pessoas no campo da inferência causal a aplicar facilmente metodologias de aprendizado de máquina e fazer com que os profissionais de ML deixem de fazer perguntas puramente preditivas para perguntas do tipo “e se” usando inferência causal.