o futuro do aprendizado de máquina

Nota: O seguinte artigo irá ajudá-lo com: o futuro do aprendizado de máquina

Imagem: tudo possível/Shutterstock

Os dados são a força vital dos modelos de aprendizado de máquina. Mas o que acontece quando há o limitado a esse recurso tão cobiçado? Como muitos projetos e empresas estão começando a mostrar, é aqui que os dados sintéticos podem ser uma alternativa viável, se não superior.

O que são dados sintéticos?

Dados sintéticos podem ser definidos como informações fabricadas artificialmente e não obtidas por medição direta. A ideia de dados “falsos” não é um conceito novo ou revolucionário em sua essência. Na verdade, é uma rotulagem diferente de um método de geração de dados de teste ou treinamento para modelos que não possuem as informações disponíveis ou necessárias para funcionar.

No ado, a falta de dados levou à abordagem conveniente de usar um conjunto de pontos de dados gerados aleatoriamente. Embora isso possa ter sido suficiente para fins educacionais e de teste, dados aleatórios não são algo que você gostaria de treinar qualquer tipo de modelo de previsão. É aqui que a ideia de dados sintéticos difere; é confiável.

Dados sintéticos são, essencialmente, a ideia distinta de que podemos ser inteligentes com a forma como produzimos dados aleatórios. Essa abordagem pode, portanto, ser aplicada a casos de uso mais sofisticados, em vez de apenas testes.

Como os dados sintéticos são fabricados?

Embora os dados sintéticos não sejam criados de forma diferente dos dados aleatórios – apenas por meio de conjuntos de entrada mais complexos – eles servem a um propósito diferente e, portanto, têm requisitos exclusivos.

A abordagem sintética baseia-se e limita-se a determinados critérios que são previamente alimentados como insumo. Na prática, não é nada aleatório. Na verdade, é baseado em um conjunto de dados de amostra com certas distribuições e critérios que orientam o possível intervalo, distribuição e frequência dos pontos de dados. Basicamente, o objetivo é replicar dados reais para preencher um conjunto de dados maior, que será expansivo o suficiente para treinar modelos de aprendizado de máquina.

CONSULTE: Política de Ética em Inteligência Artificial (TechRepublic )

Esse método se torna particularmente interessante ao explorar os métodos de aprendizado profundo usados ​​para refinar dados sintéticos. Algoritmos podem ser colocados uns contra os outros com o objetivo de superar uns aos outros em sua capacidade de produzir e identificar dados sintéticos. Essencialmente, o objetivo aqui é criar uma corrida armamentista artificial para produzir dados hiper-realistas.

Por que os dados sintéticos são necessários em primeiro lugar?

Se não podemos coletar os recursos valiosos de que precisamos para avançar nossa civilização, que se aplica a qualquer coisa, desde a produção de alimentos até a geração de combustível, então encontramos uma maneira de criá-la. O mesmo princípio agora se aplica à área de dados para aprendizado de máquina e IA.

É crucial ter um tamanho de amostra de dados muito grande ao treinar algoritmos, caso contrário, os padrões identificados pelo algoritmo correm o risco de serem muito simples para aplicativos do mundo real. Na verdade é bem lógico. Assim como a inteligência humana tende a seguir o caminho mais fácil para resolver um problema, o mesmo acontece constantemente ao treinar aprendizado de máquina e IA.

Por exemplo, vamos aplicar isso a um algoritmo de reconhecimento de objetos que pode identificar com precisão um cachorro a partir de uma seleção de imagens de gatos. Com uma quantidade de dados muito pequena, a IA corre o risco de confiar em padrões que não são recursos fundamentais dos objetos que está tentando identificar. Nesse caso, ele ainda pode funcionar, mas quando encontra dados que não seguem o padrão identificado inicialmente, ele falha.

Como os dados sintéticos são usados ​​para treinar a IA?

Então, a solução? Desenhamos muitos animais ligeiramente diferentes para forçar a rede a encontrar a estrutura subjacente da imagem, não apenas o posicionamento de certos pixels. Mas, em vez de desenhar um milhão de cães à mão, é melhor construir um sistema, projetado exclusivamente para desenhar cães que possam ser usados ​​para treinar o algoritmo criado para classificação – que é essencialmente o que estamos fazendo ao fornecer dados sintéticos para treinar o aprendizado de máquina algoritmos.

Há, no entanto, armadilhas óbvias neste método. Simplesmente gerar dados do nada não será representativo do mundo real e, portanto, resultará em um algoritmo que provavelmente não funcionará quando encontrar dados reais. A solução é coletar um subconjunto de dados, analisar e identificar tendências e intervalos nele e, em seguida, usar esses dados para gerar um grande conjunto de dados aleatórios que provavelmente representam como os dados ficariam se nós mesmos coletássemos todos eles.

É aqui que reside o valor dos dados sintéticos. Não precisamos mais correr incansavelmente coletando dados que precisam ser limpos e processados ​​antes do uso.

Como os dados sintéticos são uma solução para o foco crescente na privacidade dos dados?

O mundo está ando por uma mudança muito forte, especialmente na UE, em direção ao aumento da proteção da privacidade e dos dados que geramos com nossa presença online. Nos campos de aprendizado de máquina e IA, o reforço da proteção de dados prova ser um obstáculo recorrente. Muitas vezes, os dados s são exatamente o que é necessário para que os algoritmos de treinamento funcionem e forneçam valor para os usuários finais, especialmente para soluções B2C.

Geralmente, o problema da privacidade é superado quando um particular decide usar uma solução e, portanto, aprova que seus dados sejam usados. O problema aqui é que é muito difícil fazer com que os usuários forneçam seus dados privados antes que você tenha uma solução que forneça valor suficiente para entregá-los. Como resultado, os provedores muitas vezes podem ficar presos em um dilema da galinha e do ovo.

VEJA: Como escolher o software de privacidade de dados certo para o seu negócio (TechRepublic)

A solução pode e pode ser a abordagem sintética, na qual uma empresa pode obter um subconjunto de dados por meio de adotantes iniciais. A partir daqui, eles podem usar essas informações como base para gerar dados suficientes para treinar seu aprendizado de máquina e IA. Essa abordagem pode reduzir drasticamente a necessidade demorada e cara de dados privados e ainda trabalhar para desenvolver algoritmos para seus usuários reais.

Para certos setores envolvidos no trabalho burocrático de dados, como saúde, bancos e jurídicos, os dados sintéticos fornecem uma abordagem mais fácil para ar volumes de dados anteriormente inatingíveis, removendo o que geralmente é uma limitação para algoritmos novos e mais avançados.

Os dados sintéticos podem substituir os dados reais?

O problema com dados reais é que eles não são gerados com a intenção de treinar aprendizado de máquina e algoritmos de IA; é simplesmente um subproduto dos eventos que acontecem ao nosso redor. Como dito anteriormente, isso obviamente coloca limitações na disponibilidade e facilidade de coleta, mas também nos parâmetros dos dados e nas chances de falhas (outliers) que podem atrapalhar os resultados. É por isso que os dados sintéticos, que podem ser adaptados e controlados, são mais eficientes no treinamento de modelos.

No entanto, apesar de seus aplicativos de treinamento superiores, os dados sintéticos, inevitavelmente, sempre dependerão de pelo menos um pequeno subconjunto de dados reais para sua própria criação. Portanto, não, os dados sintéticos nunca substituirão os dados iniciais nos quais precisam se basear. De forma mais realista, reduzirá significativamente a quantidade de dados reais necessários para o treinamento dos algoritmos, um processo que requer significativamente mais dados do que o teste – geralmente 80% dos dados vão para o treinamento, com os outros 20% para teste .

Em última análise, se abordados corretamente, os dados sintéticos fornecem uma maneira mais rápida e eficiente de obter os dados de que precisamos a um custo menor do que obtê-los do mundo real e com uma necessidade reduzida de cutucar o ninho de vespas da privacidade dos dados.