Nota: O seguinte artigo irá ajudá-lo com: siga estas 3 práticas recomendadas
Os cientistas de dados precisam tomar decisões sobre quais dados incluir nos repositórios de dados. Para facilitar esse processo de tomada de decisão, conheça dicas para manter o controle do seu funil de dados.
A partir de 2022, 2,5 quintilhões de bytes de novos dados estão sendo criados em todo o mundo a cada dia. Embora alguns desses dados sejam úteis para análise, podem ser demorados e difíceis de classificar. Ao criar um funil de dados eficaz, você poderá filtrar mais facilmente os dados necessários.
VEJO: Kit de contratação: engenheiro de banco de dados (TechRepublic )
O que é um funil de dados?
Um funil de dados refere-se a restringir a quantidade de dados que você permite em seu repositório de dados mestre.
Uma boa maneira de pensar em um funil de dados é compará-lo aos funis de contratação que uma ferramenta de recursos humanos aplica quando usa um software para rastrear currículos de candidatos a emprego. O RH insere os requisitos para uma vaga aberta em um software de análise que rastreia os currículos recebidos para criar um funil de dados de entrada menor de candidatos para uma determinada posição. Isso permite que os gerentes de RH e entrevistadores se concentrem em tarefas mais importantes, em vez de canalizar manualmente os currículos.
O afunilamento também funciona com dados. Em um caso, uma empresa de ciências da vida que estudava uma molécula específica por seu potencial de combate a doenças eliminou todas as fontes de pesquisa de dados recebidas que não mencionavam a molécula pelo nome. Os objetivos eram economizar armazenamento e processamento, bem como chegar a insights mais cedo. Embora a filtragem de todos os dados estranhos funcionou para esta empresa, controlar um funil de dados é um ato de equilíbrio entre a quantidade de dados que você precisa versus a quantidade de dados que você pode armazenar e processar.
Como você decide quais dados são importantes?
O custo total de armazenamento e processamento, seja interno ou na nuvem, está forçando as empresas a avaliar a quantidade de dados de que precisam para análise de negócios.
Em alguns casos, é fácil decidir quais dados descartar. Você provavelmente não quer o ruído de handshakes de rede e máquina em seus dados, mas decidir quais dados relacionados ao assunto excluir é mais difícil. Há também o risco de que as equipes de análise percam um insight importante devido a dados excluídos.
Por exemplo, usando os dados que normalmente coletaria, um varejista do Reino Unido pode não ter descoberto que as donas de casa faziam a maior parte de suas compras online enquanto seus maridos estavam fora em jogos de futebol.
Exemplos como esse insight inesperado, mas impactante, são o motivo pelo qual os grupos de TI e de negócios finais devem ter cuidado ao tomar decisões sobre o quanto eles restringem o funil de dados recebidos.
3 práticas recomendadas para controlar um funil de dados
Descreva os casos de uso que suas análises estão ando e os dados que você acha que eles precisam
Este deve ser um exercício colaborativo entre TI/ciência de dados e usuários finais. Você deseja incluir reclamações de produtos de mídia social ao analisar seus dados de vendas e receita? E se você está estudando as taxas de doenças em sua área de serviço médico em Nova York, você se importa com o que está acontecendo na Califórnia?
Determine quão precisas suas análises precisam ser
O padrão-ouro para a precisão da análise é que a análise deve atingir pelo menos 95% de precisão quando comparado ao que especialistas humanos no assunto concluiriam, mas você sempre precisa de 95%?
Você pode precisar de 95% de precisão se estiver avaliando a probabilidade de um diagnóstico médico com base em certas condições de saúde do paciente, mas a precisão de 70% pode ser necessária apenas se você estiver prevendo como serão as condições climáticas daqui a 20 anos.
Os requisitos de precisão influenciam o funil de dados, e você pode excluir mais dados e restringir seu funil se estiver procurando apenas tendências gerais de longo prazo.
Teste a precisão de suas análises regularmente
Se sua análise demonstrar 95% de precisão quando implementada pela primeira vez, mas cair para 80% ao longo do tempo, faz sentido verificar novamente os dados que você está usando e recalibrar o funil de dados.
Talvez novas fontes de dados que não estavam originalmente disponíveis agora estejam disponíveis e devam ser usadas. Adicionar essas fontes de dados ampliará o funil de dados, mas se aumentar os níveis de precisão, expandir o funil de dados valerá o custo.