Como a ciência de dados pode ajudar a combater a corrupção em todos os seus níveis? Eu respondo com a seguinte informação: pesquisas recentes mostram que só nos EUA as fraudes geraram prejuízos na ordem de 5% do faturamento em pelo menos 30% das empresas locais, muitas delas empresas Bilionárias! No Brasil, possivelmente (com certeza) este numero é infinitamente maior. A fraude sempre esteve entre nós, seja através de organizações criminosas ou pela ação isolada de uma ou duas pessoas ocasionando prejuízos financeiros, contratos fraudulentos, desvios orçamentários à empresas privadas e publicas.
Fraude não é um “privilégio” de sociedades modernas. A historia mostra que a humanidade (ou pelo menos a parte não escrupulosa dela) tem se especializado em ações fraudulentas em diversos níveis. Porém nunca tivemos tantas ferramentas como hoje para detectar e prevenir este tipo de ação criminosa. Com o advento do Big Data e da Analise Dados através do que chamamos de Ciência de Dados, ficou muito mais fácil e muito mais preciso para os profissionais que investigam este tipo de delito, detectar e aportar irregularidades de forma muito rápida. Mas vamos lá: O que é fraude?
O que é fraude?
Num sentido amplo, buscando aqui uma definição da Wikipédia, uma fraude é um esquema ilícito ou de má fé criado para obter ganhos pessoais, apesar de ter, juridicamente, outros significados legais mais específicos (os detalhes exatos divergem entre as jurisprudências). Muitos embustes são fraudulentos, apesar dos que não são criados para obter ganhos pessoais não são adequadamente descritos desta maneira. Nem todas as fraudes são hoax, como a fraude eleitoral, por exemplo. A fraude é difundida em muitas áreas da vida, incluindo a fraude artística, fraude arqueológica e a fraude científica. Num sentido amplo, mas legal, uma fraude é qualquer crime ou ato ilegal para lucro daquele que se utiliza de algum logro ou ilusão praticada na vítima como seu método principal.
Ou seja, Fraude é um acontecimento criminoso, fora do comum, invisível, e que requer planejamento e tempo para se concretizar. Podemos citar alguns tipos mais comuns como: fraude com cartão de crédito, fraude no plano de saúde, fraude com seguradoras, adulteração de sistemas, corrupção, lavagem de dinheiro, crimes cibernéticos etc.
Falando das causas, a fraude pode ocorrer por diversos motivos, mas independente da razão que motiva isto, a detecção e prevenção deste tipo de ato estão mais do que nunca sendo alvo de estudo de empresas focadas em ciência de dados (como a minha). Para isto aplicamos analise de dados através da adoção de metodologias estatísticas, para a análise de quantidades massivas de dados, promovendo assim a detecção e prevenção de atos ilícitos. A detecção de fraudes refere-se à habilidade de detectar o evento fraudulento, buscando padrões e reconhecendo a ocorrência do evento. Ou seja, buscamos formas de identificar se a fraude ocorreu. Já a prevenção, esta sim bem mais complicada, busca analisar e prever os eventos fraudulentos, antes que estes ocorram. Ao detectarmos uma fraude antes da sua ocorrência, podemos impedi-la! No mínimo, evitaremos algum tipo de prejuízo financeiro.
Dados x Fraudes
Como citei acima, a demanda pela detecção e prevenção de fraudes é algo que cresce a cada dia. A Fraude não é só um problema econômico, mas é também um problema social!
A fraude em si, é um fenômeno dinâmico, que muda e se adapta ao longo do tempo e as pessoas que cometem fraudes, são normalmente experientes naquilo que fazem, o que torna o desafio de combate à fraude ainda maior. Para contrapor isto, entra em ação a Ciência de Dados, principalmente no campo de Machine Learning. O volume de dados gerado atualmente pelo Big Data e as técnicas e ferramentas da Ciência de Dados estão criando um novo mercado. O combate à fraude está se tornando uma atividade específica dentro das organizações. Operadoras de cartão de crédito, bancos, empresas de telefonia, indústrias, entidades governamentais etc, estão criando seus departamentos de combate à fraude usando ciência de dados para isso.! Prefeituras hoje tem seus gastos analisados pelos órgãos reguladores a fim de se detectar irregularidades! A Policia Federal Brasileira usa a ciência de dados para investigar e executar operações de forma a obter melhores resultados nestas investigações.
Técnicas de Detecção de Fraudes
As técnicas de análise de dados tradicionais orientadas a extrair insights dos dados gerando informação, ajudam no processo de gerar conhecimento a partir dos dados. Porém, estas técnicas de análise foram criadas por analistas humanos, também suscetíveis à fraude.
Um sistema de análise de dados para detecção e prevenção de fraudes tem de estar equipado com uma quantidade substancial de conhecimento e deve ser capaz de executar tarefas de raciocínio envolvendo tudo isto. No esforço para atingir esse objetivo, os Cientistas de Dados voltaram-se para o Machine Learning (termo que representa o que conhecemos como Aprendizado de Máquina). Em resumo, o objetivo da aprendizagem de máquina é converter dados e exemplos em conhecimento.
Com aprendizagem de máquina, as empresas podem extrair insights para obter as informações que os coloca à frente do evento fraudulento por meio de acesso a tendências e previsões, realizando o que conhecemos como a analise preditiva de cenários. Isto permite automatizar o processo de combate às fraudes, mesmo sendo este um processo dinâmico!
Detecção baseada em técnicas de aprendizagem não-supervisionada – esta técnica busca encontrar comportamento que se desvia do comportamento normal, ou seja, detectar anomalias. Nesta técnica, algoritmos aprendem a partir de observações de dados históricos e são chamados não-supervisionados, pois não requerem que os dados sejam previamente marcados como sendo do tipo fraudulento ou não fraudulento. Um exemplo é o comportamento que não segue o padrão normal no consumo de planos de celulares. Ligações entre duas cidades, seguem um determinado padrão de duração e ligações que fujam deste padrão, podem ser consideradas anomalias e separadas para investigação posterior (obviamente eu estou simplificando o conceito, que é bem mais amplo). Se pode parecer simples para você, tente imaginar quantas milhões de ligações são realizadas por dia e como este processo pode ser alvo de fraude, sem que ninguém perceba.
Análise preditiva – nesta técnica, os dados históricos ou observações são usados para identificar padrões e diferenciar comportamento normal do comportamento fraudulento. Esta técnica é usada como um alarme silencioso, para descobrir aquilo que o criminoso não conseguiu esconder. Esta técnica pode ser usada tanto para detectar quanto para prever ações fraudulentas e até mesmo para estimar o tamanho da fraude. A principal limitação desta técnica, é que são necessários dados de exemplos para treinar o algoritmo, ou seja, é preciso ensinar com fraudes já concretizadas. Isso reduz e muito a possibilidade de detectar novos mecanismos de fraude.
Análise de redes sociais – aqui o Big Data entra em ação. A coleta de movimentos nas redes sociais das pessoas e empresas que poderiam ser potenciais fraudadores, em conjunto com os dados internos da empresa efetuando a análise, ajuda a criar um algoritmo poderoso de combate às fraudes. A análise de redes sociais é uma das novas tendências no combate à fraude. Estas técnicas se complementam e podem focar em diferentes aspectos de uma fraude. Um sistema eficiente de combate à fraude, combina estas técnicas, que juntas se tornam ainda mais poderosas.
Artigo publicado originalmente na coluna “Inteligência em Negócios” do Jornal do Comercio do Amazonas no dia 01 de Junho de 2017.