Detecção de fraude com hadoop
Video: Detecção fraude na web com machine learning
Conteúdo
O grande volume de transações faz com que seja mais difícil de detectar fraude por causa do volume de dados, ironicamente, este mesmo desafio pode ajudar a criar modelos preditivos melhor de fraude - uma área onde Hadoop brilha.
Video: Big data demo - Amazon AWS Hadoop Hive
No mundo interconectado de hoje, o volume ea complexidade das transações faz com que seja mais difícil do que nunca para encontrar fraude. O que costumava ser chamado de “encontrar uma agulha num palheiro” tornou-se a tarefa de “encontrar uma agulha específica em pilhas de agulhas.”
As abordagens tradicionais de prevenção da fraude não são particularmente eficientes. Por exemplo, a gestão de pagamentos indevidos é frequentemente gerido por analistas auditando o que equivale a uma pequena amostra de pedidos emparelhado com solicitando documentação médica de submitters alvo. O termo da indústria para este modelo é salário e perseguição: Reivindicações são aceites e pagos e processos procurar excesso intencionais ou não por meio de revisão pós-pagamento dessas reivindicações.
Então, como é a detecção de fraudes feito agora? Devido às limitações da tecnologia tradicional, modelos de fraude são construídos através da amostragem de dados e utilizando a amostra para construir um conjunto de modelos de fraude de previsão e de detecção. Quando você contrastam este modelo com um departamento de Hadoop-ancorado fraude que usa o conjunto de dados completo - nenhuma amostragem - para construir os modelos, você pode ver a diferença.
O tema recorrente mais comum que você vê na maioria dos casos de uso do Hadoop é que ele auxilia negócios em romper o teto de vidro sobre o volume ea variedade de dados que podem ser incorporados em análise de decisão. Quanto mais dados você tem (e quanto mais a história que você armazene), o melhor suas modelos pode ser.
Video: Pentaho and Hadoop Demo
Misturando formas não tradicionais de dados com o seu conjunto de transações históricas pode fazer seus modelos de fraude ainda mais robusto. Por exemplo, se um trabalhador faz pedido de indemnização de um trabalhador de um problema nas costas de um incidente de deslizamento e queda, ter uma piscina de milhões de casos de resultados de pacientes que o tratamento detalhes e tempo de recuperação ajuda a criar um padrão de detecção de fraude.
Como um exemplo de como este modelo pode funcionar, imagine tentar descobrir se os pacientes em áreas rurais recuperar mais lentamente do que aqueles em áreas urbanas. Você pode começar examinando a proximidade de serviços de fisioterapia. Existe uma correlação padrão entre os tempos de recuperação e localização geográfica?
Se o seu departamento de fraude determina que uma determinada lesão leva três semanas de recuperação, mas que um fazendeiro com o mesmo diagnóstico vive uma hora de um fisioterapeuta e o trabalhador de escritório tem um médico em seu escritório, isso é outra variável para adicionar ao padrão de detecção de fraude .
Quando você colher dados rede social para os requerentes e encontrar um paciente que afirma estar sofrendo de whiplash é gabando-se completar a série robusta de provas de resistência conhecidos como Mudder resistente, é um exemplo de mistura de novos tipos de dados com formulários de dados tradicionais para detectar fraudes .
Se você quer chutar seus esforços de detecção de fraude a uma velocidade superior, a sua organização pode trabalhar para se afastar de modelagem segmento de mercado e mover em direção a modelagem a nível das transações ou pelo pessoa.
Muito simplesmente, fazer uma previsão com base em um segmento é útil, mas tomar uma decisão com base na informação particular sobre uma transação individual é (obviamente) melhor. Para fazer isso, você trabalha-se um conjunto maior de dados do que é convencionalmente possível na abordagem tradicional. Só (um máximo de) 30 por cento da informação disponível que pode ser útil para a modelação fraude está a ser utilizado.
Para a criação de modelos de detecção de fraude, o Hadoop é bem adequado para
Lidar com o volume: Isso significa que o processamento do conjunto de dados completo - nenhuma amostragem de dados.
Gerir novas variedades de dados: Exemplos são a inclusão de proximidade-a-care-serviços e círculos sociais para decorar o modelo de fraude.
Manter um ambiente ágil: Permitir diferentes tipos de análise e alterações em modelos existentes.
modeladores de fraude pode adicionar e testar novas variáveis no modelo sem ter que fazer uma proposta para a sua equipa administrador do banco de dados e, em seguida, esperar um par de semanas para aprovar uma alteração de esquema e colocá-lo em seu ambiente.
Este processo é fundamental para a detecção de fraudes, porque ambientes dinâmicos geralmente têm padrões de fraude cíclicas que vêm e vão em horas, dias ou semanas. Se os dados utilizados para identificar ou reforçar novos modelos de detecção de fraude não está disponível em qualquer momento, pelo tempo que você descobrir esses novos padrões, pode ser tarde demais para evitar danos.
Avaliar o benefício para o seu negócio, não só construindo modelos mais abrangentes com mais tipos de dados, mas também ser capaz de renovar e melhorar os modelos mais rápido do que nunca. A empresa que pode atualizar e melhorar os modelos diariamente se sairá melhor do que aqueles que fazê-lo trimestralmente.
Você pode acreditar que este problema tem uma resposta simples - basta perguntar a seu CIO para despesas operacionais (OPEX) e aprovações despesas de capital (CAPEX) para acomodar mais dados para tomar melhores modelos e carregar os outros 70 por cento dos dados em seus modelos de decisão.
Você pode até acreditar que este investimento vai pagar por si com uma melhor detection- fraude no entanto, o problema com esta abordagem é os altos custos iniciais que precisam ser afundado desconhecido de dados, onde você não sabe se ele contém qualquer visão verdadeiramente valioso.
Claro, triplicando o tamanho do seu armazém de dados, por exemplo, vai lhe dar mais acesso a dados históricos estruturados para ajustar seus modelos, mas eles não podem acomodar rajadas de mídia social. tecnologias tradicionais não são tão ágeis, também. Hadoop torna mais fácil para introduzir novas variáveis no modelo, e se eles acabam por não se render melhorias para o modelo, você pode simplesmente descartar os dados e seguir em frente.