Tratamento de Dados Anômalos e Cálculo de Parâmetros de Tráfego PNCT Instituto de Matemática - UFRJ Fabio Ramos Heudson Mirandola 20 de Junho de 2017 Brasilia - DF Documentoconfidencialpara usoe informaçãodo DepartamentoNacionalde Infraestruturade Transportes AGENDA Aprendizagem não-supervisionada – imputação e análise de anomalias Um raio-X da base de dados do PNCT Aprendizagem supervisionada: Imputação, previsão on-line, seleção de sensores, data analytics. 3 Volume de um dia típico do Equipamento 193 – Sentido C 4 Volume anômalo de um dia do Equipamento 243 – Sentido C 5 Um exemplo de um dia com dados ausentes. (gerado articialmente) 6 O que esperamos da reconstrução? Que seja precisa e respeite a variabilidade natural dos dados. (Um método baseado em testes) 7 Por que tratar os dados ? SURVEY - SUPPLY CHAIN, TRANSPORTATION & LOGISTICS – MITx (1003 participantes) Baseado na sua experiência em gerenciar grandes projetos, de onde surgiram os maiores problemas? 1- Escopo do projeto mudava o tempo todo. 40% 2- Os dados eram incompletos/incorretos/falhos, etc.. 23% 3- As expectativas em relação ao projeto continuavam mudando. 20% 4- A definição da cadeia logística não era clara desde o começo. 10% 5- Outros 5% 6- Os modelos matemáticos não eram adequados. 1% 8 Por que tratar os dados ? Permite o uso de métodos de inferência para dados completos (e.g. VMD, VMDA, Médias, Medianas, etc..). Permite o uso de dados disponíveis ao coletor de dados mas não disponíveis ao usuário final. (BIG DATA) O problema dos dados anômalos (e.g. ausentes) é resolvido de uma vez por todas. A imputação na origem unifica estudos posteriores, evitando confusão na análise de dados e reduzindo custos desnecessários OBJETIVO Substituição dos dados anômalos por vários valores prováveis, de maneira que a variabilidade natural dos dados seja fielmente representada na reconstrução. 9 Visualizando os dados de tráfego Cada dia é representado por um vetor de 96 entradas, onde cada uma representa um intervalo de 15 minutos. Fixando o intervalo de 15 minutos Fixando Dias BR-116 Km 292 A primeira versão do algoritmo de imputação reconhece dias parecidos, com as informações do dia anômalo, para reconstrui-lo! Dado discrepante Fixando o dia Fixando o intervalo de 15 min Dias variados
Description: