ebook img

Machine Learning PDF

67 Pages·2017·4.7 MB·Portuguese
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Machine Learning

Tratamento de Dados Anômalos e Cálculo de Parâmetros de Tráfego PNCT Instituto de Matemática - UFRJ Fabio Ramos Heudson Mirandola 20 de Junho de 2017 Brasilia - DF Documentoconfidencialpara usoe informaçãodo DepartamentoNacionalde Infraestruturade Transportes AGENDA  Aprendizagem não-supervisionada – imputação e análise de anomalias  Um raio-X da base de dados do PNCT  Aprendizagem supervisionada: Imputação, previsão on-line, seleção de sensores, data analytics. 3 Volume de um dia típico do Equipamento 193 – Sentido C 4 Volume anômalo de um dia do Equipamento 243 – Sentido C 5 Um exemplo de um dia com dados ausentes. (gerado articialmente) 6 O que esperamos da reconstrução? Que seja precisa e respeite a variabilidade natural dos dados. (Um método baseado em testes) 7 Por que tratar os dados ? SURVEY - SUPPLY CHAIN, TRANSPORTATION & LOGISTICS – MITx (1003 participantes) Baseado na sua experiência em gerenciar grandes projetos, de onde surgiram os maiores problemas? 1- Escopo do projeto mudava o tempo todo. 40% 2- Os dados eram incompletos/incorretos/falhos, etc.. 23% 3- As expectativas em relação ao projeto continuavam mudando. 20% 4- A definição da cadeia logística não era clara desde o começo. 10% 5- Outros 5% 6- Os modelos matemáticos não eram adequados. 1% 8 Por que tratar os dados ?  Permite o uso de métodos de inferência para dados completos (e.g. VMD, VMDA, Médias, Medianas, etc..).  Permite o uso de dados disponíveis ao coletor de dados mas não disponíveis ao usuário final. (BIG DATA)  O problema dos dados anômalos (e.g. ausentes) é resolvido de uma vez por todas. A imputação na origem unifica estudos posteriores, evitando confusão na análise de dados e reduzindo custos desnecessários OBJETIVO Substituição dos dados anômalos por vários valores prováveis, de maneira que a variabilidade natural dos dados seja fielmente representada na reconstrução. 9 Visualizando os dados de tráfego Cada dia é representado por um vetor de 96 entradas, onde cada uma representa um intervalo de 15 minutos. Fixando o intervalo de 15 minutos Fixando Dias BR-116 Km 292 A primeira versão do algoritmo de imputação reconhece dias parecidos, com as informações do dia anômalo, para reconstrui-lo! Dado discrepante Fixando o dia Fixando o intervalo de 15 min Dias variados

Description:
A Maldição da Dimensionalidade. Comparar dias é equivalente a comparar vetores em. 14. PROCLUS. Charu Aggarwal
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.