UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS SISTEMA DE ALARME BAYESIANO ÓTIMO PARA DADOS EPIDEMIOLÓGICOS ESPACIAIS Doutoramento em Estatística e Investigação Operacional especialidade em Bioestatística e Bioinformática Clandio Timm Marques Tese orientada pela professora Doutora Marilia Cristina de Sousa Antunes e co-orientada pela professora Doutora Valeska Lima Andreozzi Félix Documento especialmente elaborado para a obtenção do grau de doutor 2016 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS SISTEMA DE ALARME BAYESIANO ÓTIMO PARA DADOS EPIDEMIOLÓGICOS ESPACIAIS Doutoramento em Estatística e Investigação Operacional especialidade em Bioestatística e Bioinformática Clandio Timm Marques Tese orientada pela professora Doutora Marilia Cristina de Sousa Antunes e co-orientada pela professora Doutora Valeska Lima Andreozzi Félix Júri: Presidente: › Doutor Luís Eduardo Neves Gouveia Vogais: › Doutor Kamil Feridun Turkman › Doutora Luzia Augusta Pires Gonçalves › Doutora Marília Cristina de Souza Antunes › Doutora Patrícia Cortés de Zea Bermudez › Doutora Sandra Cristina de Faria Ramos Documento especialmente elaborado para a obtenção do grau de doutor 2016 Ao meu pai Ovídio, minha mãe Maria Eloy (In Memorian), meu irmão Claiton. À minha esposa Licia Simone. As minhas filhas Gabriela e Giulia. Resumo A dengue é um sério problema mundial e o estudo com resultados concre- tos conciliado com a tomada de decisão é uma das formas de minimizá-lo, pois no âmbito da saúde pública, é de grande interesse ser capaz de prever antecipadamente a probabilidade de um surto, de modo que departamentos responsáveis possam tomar as medidas adequadas. Se as condições climáti- cas e/ou outros fatores são identificados como fator de risco, é importante saber quais são as suas características. É proposto neste trabalho de tese a criação de um sistema de alarme bayesiano óptimo de tal forma que a partir de um conjunto de informa- ções, especificamente da cidade do Rio de Janeiro, mostra como se pode construir, de acordo com os procedimentos propostos, uma região de es- pecificação. Busca-se uma maior probabilidade de detecção correta e uma menor taxa de alarmes falsos e com isto predizer a possível ocorrência da epidemia de dengue. Para isto foi utilizado métodos hierárquicos bayesianos na construção de tal sistema de alarme. Foram propostas duas análises, a primeira foi a análise temporal que trabalha com a chuva, a temperatura e o número de casos de dengue e a segunda, a análise espaço-temporal que trabalha com a três variáveis citadas acima, acrescentadas do índice de Gini, da densidade populacional e os vizinhos de cada região. A construção da região de alarme é baseada em um critério de otimização e como queremos obter a máxima probabilidade de previsão correta, a esco- lha entre os diferentes valores de k que definem as fronteiras paramétricas flexíveis, selecionamos aquele que mais se aproxima da igualdade entre a probabilidade de previsão correta antes da triagem e a probabilidade de ser retido pelo processo de triagem. Os resultados para cada região administrativa são apresentados em forma de tabelas com as suas respectivas características operacionais, figuras com as suas fronteiras quadráticas e mapas das probabilidades. Os programas utilizados para a criação de mapas e implementação da metodologia proposta foram desenvolvidos em ambiente R. Palavras-chave: screening óptimo, metodologias bayesianas, dengue, da- dos epidemiológicos espaciais, modelo normal bivariado. Abstract Dengue is a serious world problem and its study with concrete results reconciled with decision-making processes is one of the ways of minimizing it, since in public health, it is of great interest the capability of providing in advance the probability of an outbreak, so that the responsible depart- ments can take the adequate measures. If the weather conditions and/or other factors are identified as risk factors, it is important to know what their characteristics are. This study proposes the creation of bayesian optimum alarm system, so that from a set of information, specifically from the city of Rio de Janeiro, it will be able to show how to build, according to the proposed procedures, a specification region. This study seeks a higher probability of correct detection and a lower rate of false alarms, and with that predicts the possible occur- rence of a dengue outbreak. In order to do that were used hierarchic Bayesian methods for building the alarm system. Two analysis were proposed: the first was the temporal analysis and the second was the spatial-temporal analysis that works with the three variables mentioned above, added from Gini index, population density, and the neighbors of each region. The construction of the alarm region is based on an optimization crite- rion and because this study aims at obtaining the maximum probability of correct preview, the choice between the different values of K that defines the flexible parametric borders, it was selected the one that comes closest to the equity between the probability of correct preview before the screening and the probability of being retained by the screening process. The results for each administrative region are presented in tables with its respective operational characteristics, figures with its quadratic borders, and probability maps. The software used for the creation of maps and implementation of the methodology proposed were developed in R environment. Keywords: optimum screening , bayesian methodologies, dengue, spatial epidemiologic data, bivariate normal model. Agradecimentos Ao país Portugal, a cidade de Lisboa, a Universidade de Lisboa, a Facul- dade de Ciências, ao departamento de Estatística e Investigação Operacional, aos professores e funcionários muito obrigado pela excelente acolhida. À Professora Doutora Marília Cristina de Sousa Antunes que se demons- trou incansável nos inúmeros encontros para a discussão do trabalho. Espe- lho de profissional e exemplo a seguir na vida acadêmica. À Professora Doutora Maria Antónia Turkman que no primeiro contato com a universidade demonstrou interesse em me receber. À Professora Doutora Valeska Lima Andreozzi na construção do projeto de doutoramento e pela orientação no primeiro ano. À instituição Centro Universitário Franciscano - UNIFRA pelo apoio ins- titucional deste estudo em Portugal. Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq pela conseção da bolsa de doutoramento que foi importante para o impulso inicial na construção de um perfil de investigação que permitirá a continuidade das pesquisas no Brasil. À todos da Família Oliveira mas em especial a tia Vera e tio Heron. Ao meu pai Ovídio, minha mãe Maria Eloy (in memorian),meu irmão Clai- ton, meu sogro Caubi e minha sogra Lígia que sempre acreditaram que eu seria Doutor. À minha esposa Licia e minhas filhas Gabriela e Giulia que entenderam a ausência do esposo e do pai. Só posso dizer uma coisa, eu amo muito vocês. Conteúdo 1 Conceitos Fundamentais 8 1.1 Sistema de Alarme . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Metodologia Screening . . . . . . . . . . . . . . . . . . . . 12 1.2.1 Screening Ótimo . . . . . . . . . . . . . . . . . . . . 17 1.3 Método de Monte Carlo . . . . . . . . . . . . . . . . . . . . 23 1.3.1 Monte Carlo ordinário . . . . . . . . . . . . . . . . . 24 1.3.2 Métodos de Monte Carlo em Cadeias de Markov . . . 25 1.4 Dados Epidemiológicos Espaciais . . . . . . . . . . . . . . . 27 1.5 Interpolação Espacial . . . . . . . . . . . . . . . . . . . . . 29 1.5.1 Interpolação Inverso da Potência da Distância (IDP) . 29 1.5.2 Krigagem . . . . . . . . . . . . . . . . . . . . . . . 31 1.5.3 Vizinho mais próximo . . . . . . . . . . . . . . . . . 32 1.5.4 Polígonos de Thiessen . . . . . . . . . . . . . . . . . 32 2 Screening em Classificação Supervisionada 34 2.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2 Probabilidade preditiva:P(T = tjD) . . . . . . . . . . . . . . 36 2.3 Abordagem paramétrica Distribuição preditiva de XjT = t . . . . . . . . . . . . . . . 37 2.4 Modelo Normal Bivariado . . . . . . . . . . . . . . . . . . . 38 2.4.1 Distribuição normal bivariada . . . . . . . . . . . . . 38 2.4.2 Transformação Box-Cox . . . . . . . . . . . . . . . . 41 3 O Problema 45 3.1 O que é a Dengue? . . . . . . . . . . . . . . . . . . . . . . 45 3.2 Qual a situação da dengue no mundo? . . . . . . . . . . . . 46 3.3 Qual a situação da dengue no Brasil? . . . . . . . . . . . . . 47 3.4 Qual a situação da dengue no Rio de Janeiro? . . . . . . . . 49 3.5 Qual a situação da dengue no município do Rio de Janeiro? . 50 4 Descrição da Base de Dados 52 4.1 Regiões Administrativas(RA) do município do Rio de Janeiro 52 4.2 Precipitação no município do Rio de Janeiro . . . . . . . . . 53 4.3 Temperatura no município do Rio de Janeiro . . . . . . . . . 55 4.4 Número de casos de dengue no município do Rio de Janeiro . 56 4.5 Censo Demográfico . . . . . . . . . . . . . . . . . . . . . . 57 1 CONTEÚDO 2 5 Construção do Modelo 60 5.1 Modelo Linear Generalizado . . . . . . . . . . . . . . . . . . 60 5.2 Família Exponencial . . . . . . . . . . . . . . . . . . . . . . 61 5.2.1 Valor médio e variância . . . . . . . . . . . . . . . . 62 5.3 Análise de Regressão Espacial . . . . . . . . . . . . . . . . . 62 5.3.1 Modelos Espaciais . . . . . . . . . . . . . . . . . . . 64 5.4 Construção da região de especificação óptima . . . . . . . . 66 6 Análise dos dados 68 6.1 Análise temporal dos dados . . . . . . . . . . . . . . . . . . 68 6.2 Análise espaço-temporal dos dados . . . . . . . . . . . . . . 81 6.2.1 Análise preliminar dos dados . . . . . . . . . . . . . 81 7 Discussão e Conclusões 97 A Programação em R 100 B Temperaturas RJ 107 C Pluviosidade RJ 115 Lista de Figuras 1.1 Distância horizontal entre o local sem dados de temperatura ou precipitação e as estações adjacentes. . . . . . . . . . . . 30 1.2 Interpolação pelo método do vizinho mais próximo. . . . . . 32 1.3 Traçado dos Polígonos de Thiessen. . . . . . . . . . . . . . 33 2.1 Gráficos da densidade normal bivariada com (I) correlação nula, (II) correlação linear positiva e (III) correlação linear negativa entre as variáveis. . . . . . . . . . . . . . . . . . . 40 2.2 Respectivamente a representação dos dados originais e dos dados transformados da quantidade de chuvas da Região Ad- ministrativa de Inhauma na cidade do Rio de Janeiro de 1999 a 2012. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.1 Países ou áreas de risco da Dengue - 2012 . . . . . . . . . . 47 3.2 Municípios brasileiros infestados pelo Aedes aegypti 1995 e 2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.3 LIRAa respectivamente dos meses de março/2013, agosto/2013, outubro/2013 e março/2014 no estado do Rio de Janeiro . . 50 3.4 Evolução do número de casos de dengue de 1999 a 2012 no município do Rio de Janeiro . . . . . . . . . . . . . . . . . . 51 4.1 Localização das 33 Regiões Admistrativas com suas respec- tivas Áreas de Planejamento do Município do Rio de Janeiro . 53 4.2 Localização dos Pluviômetros no Município do Rio de Janeiro 54 4.3 Comportamento da precipitação média no município do Rio de janeiro de 1999 a 2012. . . . . . . . . . . . . . . . . . . 55 4.4 Comportamento da temperatura média no município do Rio de janeiro de 1999 a 2012. . . . . . . . . . . . . . . . . . . 56 5.1 Representação gráfica dos vizinhos limítrofes, dos centróides e da distância entre os centróides das 33 regiões administra- tivas da cidade do Rio de Janeiro. . . . . . . . . . . . . . . . 63 6.1 Grelha com as probabilidades - Região 9 (Cidade de Deus). . 70 6.2 Região ótima e o diagrama de dispersão correspondentes a temperatura/chuva originais - Análise Temporal. . . . . . . . 76 3 LISTA DE FIGURAS 4 6.3 Região óptima e o diagrama de dispersão correspondentes a temperatura/chuva originais (vermelho e verde) e tempera- tura/chuva preditivas (preto) - Análise Temporal. . . . . . . 77 6.4 Probabilidade do erro aparente das 33 regiões administrativas da cidade do Rio de Janeiro - Análise Temporal. . . . . . . . 79 6.5 Probabilidade da detecção correta de epidemia nas 33 regiões administrativas da cidade do Rio de Janeiro - Análise Temporal. 80 6.6 Probabilidade de alarme falso de epidemia nas 33 regiões administrativas da cidade do Rio de Janeiro - Análise Temporal. 80 6.7 Boxplot das variáveis sociais da região 18. . . . . . . . . . . 82 6.8 Grelha com as probabilidades - Região 14 (São Cristovão). . 85 6.9 Região óptima e o diagrama de dispersão correspondentes a temperatura/chuva originais - Análise Espaço-Temporal. . . . 88 6.10 Região óptima e o diagrama de dispersão correspondentes a temperatura/chuva originais (vermelho e verde) e tempera- tura/chuva preditivas (preto) - Análise Espaço-Temporal. . . 90 6.11 Probabilidade do erro aparente das 33 regiões administrativas da cidade do Rio de Janeiro - Análise Espaço-Temporal . . . 91 6.12 Probabilidade da detecção correta de epidemia nas 33 regiões administrativas da cidade do Rio de Janeiro - Análise Espaço- Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6.13 Probabilidade de alarme falso de epidemia nas 33 regiões administrativas da cidade do Rio de Janeiro - Análise Espaço- Temporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6.14 Localização das regiões administrativas com probabilidade acima de 50% de detecção correta de epidemia - Análise Temporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 6.15 Localização das regiões administrativas com probabilidade acima de 50% de detecção correta de epidemia - Análise Espaço-Temporal. . . . . . . . . . . . . . . . . . . . . . . . 95 6.16 Localização dos centróides das 33 regiões administrativas e dos postos pluviométricos da cidade do Rio de Janeiro. . . . 96 6.17 Localização dos centróides das 33 regiões administrativas e dos postos metereológicos da cidade do Rio de Janeiro. . . . 96
Description: