Análisis estadístico de datos espaciales con QGIS y R Yolanda Cabrero Ortega Alfonso García Pérez Análisis estadístico de datos espaciales con QGIS y R YOLANDA CABRERO ORTEGA ALFONSO GARCÍA PÉREZ UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA ANÁLISIS ESTADÍSTICO DE DATOS ((cid:1)ESPACIALES CON QGIS Y R © Universidad Nacional de Educación a Distancia Madrid 2015 (cid:88)(cid:88)(cid:88)(cid:15)(cid:86)(cid:79)(cid:70)(cid:69)(cid:15)(cid:70)(cid:84)(cid:16)(cid:81)(cid:86)(cid:67)(cid:77)(cid:74)(cid:68)(cid:66)(cid:68)(cid:74)(cid:80)(cid:79)(cid:70)(cid:84) © Yolanda Cabrero Ortega y Alfonso García Pérez Fotografía de la portada: Hoces del Duratón. Segovia No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual y protegido por la Ley, que establece penas de prisión además de las correspondientes indemnizaciones para quien lo plagiara. ISBN(cid:1)(cid:70)(cid:77)(cid:70)(cid:68)(cid:85)(cid:83)(cid:211)(cid:79)(cid:74)(cid:68)(cid:80): 978-84-362-(cid:24)(cid:17)(cid:26)(cid:18)(cid:14)(cid:21) (cid:38)dición(cid:1)(cid:69)(cid:74)(cid:72)(cid:74)(cid:85)(cid:66)(cid:77): (cid:79)(cid:80)(cid:87)(cid:74)(cid:70)(cid:78)(cid:67)(cid:83)(cid:70)(cid:1)de 2015 El mundo es un lugar que va ma´s all´a de nuestro entendimiento Paul Auster ´ Indice 1. Introduccio´n al QGIS 1.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2. Sistemas de Informaci´on Geogr´afica . . . . . . . . . . . . . . . . 15 1.2.1. Utilidad de los Sistemas de Informaci´on Geogr´afica . . . 18 1.2.2. Aplicaciones de los Sistemas de Informaci´on Geogr´afica 18 1.2.3. Sistemas de Informaci´on Geogr´afica m´as utilizados . . . 19 1.3. Instalaci´on de QGIS . . . . . . . . . . . . . . . . . . . . . . . . 20 1.3.1. Descripci´on del ´area de trabajo . . . . . . . . . . . . . . 20 1.4. Tipos de datos GIS . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.4.1. GIS vectorial . . . . . . . . . . . . . . . . . . . . . . . . 22 1.4.2. Ejemplo de QGIS vectorial . . . . . . . . . . . . . . . . 25 1.4.3. GIS raster . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.4.4. Ejemplo de QGIS raster . . . . . . . . . . . . . . . . . . 32 2. Utilizaci´on y Manejo de QGIS 45 2.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.2. Incorporacio´n de Tablas de Datos . . . . . . . . . . . . . . . . . 45 2.3. Selecci´on Espacial . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.4. An´alisis Espacial de Proximidad . . . . . . . . . . . . . . . . . 60 2.5. Presentaci´on e Impresi´on. . . . . . . . . . . . . . . . . . . . . . 66 3. Interaccio´n entre QGIS y R 3.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2. Configuraci´on de QGIS . . . . . . . . . . . . . . . . . . . . . . 72 3.3. Ejecuci´on de programas de R a trav´es de QGIS . . . . . . . . . 75 4. An´alisis de Datos Espaciales de tipo discreto. Procesos Puntuales 4.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.2. Datos espaciales y su representaci´on . . . . . . . . . . . . . . . 82 4.3. Procesos Puntuales Espaciales . . . . . . . . . . . . . . . . . . . 86 4.3.1. An´alisis de la distribuci´on espacial . . . . . . . . . . . . 87 4.3.2. Aleatoriedad Espacial Completa (CSR) . . . . . . . . . 90 4.3.3. Ajuste de Modelos Espaciales Puntuales . . . . . . . . . 95 4.3.4. An´alisis de la densidad espacial . . . . . . . . . . . . . . 104 5. An´alisis de Datos Espaciales de tipo continuo. Geoes- tad´ıstica 5.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2. Variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2.1. Utilizacio´n de covariables . . . . . . . . . . . . . . . . . 108 5.2.2. An´alisis exploratorio del Variograma . . . . . . . . . . . 108 5.3. Interpolaci´on espacial . . . . . . . . . . . . . . . . . . . . . . . 111 6. An´alisis de Datos Espaciales agregados o regionales 6.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.2. Entornos y pesos de A´reas . . . . . . . . . . . . . . . . . . . . . 115 6.3. Contraste global de autocorrelaci´on espacial: Estad´ıstico I de Moran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.4. Contraste local de autocorrelaci´on espacial: Gr´afico de disper- si´on de Moran . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.5. Ajuste de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 121 7. Modelos Lineales Generalizados GLM 7.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 7.2. Definici´on de Modelo Lineal Generalizado univariante . . . . . 128 7.2.1. Dispersio´n excesiva (Overdispersion) . . . . . . . . . . . 133 7.3. Estimacio´n y Contrastes basados en la verosimilitud . . . . . . 134 7.3.1. Estimador de m´axima verosimilitud de los βi . . . . . . 134 7.3.2. Estimador del par´ametro de escala ξ . . . . . . . . . . . 137 7.3.3. Contrastes de hip´otesis sobre los par´ametros . . . . . . 137 7.3.4. Contraste de bondad de ajuste del modelo . . . . . . . . 138 7.3.5. Diagn´ostico del Modelo . . . . . . . . . . . . . . . . . . 139 7.4. C´alculo con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 7.4.1. Regresi´on Log´ıstica y Regresi´on Binomial . . . . . . . . 140 Interpretaci´on de los coeficientes del Modelo de Regre- si´on Log´ıstica ajustado . . . . . . . . . . . . . 146 Dispersi´on excesiva (Overdispersion) . . . . . . . . . . . 152 7.4.2. Regresi´on Log´ıstica Multinomial . . . . . . . . . . . . . 154 7.4.3. Regresi´on Poisson . . . . . . . . . . . . . . . . . . . . . 154 7.5. M´etodos basados en la cuasi-verosimilitud . . . . . . . . . . . . 158 7.6. M´etodos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 159 7.7. M´etodos robustos . . . . . . . . . . . . . . . . . . . . . . . . . . 160 7.7.1. M-estimadores basados en la cuasi-verosimilitud . . . . 160 7.7.2. Contraste robusto de bondad de ajuste del modelo . . . 162 7.7.3. C´alculo con Rmo . . . . . . . . . . . . . . . . . . . . . . 163 7.8. Ajuste de modelos GLM para datos espaciales . . . . . . . . . . 169 8. Modelos Aditivos Generalizados GAM 171 8.1. Introducci´on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 8.2. Modelos GAM cla´sicos . . . . . . . . . . . . . . . . . . . . . . . 173 8.2.1. Estimacio´n . . . . . . . . . . . . . . . . . . . . . . . . . 173 8.2.2. Validacio´n Cruzada (Cross validation) . . . . . . . . . . 175 8.2.3. C´alculo con R . . . . . . . . . . . . . . . . . . . . . . . . 177 8.3. Modelos GAM robustos . . . . . . . . . . . . . . . . . . . . . . 180 9. Bibliograf´ıa Pr´ologo El presente texto es una introducci´on al An´alisis de Datos Espaciales, en- tendidos ´estos como datos en los que, adema´s de las variables que se est´en considerando en el estudio, aparece su localizaci´on geogr´afica. E´sta no tiene porqu´e ser siempre su latitud y longitud; en ocasiones, la distancia a la costa de un banco de peces es m´as informativa que sus coordenadas geogra´ficas. UnapeculiaridaddeestelibroesqueelAn´alisisdeDatosEspacialessehace, tanto con los Sistemas deInformacio´n Geogr´afica SIG,o mejor GIS (Geograp- hical Information System) si utilizamos el acr´onimo ingl´es, como mediante la Modelizacio´n de los datos espaciales. En este an´alisis global se hace uso del software Quantum GIS, QGIS, y del paquete estad´ıstico R, ambos gratuitos y que interactu´an perfectamente. Los Sistemas de Informaci´on Geogr´afica son un visor de datos. Aprendere- mos el manejo de QGIS en la primera parte del texto. El Ana´lisis Estad´ıstico de esos datos se realizara´ en la segunda parte del texto con R. El An´alisis de Datos Espaciales es de gran inter´es en muchos campos en donde los objetivos pueden ser distintos. En Ecolog´ıa, por ejemplo, suele ser de inter´es estimar una distribucio´n espacial que explique las localizaciones acaecidas en un ´area de estudio o que permita comparar las localizaciones de varias especies. En Epidemiolog´ıa el inter´es suele ser el de poder concluir si las causas de una cierta enfermedad est´an concentradas en una determinada regi´on (piense el lector en los recientes casos de ´ebola). Esto puede conseguirse comparando la distribuci´on espacial de los casos observados con las localizaciones de un conjunto de controles elegidos al azar de la poblaci´on en estudio. En Arqueolog´ıa la localizacio´n geogr´afica es de sumo inter´es. Por ejemplo, en la parte occidental de las Islas Brit´anicas se encuentran yacimientos con monumentos megal´ıticos puesto que estas zonas absorbieron influencias del Atl´antico. Por contra, la parte oriental de dichas islas recibieron influencias de sus vecinos europeos, las cuales dieron lugar a vasos campaniformes. En Econom´ıa, la localizacio´n de una nueva empresa es de vital importan- cia para el incremento de sus beneficios ya que si debe enviar sus productos deber´a reducir costes de transporte para lo que deber´a conocer en do´nde se localizan sus principales clientes yesto, nos´olo a nivel empresarial sino a nivel nacional. Hoy en d´ıa se comenta que el siglo XIX fue europeo, el siglo XX americano y que el XXI ser´a oriental. El ej´ercito necesita conocer la localizacio´n geogr´afica de objetivos propios y ajenos para una mejor defensa. En Ciencias Ambientales, la localizaci´on geogr´afica lleva asociado un clima espec´ıfico con unas implicaciones que deben ser analizadas. Y, por supuesto, los Sistemas de Informaci´on Geogr´afica son imprescindi- bles en Geograf´ıa la cual depende de ellos como la Estad´ıstica depende de los paquetes estad´ısticos. Hoy en d´ıa no puede mantenerse al margen la localizaci´on geogr´afica al analizar unos datos. Adema´s, esta implicaci´on interactu´a entre los diversos campos, de manera que el clima en un momento determinado lleva a unos asentamientos en los que se obtuvieron unos determinados yacimientos ar- queol´ogicos, o las rutas comerciales las cuales dependen de la topograf´ıa del terreno. De ah´ı que en estos d´ıas es obligado un estudio interdisciplinario de los datos, surgiendo campos como la paleoclimatolog´ıa, paleobiogeograf´ıa, pa- leoecolog´ıa, porcitar s´olo unoscamposrelacionados con la Arqueolog´ıa, lo que obliga a la formaci´on de equipos de investigacio´n tambi´en multidisciplinarios. El lector debe de tener unos conocimientos b´asicos de Estad´ıstica y de R. Si no los tiene, para la primera, le recomendamos el libro de Garc´ıa P´erez (2008a), a veces denominado CB, y para R el texto de Garc´ıa P´erez (2008c). La uni´on de ambos libros es el de Garc´ıa P´erez (2010). Enalgunos momentos secitar´a eltexto TAquecorrespondeaGarc´ıa P´erez (2005a)yTAEAqueesellibrobasedelM´asterT´ecnicasActuales de Estad´ısti- ca Aplicada. Los ficheros de datos que utilizaremos en el libro, as´ı como informacio´n y ejemplos complementarios, esta´n disponibles en la direcci´on http://www.uned.es/pfacs-estadistica-aplicada/gis.htm YolandaCabrero Ortega Tutora deGeograf´ıa eHistoria Centros Asociados de Madrid y Madrid Sur.UNED ([email protected]) ([email protected]) Alfonso Garc´ıa P´erez Catedra´tico deEstad´ıstica eI.O. Depart. deEstad´ıstica. Fac. de Ciencias. UNED ([email protected])