0 Portada Cua Meto. 48 22/4/13 08:48 Página 1 Jesús Bouso Freijo es Jefe de Área de Estadística en el Departamento de Banco de Da- Cuadernos tos del Centro de Investigaciones Sociológicas. Licenciado en Matemáticas y funcionario del Cuerpo Superior de Estadísticos del Estado, ha obtenido el Diploma de Estudios Avan- Metodológicos zados con un trabajo acerca de la clasificación de series temporales, implementado en R. Es profesor del Curso de Posgrado de Formación de Especialistas en Investigación Social Aplicada y Análisis de Datos del Centro de Investigaciones Sociológicas, donde ha imparti- do docencia acerca del programa R. Además de su labor en el CIS, ha dedicado su vida profesional al análisis estadístico de datos en el Instituto Nacional de Estadística y en la Comisión Nacional de la Competencia. Su publicación más reciente es “La evolución futura de los apellidos. Una modelización con cadenas de Markov no homogéneas” (Revista Esta- 8 48 dística Española 2012)con María Cristina González Fidalgo. 4 El paquete estadístico R Jesús Bouso Freijo R es un paquete estadístico de elevada y creciente importancia para la implementación de técnicas estadísticas en diversas disciplinas científicas aplicadas. Su carácter gratuito, la multitud de recursos disponibles para el programa y su o elevada calidad tanto analítica como gráfica hacen eij que gradualmente se vaya convirtiendo en una r o F especie de lengua franca para el análisis s estadístico. Este volumen tiene como finalidad u o B introducir al lector a su uso de modo claro y s minucioso, sin presuponer conocimiento alguno del ú es programa. La obra está orientada al tratamiento de J datos de encuesta en la investigación social y R o abarca una serie de técnicas para el manejo de dístic ecostnet rtaipsote sd ed ed ahtiopsó:t eessitsa,d aísntáiclias isd egsrcárfiipcotiv ea ,incluso a una introducción a la regresión lineal y a la ISBN 978-84-7476-613-4 st e regresión logística con R. Todo ello implementado ete con datos reales de encuestas de opinión, u principalmente de estudios conducidos por el CIS. 9 788474 766134 q a La documentación digital asociada al libro incluye p El todo el código utilizado en el texto, así como la resolución de todos los ejercicios propuestos y se halla disponible en www.cis.es/publicaciones/CM/ 003_13 Aju 0 porta 48 29/4/13 08:54 Página 1 Cuadernos Metodológicos 48 El paquete estadístico R Jesús Bouso Freijo 003_13 Aju 00 prim/Indice 29/4/13 08:54 Página 2 Consejo Editorial de la Colección Cuadernos Metodológicos DIRECTOR Félix Requena Santos, Presidente del CIS CONSEJEROS Francisco Alvira Martín, Universidad Complutense de Madrid Mª Ángeles Cea D´Ancona, Universidad Complutense de Madrid Jesús M. de Miguel Rodríguez, Universidad de Barcelona Modesto Escobar Mercado, Universidad de Salamanca J. Sebastián Fernández Prados, Universidad de Almería Juan Ignacio Martínez Pastor, Universidad Nacional de Educación a Distancia SECRETARIA Mª Paz Cristina Rodríguez Vela, Directora del Departamento de Publicaciones y Fomento de la Investigación del CIS Las normas editoriales y las instrucciones para los autores pueden consultarse en: http://www.cis.es/publicaciones/CM/ Todos los derechos reservados. Prohibida la reproducción total o parcial de esta obra por cualquier procedimiento (ya sea gráfico, electrónico, óptico, químico, mecánico, fotografía, etc.) y el almacenamiento o transmisión de sus contenidos en soportes magnéticos, sonoros, visuales o de cualquier otro tipo sin permiso expreso del editor. COLECCIÓN «CUADERNOS METODOLÓGICOS», NÚM. 48 Catálogo de Publicaciones de la Administración General del Estado http://publicacionesoficiales.boe.es Primera edición, abril de 2013 © CENTRO DE INVESTIGACIONES SOCIOLÓGICAS Montalbán, 8. 28014 Madrid © Jesús Bouso Freijo © DERECHOSRESERVADOSCONFORMEALALEY Impreso y hecho en España Printed and made in Spain NIPO: 004-13-005-1 ISBN: 978-84-7476-613-4 Depósito legal: M. 7.437-2013 Fotocomposición e impresión: EFCA, S.A. Parque Industrial «Las Monjas». 28850 Torrejón de Ardoz (Madrid) El papel utilizado para la impresión de este libro es 100% reciclado y totalmente libre de cloro, de acuerdo con los criterios medioambientales de contratación pública. 003_13 Aju 00 prim/Indice 29/4/13 08:54 Página 3 Índice INTRODUCCIÓN........................................................................................ 7 1. EL PAQUETE ESTADÍSTICO R. INSTALACIÓN Y PRIMEROS PASOS. 13 1.1. Instalando R................................................................................... 13 1.1.1. Instalación de R en Windows............................................. 14 1.1.2. Instalación de R en Mac OS X............................................ 15 1.1.3. Instalación de R en Linux................................................... 15 1.2. Estructura de una sesión con R..................................................... 16 1.3. Una primera sesión con R: vectores, matrices y operaciones elementales.......................................................................... 18 1.3.1. Vectores............................................................................... 19 1.3.2. Algunos comandos básicos................................................. 23 1.3.3. Cómo guardar la sesión de trabajo. Scriptsen R............... 24 1.3.4. Algunas funciones útiles trabajando con vectores............ 26 1.3.5. Matrices............................................................................... 27 1.3.6. Algunas funciones básicas para operar con vectores y matrices en R....................................................................... 33 1.3.7. Variables de tipo carácter................................................... 33 1.3.8. Hojas de datos..................................................................... 34 1.3.9. Clases de variables............................................................... 36 1.4. R Commander: un interfaz de R para la realización de análisis estadísticos........................................................................... 37 1.4.1. Instalación de R Commander en Windows....................... 38 1.4.2. Instalación de R Commander en Linux/Unix.................... 42 1.4.3. Instalación de R Commander en Mac OS X...................... 43 1.5. Ejercicios........................................................................................ 44 2. IMPORTACIÓN Y EXPORTACIÓN DE DATOS CON R y R COM- MANDER....................................................................................... 47 2.1. Directorio de trabajo...................................................................... 47 003_13 Aju 00 prim/Indice 29/4/13 08:54 Página 4 4 CUADERNOS METODOLÓGICOS 46 2.2. Importación de datos..................................................................... 49 2.2.1. Importación de datos de tipo texto con separadores (.txt)...................................................................................... 49 2.2.2. Importación de datos de tipo texto con ancho fijo........... 53 2.2.3. Importación de datos desde libros Excel........................... 55 2.2.4. Importación de datos desde ficheros de SPSS (.sav)........ 61 2.3. Exportación de datos..................................................................... 63 2.3.1. Exportación de datos a formato texto (.txt) con separa- dores..................................................................................... 64 2.3.2. Exportación de datos de tipo texto con ancho fijo............ 66 2.3.3. Exportación de datos a libros Excel................................... 67 2.3.4. Exportación de datos legibles por SPSS............................ 68 2.3.5. Exportación de datos legibles por Stata o SAS................. 68 2.4. Los conjuntos de datos incluidos en R.......................................... 69 2.5. Ejercicios........................................................................................ 71 3. MANIPULACIÓN DE DATOS CON R................................................... 73 3.1. Recodificación de variables........................................................... 74 3.2. Cálculo de nuevas variables........................................................... 78 3.3. Filtrado de datos............................................................................. 80 3.4. Una aplicación del filtrado: la depuración de datos..................... 84 3.4.1. Depuración marginal o variable a variable........................ 85 3.4.2. Depuración cruzada............................................................ 87 3.5. Unión de ficheros con R................................................................ 88 3.6. Ejercicios........................................................................................ 99 4. ESTADÍSTICA BÁSICA CON R............................................................. 103 4.1. Conversión de variables numéricas en factores........................... 103 4.2. Medidas de tendencia central, posición, dispersión y forma...... 107 4.3. Distribuciones de frecuencias. Cálculo de frecuencias marginales.. 113 4.4. Tablas de contingencia. Cálculo de cruces entre variables.......... 116 4.5. Ejercicios........................................................................................ 124 5. CONTRASTES DE HIPÓTESIS CON R................................................ 127 5.1. Tests de medias.............................................................................. 130 5.1.1. Contraste sobre la media.................................................... 130 5.1.2. Contraste de igualdad de medias....................................... 133 5.1.3. Contraste t para datos relacionados................................... 135 5.2. Tests de proporciones.................................................................... 138 5.2.1. Contraste sobre la proporción de una población.............. 138 5.2.2. Test de proporciones para dos muestras........................... 141 003_13 Aju 00 prim/Indice 29/4/13 08:54 Página 5 ANÁLISIS DE DATOS INCOMPLETOS EN CIENCIAS SOCIALES 5 5.3. Tests de varianzas.......................................................................... 144 5.3.1. Contraste de igualdad de dos varianzas............................. 144 5.3.2. Contraste de homogeneidad de varianzas de Bartlett....... 147 5.3.3. Contraste de igualdad de varianzas de Levene.................. 149 5.4. Contrastes no paramétricos........................................................... 151 5.4.1. Test de suma de rangos de Wilcoxon para dos muestras. 152 5.4.2. Test de Wilcoxon para datos emparejados........................ 154 5.4.3. Test de suma de rangos de Kruskal-Wallis........................ 157 5.5. Análisis de varianza ANOVA de un factor.................................... 159 5.6. Ejercicios........................................................................................ 162 6. GRÁFICOS CON R................................................................................. 165 6.1. Histograma..................................................................................... 166 6.2. Gráficos de barras.......................................................................... 170 6.3. Gráficos de sectores....................................................................... 177 6.4. Diagramas de caja.......................................................................... 183 6.5. Representación gráfica de series temporales: la función plot()... 187 6.6. Ejercicios........................................................................................ 192 7. TÉCNICAS BÁSICAS DE MUESTREO CON R.................................... 195 7.1. Muestreo aleatorio simple sin reposición..................................... 198 7.2. Tratamiento de datos ponderados................................................. 198 7.3. Muestreo aleatorio estratificado SR con afijación proporcional.. 199 7.4. Muestreo aleatorio estratificado SR, con afijación uniforme..... 203 7.5. Ejercicios........................................................................................ 205 8. REGRESIÓN Y REGRESIÓN LOGÍSTICA CON R............................. 207 8.1. Correlación..................................................................................... 209 8.2. Regresión lineal.............................................................................. 216 8.3. Regresión logística......................................................................... 226 8.4. Ejercicios........................................................................................ 231 CONCLUSIÓN: PROFUNDIZANDO EN R................................................ 235 BIBLIOGRAFÍA........................................................................................... 241 ÍNDICE DE INSTRUCCIONES.................................................................. 243 ÍNDICE DE ILUSTRACIONES................................................................... 245 ÍNDICE DE GRÁFICOS.............................................................................. 246 003_13 Aju 00 prim/Indice 29/4/13 08:54 Página 6 003_13 Aju 000 Intro 29/4/13 08:55 Página 7 Introducción La revolución informática y de las comunicaciones ha llevado consigo no ya una utilización del potencial de cálculo de los ordenadores como herramien- ta para la estadística, sino a una integración de ese poder de cálculo y gráfi- co en la ciencia estadística en sí misma. En las últimas décadas se han crea- do diversas técnicas estadísticas, tanto algorítmicas como gráficas, que jamás hubieran visto la luz de no existir la apabullante capacidad de cálculo que facilitan los modernos ordenadores personales, tan basadas como están aquellas en el potencial de estos. En la actualidad, existe una amplia diversidad de software estadístico co- mercial con el que cubrir las necesidades que surgen en el ámbito de la in- vestigación cuantitativa en general y en las ciencias sociales en particular: SAS, SPSS, Stata, EViews, S-Plus, etc. En líneas generales, puede decirse que los programas existentes abarcan un abanico de contenidos muy amplio y son de una muy elevada calidad. De este modo, en una introducción a un manual como este, es imprescindible motivar las razones que hacen que el programa Rresulte aconsejable para muchos usuarios. En ese sentido, el rasgo principal a destacar en R es su condición de pro- ducto gratuito de código abierto. Efectivamente, el programa se puede des- cargar libremente de Internet en pocos minutos sin coste económico alguno y su condición de producto de código abierto permite que R crezca muy rá- pidamente, debido a múltiples contribuciones de usuarios del mismo desde cualquier parte del planeta. Cualquiera de esas contribuciones sobre un tema específico se puede instalar rápidamente, también de modo libre y gra- tuito. En cuanto a la calidad de R como producto, hay que decir que se trata de un programa plenamente competitivo en cuanto a flexibilidad, rapidez y prestaciones gráficas. Como muchos otros productos de código abierto, R se distribuye bajo licencia GNU GPL. Respecto a su sintaxis, cabe reseñar que es muy similar a la del programa S-Plus. También resulta parecida a la del programa de cálculo matemático general Matlab y su émulo gratuito Octave. Podría decirse que manifiesta incluso cierta parentela con C/C++, si bien es- tos últimos no son programas estadísticos. 003_13 Aju 000 Intro 29/4/13 08:55 Página 8 8 CUADERNOS METODOLÓGICOS 48 El objetivo de este manual es ofrecer al lector una introducción al manejo del paquete estadístico R. Dada la amplitud y la versatilidad del programa, la selección de contenidos ha tratado de apostar de modo claro por una orien- tación hacia las técnicas básicas utilizadas en la investigación cuantitativa en el terreno de las ciencias sociales. Hay que decir, no obstante, que la ma- yoría de los conceptos presentados son igualmente aplicables a otras disci- plinas. Históricamente, la génesis del proyecto R tuvo lugar en 1990, cuando los profesores Ross Ihaka y Robert Gentleman decidieron unir sus esfuerzos en el Departamento de Estadística de la Universidad de Auckland (Nueva Zelan- da) para crear un nuevo software estadístico. Para ello incorporaron la sinta- xis del software S-Plus, la versión comercial del software S y, dado que el nombre de ambos creadores comenzaba por R y que el lenguaje procedía del S, acordaron bautizar al nuevo lenguaje jocosamente como «R». En 1994 ve la luz la primera versión del programa, tomando como li- cencia la GNU de la Free Software Foundation. Para coordinar la atención al creciente número de usuarios del programa, se creó poco después el Comprehensive R Archive Network (CRAN), con sede en Viena, que conta- ba ya con un repositorio en el que almacenar las contribuciones libres al software que iban aflorando. También se funda el R-Core Team, un equipo de unas 20 personas encargadas de coordinar el desarrollo del programa, incluidas las múltiples contribuciones al mismo (paquetes con funciones específicas). En el año 2000 se lanza una versión de R con un aspecto ya similar al ac- tual. Eso sí, con muchos menos paquetes de los que ahora existen, puesto que dicho número ha crecido de modo muy notable en la última década y ya supera los 4.000. Estos paquetes son elaborados por multitud de profesiona- les ligados a la estadística y otras materias afines, en muchas ocasiones, per- tenecientes a la élite académica de la estadística mundial. Asimismo, el pro- grama está en la actualidad muy bien documentado, existiendo un número considerable de libros publicados sobre R, además de multitud de manuales de descarga gratuita por Internet. De hecho, cada paquete específico dispone de su propio manual de uso. El programa dispone ya de diversos modos de conexión con otro softwa- re, así como de algunas interfaces de usuario que permiten facilitar la ejecu- ción de algunas tareas. En particular, cuenta con una interfaz denominada R Commander, que permite el manejo, mediante los habituales menús de ven- tanas, de algunas de las funciones básicas del programa. Desafortunadamen- te, muchas otras tareas no pueden implementarse a través de R Commander y han de ser acometidas mediante código. No obstante, en aras de aprove- char las posibilidades ofrecidas por este interfaz, el libro ha optado por una doble orientación: los conceptos se exponen en primer lugar utilizando códi- go y, a continuación, siempre que sea posible, se explica el modo de lograr los mismos objetivos utilizando R Commander. 003_13 Aju 000 Intro 29/4/13 08:55 Página 9 EL PAQUETE ESTADÍSTICO R 9 En cuanto a la estructura del libro, hay que comenzar reseñando que, a lo largo del mismo, la teoría estadística que subyace a las técnicas en él conte- nidas solo es introducida en la medida en que resulta necesaria como refe- rencia para denotar y explicar los procedimientos. En todos los capítulos se han incluido, sin embargo, referencias bibliográficas que el lector que preci- se una introducción teórica a ciertos conceptos puede utilizar. La concepción del manual es eminentemente práctica, hasta el punto de que el texto incluye absolutamente todo el código que se va utilizando, con el objetivo de que el lector no se pierda en ningún momento y pueda replicar perfectamente cada una de las técnicas descritas. De modo adicional, la inte- gridad del código utilizado tanto en la exposición teórica de los temas como el preciso para resolver los ejercicios propuestos al final de cada capítulo se halla disponible entre la documentación digital del libro, accesible en la web. En cuanto a los datos utilizados en los ejemplos y ejercicios del texto, se ha decidido trabajar a lo largo de todo el libro de modo reiterado con unos conjuntos escogidos de información (en particular, ciertas variables del estu- dio 2815 del CIS). Estos datos, que abarcan una casuística suficiente para los fines pedagógicos de la obra, permiten al lector alcanzar un mayor grado de familiaridad con los mismos, lo que es muy de agradecer en una primera fase de aprendizaje de un lenguaje estadístico, árida por naturaleza. Tam- bién simplifican la tarea de descarga de la información necesaria para poder seguir el texto. El cuaderno no presupone ningún conocimiento previo de R. Por lo tanto, comienza con un capítulo que trata de servir de guía y apoyo al lector para sus primeros pasos con el programa, incluyendo su instalación y el manejo de sus funcionalidades básicas. También se ha considerado conveniente in- cluir aquí una introducción al tratamiento de vectores y matrices con R. La razón para ello es doble: por una parte, el captar cuanto antes el modo en que el programa trata estos elementos resulta crucial para llegar a alcanzar una cierta soltura con R; por otro lado, resultaba necesario elegir algún tema que sirviera de excusa para comenzar a explicar el modo de trabajar con el programa, para echar a andar con R. Se podría argumentar que, previamente a la mencionada introducción al modo de operar elemental en R, habría sido deseable incluir un capítulo de- dicado a la lectura y escritura de ficheros desde R. Sin embargo, hemos con- siderado más conveniente comenzar mostrando el modo de operar con pe- queños conjuntos de información en un entorno aislado, sin lectura de datos externos para, una vez iniciados en estas técnicas, proseguir con el capítulo 2, en el que se tratan de modo muy detallado los modos de importar y exportar con R información desde múltiples plataformas. Es decir, primero se estudia el modo de manejarnos en la isla de modo incomunicado y, a continuación, cómo traer y llevar la información a dicha isla. Una vez ya familiarizados con las vías que ofrece R para intercambiar in- formación en otros formatos, llega el momento de aprender a disponer los
Description: