ebook img

Learn RStudio IDE: Quick, Effective, and Productive Data Science PDF

157 Pages·2019·6.9 MB·English
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Learn RStudio IDE: Quick, Effective, and Productive Data Science

Learn RStudio IDE Quick, Effective, and Productive Data Science — Matthew Campbell Learn RStudio IDE Quick, Ef fective, and Productive Data Science Matthew Campbell Learn RStudio IDE: Quick, Ef fective, and Productive Data Science Matthew Campbell Yardley, PA, USA ISBN-13 (pbk): 978-1-4842-4510-1 ISBN-13 (electronic): 978-1-4842-4511-8 https://doi.org/10.1007/978-1-4842-4511-8 Copyright © 2019 by Matthew Campbell This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafter developed. Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the trademark. The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to proprietary rights. While the advice and information in this book are believed to be true and accurate at the date of publication, neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher makes no warranty, express or implied, with respect to the material contained herein. Managing Director, Apress Media LLC: Welmoed Spahr Acquisitions Editor: Steve Anglin Development Editor: Matthew Moodie Coordinating Editor: Mark Powers Cover designed by eStudioCalamar Cover image designed by Freepik (www.freepik.com) Distributed to the book trade worldwide by Springer Science+Business Media New York, 233 Spring Street, 6th Floor, New York, NY 10013. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail [email protected], or visit www.springeronline.com. Apress Media, LLC is a California LLC and the sole member (owner) is Springer Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation. For information on translations, please e-mail [email protected]; for reprint, paperback, or audio rights, please email [email protected]. Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and licenses are also available for most titles. For more information, reference our Print and eBook Bulk Sales web page at http://www.apress.com/bulk-sales. Any source code or other supplementary material referenced by the author in this book is available to readers on GitHub via the book’s product page, located at www.apress.com/9781484245101. For more detailed information, please visit http://www.apress.com/source-code. Printed on acid-free paper Table of Contents About the Author ��������������������������������������������������������������������������������vii About the Technical Reviewer �������������������������������������������������������������ix Chapter 1: Installing RStudio ����������������������������������������������������������������1 Install R �����������������������������������������������������������������������������������������������������������������1 Installing R on Mac ������������������������������������������������������������������������������������������3 Installing R on Windows ����������������������������������������������������������������������������������7 Installing R on Linux ����������������������������������������������������������������������������������������8 Install Git ���������������������������������������������������������������������������������������������������������9 Install RStudio �����������������������������������������������������������������������������������������������11 Chapter 2: Hello World ������������������������������������������������������������������������15 Interactive R Console ������������������������������������������������������������������������������������������15 Vectors �����������������������������������������������������������������������������������������������������������16 Hello World ����������������������������������������������������������������������������������������������������16 Terminal ���������������������������������������������������������������������������������������������������������18 Environment ��������������������������������������������������������������������������������������������������19 Importing Data �����������������������������������������������������������������������������������������������21 Datasets ��������������������������������������������������������������������������������������������������������22 History �����������������������������������������������������������������������������������������������������������26 Connections ���������������������������������������������������������������������������������������������������27 Conclusion ����������������������������������������������������������������������������������������������������������27 iii TTaabbllee ooff CCoonnTTeennTTss Chapter 3: RStudio Views ����������������������������������������������������������������� 29 Files, Plots, Packages, Help, and Viewer Pane ����������������������������������������������������29 Files ���������������������������������������������������������������������������������������������������������������29 Plots ���������������������������������������������������������������������������������������������������������������30 Packages �������������������������������������������������������������������������������������������������������34 Help ���������������������������������������������������������������������������������������������������������������37 Viewer �����������������������������������������������������������������������������������������������������������38 Conclusion ����������������������������������������������������������������������������������������������������������38 Chapter 4: RStudio Projects ����������������������������������������������������������������39 Create a New RStudio Project �����������������������������������������������������������������������������39 Project Types �������������������������������������������������������������������������������������������������41 RStudio Project Tour ��������������������������������������������������������������������������������������43 Conclusion ����������������������������������������������������������������������������������������������������������48 Chapter 5: Repeatable Analysis ����������������������������������������������������������49 Organizing Datasets ��������������������������������������������������������������������������������������������49 Download Life Expectancy Data ��������������������������������������������������������������������50 Add Dataset to R Project ��������������������������������������������������������������������������������51 R Code Files ��������������������������������������������������������������������������������������������������������54 Data Exploration ��������������������������������������������������������������������������������������������������57 Summarizing Dataframes ������������������������������������������������������������������������������57 Conclusion ����������������������������������������������������������������������������������������������������������61 Chapter 6: Essential R Packages: Tidyverse ���������������������������������������63 R Packages ���������������������������������������������������������������������������������������������������������63 Tidyverse �������������������������������������������������������������������������������������������������������������64 magrittr ���������������������������������������������������������������������������������������������������������������64 iv TTaabbllee ooff CCoonnTTeennTTss tibble �������������������������������������������������������������������������������������������������������������������66 dplyr ��������������������������������������������������������������������������������������������������������������������67 SQL Like Joins �����������������������������������������������������������������������������������������������69 stringr �����������������������������������������������������������������������������������������������������������������71 Conclusion ����������������������������������������������������������������������������������������������������������72 Chapter 7: Data Visualization �������������������������������������������������������������73 ggplot2 ����������������������������������������������������������������������������������������������������������������73 htmlwidgets ��������������������������������������������������������������������������������������������������������79 r2d3 ���������������������������������������������������������������������������������������������������������������������82 Conclusion ����������������������������������������������������������������������������������������������������������85 Chapter 8: R Markdown ����������������������������������������������������������������������87 R Markdown Documents �������������������������������������������������������������������������������������87 R Markdown Example �����������������������������������������������������������������������������������������92 R Markdown Reproducibility �������������������������������������������������������������������������94 Conclusion ����������������������������������������������������������������������������������������������������������97 Chapter 9: Shiny R Dashboards ����������������������������������������������������������99 New Shiny Apps ��������������������������������������������������������������������������������������������������99 Understanding Shiny �����������������������������������������������������������������������������������������102 User Interface ����������������������������������������������������������������������������������������������102 Server ����������������������������������������������������������������������������������������������������������106 App ��������������������������������������������������������������������������������������������������������������107 Customizing Shiny Apps ������������������������������������������������������������������������������108 Conclusion ��������������������������������������������������������������������������������������������������������112 v TTaabbllee ooff CCoonnTTeennTTss Chapter 10: Custom R Packages�������������������������������������������������������113 Custom R Packages Use Cases �������������������������������������������������������������������������113 Create New Custom R Package ������������������������������������������������������������������������114 hello�R ����������������������������������������������������������������������������������������������������������115 DESCRIPTION �����������������������������������������������������������������������������������������������116 hello�Rd ��������������������������������������������������������������������������������������������������������117 Build R Package ������������������������������������������������������������������������������������������117 R Package Documentation ��������������������������������������������������������������������������118 Adding Datasets to R Packages �������������������������������������������������������������������122 Code Completion �����������������������������������������������������������������������������������������124 Conclusion ��������������������������������������������������������������������������������������������������������124 Chapter 11: Code Tools ���������������������������������������������������������������������125 Source Control Integration ��������������������������������������������������������������������������������125 Setup Git ������������������������������������������������������������������������������������������������������126 Debugger ����������������������������������������������������������������������������������������������������������133 More Code Tools ������������������������������������������������������������������������������������������������135 Conclusion ��������������������������������������������������������������������������������������������������������136 Chapter 12: R Programming �������������������������������������������������������������137 Objects ��������������������������������������������������������������������������������������������������������������137 Essential Class Types�����������������������������������������������������������������������������������138 Flow Control ������������������������������������������������������������������������������������������������142 Functions �����������������������������������������������������������������������������������������������������146 Importing JSON Data �����������������������������������������������������������������������������������147 Conclusion ��������������������������������������������������������������������������������������������������������149 Index �������������������������������������������������������������������������������������������������151 vi About the Author Matthew Campbell is a research data analyst who has worked on data problems in educational psychology, psychometrics and other research areas for over 15 years. Matt is passionate about technology which he uses to create stories with data, find insights that inform analysis and solves problems for businesses. He received his Masters in Management of Information Systems from the University of Phoenix and Bachelors in Psychology from Pennsylvania State University. Matt has authored 4 books on mobile app development, lead coding bootcamps and worked on various large-scale research projects. vii About the Technical Reviewer Dr. Prachee Chaturvedi is Data Scientist and Digital Strategy Lead in Regulatory, R&D, in Bayer and was a member of Monsanto’s Leadership Development Program. She received her PhD in Biological Engineering from University of Florida, Gainesville, FL, and Bachelors in Mechanical Engineering from HBTI, Kanpur, India. Currently, Prachee is focused on establishing comprehensive digital strategy for Regulatory Sciences and developing digital tools for automated and on-demand analysis for Regulatory Safety Data Submission at Bayer Crop Science R&D. She has authored 15 scientific publications, 2 book chapters, and led various cross functional scientific projects. ix CHAPTER 1 Installing RStudio RStudio is an integrated development environment (IDE) that adds modern features like syntax highlighting and code refactoring to R. The strength of RStudio is that it brings all the features that you need together in one place. Before we install RStudio, we will need to install the latest version of R for our operating system as well as another program called git. Both of these software packages are integrated into RStudio, but they do not come with the RStudio IDE. R is a statistical programming language and we need this language to use RStudio. Git is a popular version control system that will be integrated into RStudio. Version control systems like git are used to manage copies of the code you are working on. Git helps you see the differences between versions of a file so that you can get insight into why one version of your code behaves differently than another version. Git is also required to use Github, an online community where programmers share code and projects. I nstall R R is a free open source software used for statistical programming and graphics. You can get the latest version of R from CRAN, the Comprehensive R Network. This is a network of mirrored servers that have copies of R as well as R packages. R packages are extensions to the core R programming language contributed by R users in the community. © Matthew Campbell 2019 1 M. Campbell, Learn RStudio IDE, https://doi.org/10.1007/978-1-4842-4511-8_1

Description:
Discover how to use the popular RStudio IDE as a professional tool that includes code refactoring support, debugging, and Git version control integration. This book gives you a tour of RStudio and shows you how it helps you do exploratory data analysis; build data visualizations with ggplot; and cre
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.