ebook img

Ciência de Dados com R Introdução PDF

198 Pages·2018·41.353 MB·Portuguese
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Ciência de Dados com R Introdução

Ciência de Dados com R – Introdução Ciência de Dados com R Introdução autores Paulo Felipe de Oliveira Saulo Guerra Robert McDonnell Brasília | 2018 IBPAD – Instituto Brasileiro de Pesquisa e Análise Dados Ciência de Dados com R – Introdução IBPAD -Instituto Brasileiro de Autores Capa Pesquisa e Análise de Dados Paulo Felipe de Oliveira Aline Regis Expediente IBPAD Saulo Guerra Robert McDonnell Revisão www.ibpad.com.br Toni Moraes Deborah Celentano Catalogação na Publicação (CIP) Ficha Catalográfica feita pelo autor O48c Oliveira, Paulo Felipe de [et al.], 1986 – Ciência de dados com R: Introdução / Paulo Felipe de Oliveira, Saulo Guerra, Robert McDonnell –Brasília: Editora IBPAD, 2018. 240p. ISBN: 978-85-54230-00-5 1. Ciência de Dados. 2. Análise Estatística. 1. Título. CDD: 020 CDU: 519.2 IBPAD – Instituto Brasileiro de Pesquisa e Análise Dados 8 CONTEÚDO Instalação do R O R e RStudio são inteiramente gratuitos e já vêm com distribuições compiladas para Windows, Mac e Linux. A instalação é bastante fácil e em geral você apenas tem que seguir as instruções da tela. Para instalar o R, baixe a versão adequada para seu computador em: https://cloud.r-project.org/ Para instalar o RStudio, baixe a versão adequada para seu computador em: https://www.rstudio.com/ products/rstudio/download/ Download Aolongodolivroserá mencionadodiversosarquivosparaos exercícioseexemplos. Eles podemserbaixados aqui: http://cdr.ibpad.com.br/dados.zip O PDF do livro pode ser baixado aqui. Como citar: OLIVEIRA,PauloFelipede;GUERRA,Saulo;MCDONNEL,Robert. CiênciadeDadoscomR–Introdução. Brasília: Editora IBPAD, 2018. Capítulo 1 Introdução 1.1 O que é Ciência de Dados? Trata-se de um termo cada vez mais utilizado para designar uma área de conhecimento voltada para o estudo e a análise de dados, onde busca-se extrair conhecimento e criar novas informações. É uma atividade interdisciplinar, que concilia principalmente duas grandes áreas: Ciência da Computação e Estatística. A Ciência de Dados vem sendo aplicada como apoio em diferentes outras áreas de conhecimento, tais como: Medicina, Biologia, Economia, Comunicação, Ciências Políticas etc. Apesar de não ser uma área nova, o tema vem se popularizando cada vez mais, graças à explosão na produção de dados e crescente dependência dos dados para a tomada de decisão. 1.2 Workflow da Ciência de Dados Não existe apenas uma forma de estruturar e aplicar os conhecimentos da Ciência de Dados. A forma de aplicação varia bastante conforme a necessidade do projeto ou do objetivo que se busca alcançar. Neste curso, usaremos um modelo de workflow bastante utilizado, apresentado no livro R for Data Science (Ha- dley Wickham, 2017). Esse workflow propõe basicamente os seguintes passos: Figura 1.1: Workflow básico para ciência de dados 9 10 CAPÍTULO 1. INTRODUÇÃO • Carregar os dados; • Limpar os dados; • Transformar, visualizar e modelar (fase exploratória); • Comunicar o resultado. 1.3 Linguagens para Ciência de dados Para a aplicação dessas atividades comuns da Ciência de Dados, é necessário dominar-se as ferramentas corretas. Existem diversas linguagens/ferramentas: R, Python, SAS, SQL, Matlab, Stata, Aplicações de BI etc. Cabe ao cientista de dados avaliar qual é a ferramenta mais adequada para alcançar seus objetivos. 1.4 O que é R e por que devo aprendê-lo? R é uma linguagem de programação estatística que vem passando por diversas evoluções e se tornando cada vezmaisumalinguagemdeamplosobjetivos. PodemosentenderoRtambémcomoumconjuntodepacotes eferramentasestatísticas, munidodefunçõesquefacilitamsuautilização, desdeacriaçãodesimplesrotinas até análises de dados complexas, com visualizações bem acabadas. Segue alguns motivos para aprender-se R: • É completamente gratuito e de livre distribuição; • Curva de aprendizado bastante amigável, sendo muito fácil de se aprender; • Enorme quantidade de tutoriais e ajuda disponíveis gratuitamente na internet; • É excelente para criar rotinas e sistematizar tarefas repetitivas; • Amplamente utilizado pela comunidade acadêmica e pelo mercado; • Quantidade enorme de pacotes, para diversos tipos de necessidades; • Ótima ferramenta para criar relatórios e gráficos. Apenas para exemplificar-se sua versatilidade, este eBook e os slides das aulas foram todos feitos em R. 1.5 RStudio ORpuroseapresentacomoumasimples“telapreta”comumalinhaparainserircomandos. Issoébastante assustadorpara quem está começando e bastanteimprodutivopara quem jáfaz uso intensivoda ferramenta. Felizmente existe o RStudio, ferramenta auxiliar que usaremos durante todo o curso. EntendaoRStudiocomoumainterfacegráficacomdiversasfuncionalidadesquemelhoramaindamaisouso e aprendizado do R. Na prática, o RStudio facilita muito o dia a dia de trabalho. Portanto, desde já, ao falarmos em R, falaremos automaticamente no RStudio. Essa é a “cara” do RStudio: Repare que, além da barra de menu superior, o RStudio é divido em quatro partes principais: 1. Editor de Código Noeditordecódigo,vocêpoderáescrevereeditarosscripts. Scriptnadamaisédoqueumasequência decomandos/ordensqueserãoexecutadosemsequênciapeloR.OeditordoRStudiooferecefacilidades comoorganizaçãodoscomandos,“auto-complete”decomandos,destaquedasintaxedoscomandosetc. Provavelmente é a parte que mais utilizaremos. 1.5. RSTUDIO 11 Figura 1.2: RStudio se divide em 4 partes 2. Console É no console que o R mostrará a maioria dos resultados dos comandos. Também é possível escrever os comandos diretamente no console, sem o uso do editor de código. É muito utilizado para testes e experimentos rápidos. Um uso rápido do console é, por exemplo, chamar a ajuda do R usando o comando ? (isso mesmo, a interrogação é um comando!). Voltaremos a falar deste comando ? em breve. 3. Environment e History No Environment ficarão guardados todos os objetos que forem criados na sessão do R. Entenda sessão como o espaço de tempo entre o momento em que você inicia o R e o momento em que finaliza. Neste período,tudoquevocêfazusamemóriaRAMeoprocessadordocomputador. EnaabaHistory,como você deve imaginar, o RStudio cria um histórico de comandos utilizados. 4. Files, Plots, Packages, Help e Viewer. Nesta janela, estão várias funcionalidades do RStudio. Na aba Files, você terá uma navegação de arquivos do seu computador. Também será possível definir o diretório de trabalho (você também pode definir diretamente no código, mas isto será tratado posteriormente), ou seja, o R entende o seu diretório de trabalho como ponto de partida para localizar arquivos que sejam chamados no script. 4.1 Aba Plots A aba Plots trará os gráficos gerados, possibilitando a exportação para alguns formatos diferentes, como .png e .pdf. 4.2 Aba Packages Em Packages estão listados os pacotes instalados. Você pode verificar quais estão carregados e, caso neces- sário, poderá carregar algum pacote necessário para a sua análise. Também é possível instalar e atualizar pacotes. Novamente, tudo isto é possível fazer diretamente no código. 4.3 Aba Help O nome já diz tudo. Esta aba será bastante utilizada por você. Saber usar o help é fundamental para evitar

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.