ALEXANDRA MARIA RIOS aplicação de bootstrap para teste de CABRAL* durbin-watson - uma contribuição para ISIS DIDIER LINS** cenários na economia * Professora da Universidade Federal de Alagoas e aluna de doutorado do Pro- grama de Pós-Gradu- ação em Engenharia de Produção da Universidade Federal de Pernambuco. ** Aluna de douto- rado do Programa de Pós-Graduação em Engenharia de Produção da Universidade Federal de Pernambuco. RESUMO Em economia, trabalhar com modelos de regressão linear clássicos com o intuito de investigar comportamentos sejam macroeconômicos ou microeconômicos é algo bastante comum de se encontrar. Entretanto, dada as várias as suposições que devem ser atendidas ao se utilizar este método, e dada à natureza de algumas variáveis econômicas, é comum se violar uma ou mais hipóteses. Para diagnosticar a presença de erros autocorrelacionados, o teste de Durbin-Watson é o mais usado, porém apresenta a limitação de não fornecer valores críticos exatos para a distribuição de probabilidade de sua estatística de teste, tornando-se inconclusivo em determinados casos. Com o intuito de fornecer uma solução para esta limitação, propõem-se dois algoritmos bootstrap. Um deles pode ser aplicado em situações onde se pode afirmar que os erros “bem comportados” seguem uma distribuição normal com média zero e variância (bootstrap paramétrico). O outro, por sua vez, não requer qualquer suposição sobre a sua distribuição (bootstrap não-paramétrico). Os algoritmos propostos são aplicados a dois ex- emplos práticos e são obtidos, para cada um deles, os valores críticos exatos da distribuição da estatística de Durbin-Watson para os níveis de significância de 1%, 5% e 10%, bem como o formato resultante da densidade de probabilidade empírica. PALAVRAS-CHAVE teste de Durbin-Watson, bootstrap paramétrico, bootstrap não- paramétrico. ABSTRACT In economics, working with classical linear regression models in order to investigate macroeconomic or microeconomic behaviors is very common. However, given the various assumptions that should be satisfied when using this method, and given the nature of some economic variables, it is usual to violate one or more assumptions. To diagnose the presence of autocorrelated errors, the Durbin-Watson is the most used. However, it shows the limitation of not providing exact critical values for the probability distribution of its test statistic, becoming, in certain cases, inconclusive. In order to provide a solu- tion to this limitation, two bootstrap schemes are proposed. One of them can be used when the “well behaved” errors follow a normal distribution with zero mean and variance (parametric bootstrap). The other one does not require any suppositions about their probability distribution (non-parametric bootstrap). The proposed algorithms are applied to two examples. For both of them, the exact critical values of the Durbin-Watson distribution for the significance levels 1%, 5% and 10% are obtained as well as the shape of the resulting empirical probability density. KEY WORDS Durbin-Watson test, parametric bootstrap, non-parametric bootstrap. INTRODUÇÃO Em economia, trabalhar com modelos de regressão linear clássicos com o intuito de investigar comportamentos sejam macroeconômicos ou microeconômicos é algo bastante comum de se encontrar. Entretanto, são várias as suposições que devem ser atendidas antes de se escolher um modelo econométrico que seja eficiente tanto sob a ótica econômica quanto sob os padrões estatísticos necessários ao se usar, por exemplo, o método dos mínimos quadrados ordinários. Dentre as várias hipóteses a serem atendidas, tem-se uma que é a de que os erros gerados por uma regressão deveriam ser não autocorrela- cionados. Quando isso não acontece, torna-se inviável manter o modelo econométrico inicialmente adotado já que os estimadores passam a ser não eficientes, o que obrigaria o pesquisador a realizar alguns ajustes para obter resultados estatisticamente confiáveis. Existem várias causas que podem gerar erros autocorrelacionados, na sua grande maioria encontrados apenas em séries temporais. Uma delas seria a influência prolongada de choques na economia onde os seus efeitos se prolongariam por mais de um período de tempo. Greves, catástrofes ambientais ou até mesmo guerras, provavelmente afetariam a economia de uma localidade em períodos seguintes o que contribuiria para o apare- cimento de erros autocorrelacionados. O fator inercial é outra importante causa. Comportamentos anteri- ores podem continuar a exercer grandes influências na economia podendo- se citar a inflação brasileira antes da implantação do plano de estabilização econômica do Real. Ou ainda, choques aleatórios que afetem a atividade econômica de uma região que podem fazer que com que a atividade econômica de uma ou mais localidades próximas sofram impactos devidos aos vín- culos econômicos entre elas. Este raciocínio pode ser estendido a pólos industriais que possuem um grande efeito multiplicador e terminam por abranger mais de um município. O pólo fabril de Pernambuco pode ser citado como exemplo. A não inclusão de variáveis importantes no modelo, ou uma má especificação do modelo a ser trabalhado são outras fortes causas do aparecimento de erros autocorrelacionados. De forma alguma poderia Economia política do desenvolvimento 71 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 se esquecer de incluir a taxa de desemprego num modelo que tentasse explicar a oferta de mão-de-obra de uma região; ou tentar explicar como os investimentos se comportaram ao longo de um período de tempo sem considerar o efeito do PIB e da taxa de juros na mesma época. Evitar a todo custo interpolações ou suavizações nos dados também é muito importante. Nesste contexto, o teste mais famoso para identificar a presença de erros autocorrelacionados, segundo Gujarati (2006), é o de Durbin-Watson. Este teste é amplamente utilizado em modelos econômicos mas nem sempre fornece uma resposta por possuir uma região chamada de “inconclusiva” onde não se pode afirmar se existe ou não uma autocorrelação serial. Assim sendo, este trabalho tem como objetivo propor uma solução para essa limitação, o que acontece quando o valor calculado para a estatís- tica de teste pertence ao intervalo formado pelos valores limites inferiores e superiores desta distribuição (zona de inconclusão). Para tanto, propõem-se dois algoritmos bootstrap. Um deles pode ser aplicado em situações onde se pode afirmar que os erros “bem comporta- dos” (ε =e −ρe ) seguem de fato uma distribuição de probabilidade t t t−1 normal com média zero e variância σ2 (bootstrap paramétrico). O outro, por sua vez, não requer hipótese sobre a distribuição de probabilidade de εt (bootstrap não-paramétrico). O uso de algoritmos bootstrap vem se tornando uma importante ferramenta bastante utilizada por pesquisadores pois é uma alternativa eficiente que em muitas vezes leva a resultados muito mais precisos do que as abordagens tradicionais são capazes de fazê-lo. Isto acontece porque em muitos casos, a inferência sobre as distribuições sugeridas pela teoria assintótica só valem para amostras de tamanho infinitamente grande (o que nem sempre é o que se tem à disposição). Com a técnica bootstrap, as estimativas de parâmetros e estatísticas de teste são calculados de forma bastante convencional, mas os valores dos níveis de significância, valor-p e intervalos de confiança são calculados com base em distribuições obtidas por simulação, e não mais baseados na teoria assintótica, o que poderia ser de pouca credibilidade para pequenas amostras. Mackinnon (2002) cita como um exemplo disto o teste J, comu- mente utilizado em modelos de regressão não aninhados, que rejeita a hipótese nula com demasiada frequência. Em casos extremos, até mesmo para amostras de tamanhos tão grandes quanto 50 observações, um teste Economia política do desenvolvimento 72 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 assintótico J ao nível de 0,05 poderia rejeitar uma hipótese nula verdadeira mais de 80% das vezes. Sendo assim, uma das razões para a utilização de testes bootstrap ao invés de testes assintóticos é que se espera cometer pequenos erros na probabilidade de rejeição de uma estatística ao fazê-lo. Este texto está dividido em 5 seções incluindo esta introdução. A seção 2 contém uma descrição sobre o teste de Durbin-Watson; a seção 3 descreve os passos utilizados para a montagem dos algoritmos a que se propõe, bem como as rotinas preparadas na plataforma computacional do software R (R Development Core Team, 2010); a seção 4 traz dois exemplos econômicos em que os algoritmos propostos foram utilizados. Por fim, a seção 5 fornece alguns comentários finais. TESTE DE DURBIN-WATSON Para a introdução do teste de Durbin-Watson, considere o seguinte modelo de regressão linear: y =β +β x +....+β x +e , t =1, 2, ... , T (1) t 1 2 t2 k tk t em que T é o número de observações, K é o número de parâmetros no modelo et são os erros gerados segundo um modelo autorregressivo de primeira ordem (AR(1)): (ε =e −ρe ) t t t−1 (2) em que ρ é a correlação entre erros vizinhos no tempo (−1<ρ<1 ) et são os erros “bem comportados”, ou seja, tratam-se de erros aleatórios, independentes, com distribuição normal com média 0 e variância σ2. A su- posição de normalidade é importante para a dedução das distribuições lim- ites inferior e superior da estatística de teste de Durbin-Watson (HILL, 2003). Enfatiza-se a importância do processo AR(1) para geração dos ter- mos et. Se outro tipo de processo autorregressivo, que não o de primeira ordem, gera os erros et, não se pode aplicar o teste em questão. Além disso, o modelo de regressão não pode apresentar como Re- gressores valores defasados da variável resposta, uma vez que é necessária a hipótese de variáveis explicativas não-estocásticas para a realização do teste Economia política do desenvolvimento 73 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 de Durbin-Watson. Quando existem Regressores correspondentes a valores defasados da variável resposta ou para qualquer caso em que o erro esteja correlacionado a um Regressão r o teste de Durbin-Watson não é confiável. Como alternativa pode-se utilizar o teste h de Durbin (KENNEDY, 2009). Outro pressuposto importante é a presença de observações para todos os períodos considerados. Por exemplo, se os dados são bimestrais para um período de 3 anos, a base de dados deve apresentar um total de 18 observações, uma para cada bimestre. Caso haja a omissão de algum dado, o teste não é capaz de detectar autocorrelação serial de primeira ordem de maneira confiável. As hipóteses envolvidas no teste de Durbin-Watson são: H :ρ=0 vs. H :ρ>0 0 1 (3) quando a hipótese alternativa refere-se à autocorrelação positiva e H :ρ=0 vs. H :ρ<0 (4) 0 1 quando se quer avaliar autorrelações negativas. Em ambos os casos, a hipótese nula está relacionada à ausência de autocorrelação serial dos erros. A estatística de teste de Durbin-Watson é: ∑T (eˆ −eˆ )2 d = t=2 t t−1 (5) ∑T eˆ2 t=1 t ou em notação matricial eˆ'Aeˆ d = (6) eˆeˆ Economia política do desenvolvimento 74 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 em que (7) 1 −1 0 0 ... 0 0 −1 2 −1 0 ... 0 0 0 −1 2 −1 ... 0 0 A= 0 0 0 0 ... 2 −1 0 0 0 0 ... −1 1 A distribuição de d para amostras finitas depende dos Regressores. Dessa forma, é comum utilizar tabelas que fornecem apenas intervalos para os valores críticos determinados pelas distribuições limites inferior e su- perior d e d , respectivamente. Quando o valor calculado de d pertencer L U aos intervalos [d ,d ] ou [4−d ,4−d ], torna-se impossível decidir L U U L c c c c sobre a rejeição ou não da hipótese nula de não-autocorrelação dos erros (zona de indecisão). A autocorrelação amostral ρˆ é definida por: ∑T eˆ eˆ ρˆ = t=2 t t−1 (8) ∑T eˆ2 t=1 t Como ∑T eˆ2 e ∑T eˆ2 diferem em apenas uma observação, os so- t=1 t t=2 t−1 matórios são aproximadamente iguais (GUJARATI, 2006). Portanto, pode- se reescrever a estatística d (Equação (5)) em função de ρˆ (Equação (8)): d ≈ 2 (1 − ρˆ ) (9) Da Equação (9), se ρˆ = −1 (autocorrelação negativa perfeita), então d = 4; se ρˆ = 1 (autocorrelação positiva perfeita), então d = 0; se ρˆ = 0 (ausência de autocorrelação), então d = 2. Dessa maneira, as decisões a seguir são pos- síveis para os testes de autocorrelação positiva e negativa, respectivamente: Economia política do desenvolvimento 75 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 H :ρ=0 vs. H :ρ>0; calcular d e 0 1 rejeitar H , se d < d ; 0 L c não rejeitar H , se d > d ; (10) 0 U c inconclusivo , se d < d < d . L U c c H :ρ=0 vs. H :ρ<0; calcular d e 0 1 rejeitar H , se d > 4−d ; 0 L c não rejeitar H , se d < 4−d ; (11) 0 U c inconclusivo , se 4-d < d < 4−d . U L c c BOOTSTRAP PARA TESTE DE DURBIN-WATSON Foram propostos dois algoritmos bootstrap para realização do teste de Durbin-Watson, um paramétrico e outro não-paramétrico. A descrição de cada uma das versões bem como as respectivas rotinas implementadas no R são apresentadas nas próximas duas subseções. ALGORITMO BOOTSTRAP PARAMÉTRICO PARA TESTE DE DURBIN-WATSON Na versão paramétrica do algoritmo bootstrap, é necessária a su- posição de normalidade dos erros “bem comportados” εt. O modelo es- timado com os dados originais fornece valores ajustados para a variável resposta, a variância estimada dos erros σˆ2 e a estatística de Durbin-Watson d . Então, a partir dos valores ajustados e de erros gerados segundo uma 0 distribuição normal com média 0 e variância σˆ2, constroem-se B vetores de valores simulados para y, em que B é o número de iterações bootstrap. Em seguida, realizam-se B regressões dos y’s simulados sobre as variáveis independentes e, para cada uma delas, obtém-se o valor da estatística de Economia política do desenvolvimento 76 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 Durbin-Watsondi, d i=1, 2, …, B. Assim, d ,d ,d ,...,d permitem con- i’ 0 1 2 B struir uma densidade de probabilidade empírica (sobH ) da estatística de 0 Durbin-Watson para o caso analisado. Portanto, torna-se fácil a obtenção de valores críticos exatos, podendo-se proceder à rejeição ou não da hipó- tese nula. É importante enfatizar que, ao se adotar um algoritmo bootstrap para o teste de Durbin-Watson, não há o risco de inconclusão. A rotina do algoritmo bootstrap paramétrico implementado no R é mostrada a seguir. ############################################################ ##### PROGRAMA: Algoritmo bootstrap paramétrico para teste de Durbin-Watson ##### ##### para autocorrelação de primeira ordem dos erros ##### ##### AUTORAS: Alexandra Maria Rios Cabral e Isis Didier Lins ##### ### ## DATA: 21/12/2010 ##### ############################################################################ Suposições: (1) Regressores não-estocásticos. # (2) Termos de erro (e(t)) gerados unicamente por processo AR(1). # (3) Erros “bem comportados” (epsilon(t)) normalmente distribudos # com média 0 e variância constante. # (4) Conjunto de dados completo, não há períodos sem observação. # (5) Estimação da distribuição de probabilidade empírica da # estatística de teste de Durbin-Watson sob H0 (rho = 0). # Bibliotecas require(lmtest) require(stats) # Dados dados = read.table(“c:\\dados.txt”, header = TRUE) # Leitura de arquivo attach(dados) T = length(dados[,1]) # Número de observações J = length(dados[1,]) # Número de colunas de dados x = as.matrix(cbind(dados[,2:J])) # Matriz de Regressores Economia política do desenvolvimento 77 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011 X = as.matrix(cbind(1,x)) # Matriz X com coluna referente ao intercepto y = as.matrix(dados[,1]) # Variável resposta T = length(x[,1]) # Número de observações # Regressão linear ajuste = lm(y~x) # Estimação do modelo por MQO b = coef(ajuste) # Estimativas dos parâmetros do ajuste por MQO K = length(b) # Número de parâmetros do modelo e = as.matrix(residuals(ajuste)) # Resíduos do ajuste # Gráfico de dispersão dos resíduos plot(e, col = “red”, pch = 21, bg = “red”, xlab = “Observação”, ylab = “Resíduo”) abline(0,0) lines(e, lty = 2, lwd = 1.5, col = “green”) # Grficos ACF par(mfrow = c(1,2), pty = “s”) acf(e, main = “Função de autocorrelação”) acf(diff(e), main = “Função de autocorrelação (primeira diferença)”) # Montagem da matriz A A = matrix(0, nrow = T, ncol = T) A[1,1] = 1; A[1,2] = -1; A[T,T-1] = -1; A[T,T] = 1; for (t in 3:T-1) { A[t,t-1] = -1 A[t,t] = 2 A[t,t+1] = -1 } B = 9999 # Número de simulações bootstrap d0 = (t(e) %*% A %*% e)/(t(e) %*% e) # Estatística de Durbin-Watson para ajuste D = rbind(d0) # Vetor D que conterá B+1 estatísticas de Durbin-Watson Economia política do desenvolvimento 78 Maceió, vol. 4, n. 12, p. 69-90, set./dez. 2011
Description: