Guide d’économétrie appliquée pour Stata Pour ECN 3950 et FAS 3900 août 2005 par Estelle Ouellet avec l’apport de Isabelle Belley-Ferris et Simon Leblond Université de Montréal Merci à Ghislaine Geoffrion, Linda Lee et François Vaillancourt pour leurs précieux conseils économétriques. Table des matières PRÉFACE.....................................................................................................................................................2 1 EXTRACTION DE DONNÉES...............................................................................................................4 1.1 LES DONNÉES........................................................................................................................................4 1.2 LES DIVERS SYSTÈMES D’EXTRACTION DE DONNÉES............................................................................6 1.2.1 Sherlock.......................................................................................................................................7 1.2.2 Cansim.........................................................................................................................................9 1.2.3 ICSPR.........................................................................................................................................11 1.3 CONVERTIR DES FICHIERS POUR STATA.............................................................................................13 2 LE TRAITEMENT DES DONNÉES.....................................................................................................16 2.1 RAPPEL DE NOTIONS THÉORIQUES D’ÉCONOMÉTRIE...........................................................................16 2.1.1 Qu’est-ce que l’économétrie ?...................................................................................................16 2.1.2 La différence entre un estimateur non-biaisé et efficace, et une variable significative.............16 2.1.3 Les tests d’hypothèses................................................................................................................18 2.1.4 Homoscédasticité vs Hétéroscédasticité....................................................................................20 2.2 COMMANDES DE BASE SUR STATA......................................................................................................20 2.2.1Pour débuter l’analyse................................................................................................................21 2.2.2Création de nouvelles variables..................................................................................................24 2.2.3 Divers.........................................................................................................................................25 2.3 STATISTIQUES DE L’ÉCHANTILLON.....................................................................................................26 2.4 GRAPHIQUES ET TABLEAUX................................................................................................................28 2.5 RÉGRESSIONS.....................................................................................................................................28 2.5.1Régression par les moindres carrés ordinaires (MCO)..............................................................28 2.5.2 Probit/Dprobit............................................................................................................................30 2.6 L’INTERPRÉTATION DES RÉSULTATS...................................................................................................32 2.6.1 Régression par MCO.................................................................................................................32 2.6.2 Probit/Dprobit............................................................................................................................34 2.6.3 Interprétation économique.........................................................................................................35 3 MANIPULATIONS PLUS POUSSÉES................................................................................................36 3.1 HÉTÉROSCÉDASTICITÉ........................................................................................................................36 3.2 SÉRIES CHRONOLOGIQUES..................................................................................................................37 3.2.1 Test d’autocorrélation................................................................................................................39 3.2.2 Stationnarité...............................................................................................................................40 4.2.3 Co-intégration............................................................................................................................46 3.3 DONNÉES EN PANEL............................................................................................................................47 3.3.1 Effets fixes vs. Effets aléatoires..................................................................................................48 3.3.2 Corrélation et hétéroscédasticité...............................................................................................51 3.4 VARIABLES INSTRUMENTALES, DOUBLES MOINDRES CARRÉS ET TEST D’ENDOGÉNÉITÉ.....................56 3.4.1 Estimateur Variables Instrumentales.........................................................................................56 3.4.2 DMCO........................................................................................................................................57 3.4.3 Test d’endogénéité.....................................................................................................................58 3.5 ESTIMATEURS DU MAXIMUMS DE VRAISSEMBLANCE (EMV)..............................................................59 3.6 MOINDRES CARRÉS GÉNÉRALISÉS.......................................................................................................60 3.7 LE LOGIT ET LE TOBIT.........................................................................................................................61 3.8 BIAIS DE SÉLECTION...........................................................................................................................62 ANNEXE A : RÉSUMÉ DES FONCTIONS DANS STATA..................................................................63 ANNEXE B: EXEMPLE D’UN PROGRAMME STATA COMPLET.................................................66 1 Préface Ceci est la troisième version d’un guide d’économétrie appliqué à Stata créé pour aider les étudiants dans leur cours de FAS 3900 (séminaire d’économie politique) ou d’ECN 3950 (Atelier d’économie appliquée). La première version a été élaborée par Simon Leblond en décembre 2003. Les renseignements contenus dans cette première ébauche correspondent en partie à ce qui est inscrit dans la troisième section du présent manuel. Un an plus tard, Isabelle Belley-Ferris a ajouté une section descriptive pour compléter le travail fait par Simon. Cette section a aussi été intégrée dans la présente version du manuel, à la section 3. En somme, les sections sur l’extraction des données (section 1) et sur le traitement des données (section 2) du présent manuel sont inédites, alors que l’on retrouve quelques ajouts au travail fait précédemment par Simon Leblond et Isabelle Belley-Ferris, correspondant à la dernière section du guide. 2 Introduction Ce guide vous servira d’outil de référence tout au long de la session. Nous avons tenté de rassembler toute la matière essentielle à la réussite de votre cours (FAS 3900 ou ECN 3950) dans ce manuel. Cela dit, il se peut que pour certains, des sections de ce manuel contiennent des notions triviales ou trop avancées en fonction de vos objectifs de recherche. Il vous suffira donc de sauter à la prochaine section plus rapidement. Chaque section présente le but de l’opération qui y est traitée. Les commandes appropriées sont ensuite présentées, d’abord individuellement, puis dans le cadre d’un exemple concret. Prenez note que ce texte décrit seulement les fonctions ainsi que leurs options les plus souvent utilisées pour votre cours, il n’est donc pas du tout exhaustif. Un conseil : apprenez à utiliser l’aide de Stata. Il s’agit d’un outil fort utile pour découvrir de nouvelles fonctions ou pour connaître l’ensemble des options disponibles pour les fonctions décrites dans ce guide. Le chapitre 1 vous indiquera comment trouver les données d’enquête dont vous aurez besoin pour réaliser votre recherche. Le chapitre 2 s’adresse plus particulièrement aux élèves de FAS 3900, décrivant la base des manipulations économétriques. Le chapitre 3 s’adresse a priori aux étudiants de ECN 3950, exposant des manipulations plus poussées. Il abordera des sujets spécifiques de l’économétrie. Il introduit peu de nouvelles fonctions, se concentrant plutôt sur la démarche à adopter pour effectuer l’opération en question. 3 1 Extraction de données 1.1 Les données Il existe deux types de fichiers de données (d’enquête et agrégées) à partir desquels sont faites les manipulations économétriques qui permettront d’estimer la valeur du lien entre deux variables. Les données d’enquête sont des données brutes, pratiquement illisibles sans le fichier de documentation (ou cliché d’enregistrement). Le fichier contient les réponses du répondant qui sont codés numériquement (ex. : Le recensement). Par exemple, voici un extrait d’un cliché d’enregistrement : La première colonne nous donne le nom de la variable, les troisième et quatrième donnent le numéro correspondant à la variable. Donc, si un répondant répond à la question « sexe » qu’il est un homme, le numéro 1 apparaîtra dans le fichier de données. De la même façon, à la question sur le statut matrimonial, si le répondant affirme qu’il est veuf, c’est le numéro 3 qui apparaîtra dans le fichier de données. C’est ce type de données qui devra être utilisé pour le cours FAS 3900. Les données agrégées sont des données qui ont subit un traitement statistique. En examinant ce type de fichier, on comprend ce que les données signifient parce qu’elles ont été manipulées (ex. : Les PIB provinciaux). Ces deux types de fichier de données peuvent être structurés de façons différentes, et permettent de réaliser différents types d’analyses économétriques (voir schéma ci-dessous). 4 Pooling - Coupes Séries - transversales chronologiques Panel Données d’enquêtes FAS 3900 Données Agrégées On associe souvent les données structurées en coupe transversale à l’analyse statique dans les domaines de la microéconomie (i.e. économie du travail, finance publiques provinciales ou municipales, organisation industrielle, etc.). Les données sur les individus, ménages, compagnies, villes, etc. à un point donnée dans le temps sont les plus utilisées pour les études microéconométriques. La structure en coupe transversale devra être utilisé par les étudiants de FAS 3900, puisque les autres types de structures de 5 données privilégient les données agrégées (séries chronologiques) ou nécessitent des connaissances plus poussées en économétrie (pooling et panel). Les séries chronologiques sont généralement utilisées lors d’études relevant du domaine de la macroéconomie (i.e. indice des prix à la consommation, produit intérieur brut, vente annuelle de voiture dans l’industrie automobile, etc.). Ce type de bases de données est donc composé de données agrégées et est privilégiée pour faire des études macroéconométriques (généralement des prévisions). Finalement, les structures appelées pooling et panel, comportent les caractéristiques des structures de données précédentes. Le pooling a pour but de comparer l’évolution de la relation entre un échantillon et une caractéristique clé à travers le temps (ce type de base de données est très fréquemment utilisé pour évaluer l’impact d’une politique publique sur un échantillon). Le panel est très semblable au pooling, mais la différence réside dans le fait que les unités de l’échantillon restent les mêmes à travers le temps. 1.2 Les divers systèmes d’extraction de données Pour débuter votre régression, vous aurez besoin de trouver vos données. Il existe plusieurs systèmes d’extraction de données, nous vous en présentons trois. Le premier, Sherlock, regroupe des fichiers de micro-données provenant d’enquêtes faites au Canada et au Québec. Dans le second, Cansim, on retrouve les données statistiques agrégées recensées par Statistiques Canada. Finalement, le troisième, ICSPR, couvre des enquêtes provenant des Etats-Unis. Dans chacune des sections du présent chapitre, vous retrouverez un lien avec le site, une image du moteur de recherche provenant du site ainsi que la façons de l’utiliser. 6 1.2.1 Sherlock http://sherlock.crepuq.qc.ca/ Avec Sherlock, trois façons de faire votre recherche se présentent à vous. Vous pouvez soit faire une recherche à l’aide de la « liste d’enquête » dont l’hyperlien se trouve en haut de la page d’accueil, soit faire une recherche simple ou avancée avec le moteur de recherche ci-dessous : Moteur de recherche Terme(s) à rechercher Rechercher Recherche avancée (incluant la recherche par variables Ou chercher selon des thèmes en cochant la case approprié : Liste thématique des enquêtes Canada Autres Agriculture Éducation Recensement de la Arts, culture et Énergie population loisirs Environnement Revenu Autochtones Familles Santé Commerce Gouvernement Science et technologie Communications Immigration Sondages d’opinion Conditions sociales Justice Tourisme et voyages Consommation Logement Transport Démographie Recensement de Travail Économie l’agriculture 7 Continuer Lorsque que vous avez trouvé l’enquête désirée, deux documents sont à sélectionner. Le premier est le cliché d’enregistrement. Celui-ci vous donne le nom de chaque variable ou groupe de variable qui compose votre fichier de micro-données. Cela vous permettra d’écrire vos commandes dans Stata. Le second document est le fichier de micro-données en tant que tel. Pour obtenir ces documents, vous cliquez sur « cliché d’enregistrement » dans la section « documentation sur les données d’enquête » et sur « extraction » dans la section « accès aux données. La deuxième manœuvre vous mène aux procédures d’extraction. Dans la première page qui apparaît après avoir cliqué sur « extraction », cliquez sur : Fichier ASCII (.tab) avec une tabulation comme séparateur Ensuite, vous continuez la procédure d’extraction. Une liste de variables apparaîtra.1 Voilà donc la première occasion d’utiliser le cliché d’enregistrement. Il est extrêmement important de bien le lire et de devenir familier avec les diverses variables qui composent le fichier, cela vous évitera des démarches inutiles et bien des erreurs puisque vous devez ensuite sélectionner vos variables. Il est important de bien réfléchir lors de la sélection, parce que si vous en oubliez, vous devrez tout recommencer du début. Vaut mieux donc en choisir plus que moins. Lorsque les variables désirées sont cochées, il ne vous reste qu’à écrire votre courriel au bas de la page. Dans les minutes qui 1 Il se peut que la liste des variables n’apparaisse pas. Vous devrez alors télécharger le fichier de micro- données au complet. C’est en utilisant SPSS et statTransfert que vous pourrez sélectionner vos variables. Si vous avez des questions à ce sujet, Pascal Martinolli est familier avec cette procédure. 8 suivent, si tout va bien (il arrive que vous deviez refaire une procédure d’extraction parce que Sherlock n’est pas parfait !) vous recevrez un courriel dans votre boîte de réception vous donnant le l’hyperlien à vos données. Note : Il y a un maximum des 30 variables pour une extraction. Si vous pensez avoir besoin de plus de variable pour votre régression, il faudra refaire plus d’une extraction. Ensuite, il est important de s’assurer que les données de chaque extraction concordent (que les réponses soient attribuées au bon répondant), et utiliser la fonction merge (merge nomdesvariables) dans Stata pour fusionner les diverses extractions pour avoir une base de données complète. 1.2.2 Cansim À partir du site de la bibliothèque des sciences humaines de l’Université de Montréal, cliquez sur Cansim II dans E-Stat ou utilisez http://estat.statcan.ca/cgi- win/CNSMCGI.exe?Lang=F&CANSIMFile=EStat/Francais/CII_1_F.htm Pour faire une recherche dans Cansim, vous pouvez soit consulter le répertoire et ensuite entrer le numéro de tableau tel qu’indiqué ci-dessous : Méthode de recherche : Continuer Sujet Recherche textuelle Numéro de tableau Numéro de série 9
Description: