ebook img

Le raisonnement bayesien : Modelisation et inference (Statistique et probabilites appliquees) PDF

380 Pages·2007·8.27 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Le raisonnement bayesien : Modelisation et inference (Statistique et probabilites appliquees)

Le raisonnement bayésien Modélisation et inférence Springer Paris Berlin Heidelberg New York Hong Kong London Milan Tokyo Éric Parent Jacques Bernier Le raisonnement bayésien Modélisation et inférence Éric Parent AgroParisTech/ENGREF 19, avenue du Maine 75732 Paris Cedex 15 Jacques Bernier Le Pech-de-Biaud 24250 Saint-Martial-de-Nabirat ISBN : 978-2-287-33906-6 Springer Paris Berlin Heidelberg New York © Springer-Verlag France, Paris, 2007 Imprimé en France Springer-Verlag France est membre du groupe Springer Science + Business Media Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentationla traduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voie d’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conserva- tion des banques de données. La loi française sur le copyright du 9septembre 1965 dans la version en vigueur n’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennantle paiement de droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données par quelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright. L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. même sans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et la protection des marques et qu’ils puissent être utilisés par chacun. La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modes d’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à la littérature existante. Maquette de couverture : Jean-François Montmarché Collection Statistique et probabilités appliquées dirigée parYadolah Dodge Professeur Honoraire Université de Neuchâtel Suisse [email protected] Comité éditorial : Christian Genest Stephan Morgenthaler Département de Mathématiques École Polytechnique Fédérale et de statistique de Lausanne Université Laval Département des Mathématiques Québec GIK7P4 1015 Lausanne Canada Suisse Marc Hallin Gilbert Saporta Université libre de Bruxelles Conservatoire national Campus de la Plaine CP210 des arts et métiers 1050 Bruxelles 292, rue Saint-Martin Belgique 75141 Paris Cedex 3 France Ludovic Lebart École Nationale Supérieure des Télécommunications 46, rue Barrault 75634 Paris Cedex 13 France Dans la même collection : – Statistique. La théorie et ses applications Michel Lejeune, avril 2004 – Le choix bayésien.Principes et pratique Christian P.Robert, novembre 2005 – Maîtriser l’aléatoire.Exercices résolus de probabilités et statistique Eva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006 – Régression.Théorie et applications Pierre-André Cornillon, Éric Matzner-Løber, janvier 2007 Préface Faire de la statistique bayésienne a été, du moins en France, longtemps considéré comme adhérer à une église : une affaire de foi avec les querelles de chapelle qui s’ensuivent. Étant agnostique en la matière, je confesse le grand plaisirquej’aieuàlirecelivreetàenrédigerlapréface,d’autantplusquecela me donne l’occasion de rendre hommage à l’un des auteurs qui m’a beaucoup appris quand j’étais étudiant. Curieuse situation en vérité que celle de la statistique bayésienne alors que chacun s’accorde à considérer qu’il faut prendre en compte, dans une prévision ou une estimation, les informations que l’on peut avoir a priori. L’expression a priori signifie ici préalablement à une nouvelle expérience, enquête, etc.etnonausensd’uneopinionpréétablieetnonprouvée(Monsieur vous avez des a priori...). L’utilisationd’uneinformationpréalablefigured’ailleursdansdesapproches classiques delastatistique,enparticulierenthéoriedessondagesoùlapriseen compted’informationsauxiliairesjoueungrandrôle,àlafoispourconstituerle pland’échantillonnage(stratification)oupouramélioreraprèscouplesestima- tions (les fameux redressements). Malgré l’abondance d’informations a priori, je n’ai encore jamais vu utiliser d’estimation bayésienne pour des intentions de vote ou des indices de popularité : on continue à utiliser des estimations fréquentistes basées sur les seules données de la dernière enquête alors que l’on saitpertinemmentquelepourcentagedevoixdetelcandidataudeuxièmetour des élections présidentielles ne sera pas inférieur à 40 % ni supérieur à 70 % et n’est pas n’importe quelle valeur comprise entre 0 et 1! Pourquoi cette, sinon méconnaissance, du moins réticence à employer l’ap- proche bayésienne? Très vraisemblablement cela provient de la suspicion que l’on peut avoir à l’encontre de la conception subjectiviste des probabilités que l’on associe à la démarche bayésienne : si chacun peut avoir sa distribution de probabilitéquireflètesescroyances,alorscommententirerdesconclusionsac- ceptablespartous?Unautrehandicap,d’unenaturetoutedifférente,étaitque lescalculsdesdistributionsprédictivesétaientd’unecomplexitédécourageante, mais les performances des ordinateurs ont rendu faisables des procédés de si- mulationsefficacesetladisponibilitédeprogrammesinformatiquesachangéla donne. Undesméritesdecetouvrageestdemontreravecungrandnombred’exemples viii Le raisonnement bayésien tirés de la vaste expérience des auteurs, comment on peut modéliser de façon naturelle les distributions a priori et en tirer des inférences adéquates. Les auteurs réalisent le tour de force pour qui n’est pas bayésien, de présenter l’approche bayésienne comme une démarche objective. Ils’agitdoncd’unvéritableprécisdemodélisation,nepassantaucunaspect soussilence:lelecteur,j’ensuissûr,apprécieralespartiesconsacréesaucalcul bayésien. Les auteurs ne sont pas tombés dans le travers, trop fréquent dans de nombreuses publications, qui consiste à s’intéresser plus aux techniques de simulation qu’au problème à résoudre. La rigueur et la qualité pédagogique de cet ouvrage devraient certainement contribuer à la diffusion de cette approche et à une meilleure prise en compte du raisonnement probabiliste dans les décisions. Quelques mots pour conclure : la statistique bayésienne donne un cadre formel séduisant, peut-être l’ultime rationalisation de la statistique classique où tout est modélisé : paramètres comme observations. Il faut alors prendre garde au risque de sur-modéliser et de confondre modèle et réalité. Observer avant de modéliser, s’assurer de la robustesse ou résistance aux données erro- néesouatypiques,validerlesprédictionssurdesdonnéesindépendantesrestent des principes indispensables pour le praticien. Être ou ne pas être bayésien, là n’est plus la question : il s’agit d’utiliser à bon escient les outils adaptés quand cela est nécessaire. Gilbert Saporta Avant-propos La statistique est un art interdisciplinaire de la quantification sous incerti- tudes utilisé par les physiciens, les économistes, les ingénieurs, les géographes, les biologistes, les assureurs, les psychologues, les météorologues, les gestion- naires d’entreprises, etc. bref, tous les praticiens soucieux de bâtir, sur des fondations solides, un pont entre théorie et données expérimentales. Depuis un siècle, la statistique s’est considérablement développée, initiant une révolu- tion dans les modes de pensée, car elle porte un langage de représentation du mondeetdesesincertitudes.C’estaujourd’huiunesciencemathématiquedont l’objectif est de décrire ce qui s’est produit et de faire des projections quant à ce qu’il peut advenir dans le futur. Parfois, la situation peut être simplement décriteparquelquesreprésentationsgraphiquesd’analyseélémentairedesdon- nées. Bien souvent, le problème est beaucoup plus compliqué car de multiples facteursd’influencedoiventêtreprisencompte.Schématiquement,onconstruit deux ensembles avec ces facteurs. Un premier paquet contient les facteurs dits explicatifs, bien identifiés, ceux dont on souhaite étudier l’influence en détail. En ce qui concerne le second paquet de facteurs, on ne sait, ou on ne veut pas, représenter leur effet perturbateur au cas par cas et, de ce fait, le jargon des modélisateurslebaptisesousletermebruit,décritalorsdefaçonplusgrossière par ses caractéristiques statistiques générales. Dans tous les cas, l’étude de la variabilité est au centre des débats : il s’agit d’abord de caractériser l’influence des facteurs identifiés et ensuite de représenter et d’évaluer le bruit résiduel dû à ces autres facteurs non pris en compte dans l’analyse de façon explicite. Dansunetellesituation,lestatisticienclassiqueutiliseàlafoisunraisonne- ment déterministe par l’absurde, afin de proposer des valeurs acceptables pour les paramètres décrivant les effets des facteurs explicatifs et un raisonnement probabiliste,pourtraduirelavariabilitédesrésultatsobservésdueaubruit.Ce mode de pensée s’appuie sur l’hypothèse de la réalité objective des paramètres (etdoncdumodèlequilesdéfinit)ainsiquesurl’interprétationdelaprobabilité comme limite des fréquences de résultats observés. C’est cette conception, dite fréquentiste, qui est généralement enseignée dans les cursus de formation aca- démique en France. A contrario, le statisticien bayésien utilise le même cadre depenséepourtraiterparlepariprobabilistel’interactiondecesdeuxniveaux d’incertitudes : ignorance quant aux valeurs possibles des paramètres et aléa des bruits entachant les résultats expérimentaux. x Le raisonnement bayésien Choisir la piste bayésienne paraîtra à certains inutilement trop sophistiqué si on se limite aux modèles élémentaires (binomial, normal, etc.) : pour ces cas d’école simples, l’approche fréquentiste est facile (nombreux logiciels), passée dans les mœurs (excellents cours de nombreux collègues), et offre au praticien desrésultatssouventtrèsprochesdeceuxquedonneraituneanalysebayésienne avec une distribution a priori peu informative. Mais pour peu que l’analyste souhaite prendre à bras le corps des problèmes plus proches de son réel quo- tidien, apparaissent variables multiples, données manquantes, effets aléatoires, grandeurslatentes...breflastructuredesmodèlesdelaviescientifiquemoderne seprésentesousuneformeoùdescouchessuccessivesdeconditionnements’em- boîtent...etpourlesquelsl’approchebayésienneaffirmesavéritablepertinence. Finalement, nous ne proposons dans ce livre rien d’autre que de tirer parti du calcul des probabilités conditionnelles. Conditionner, telle est la clé qui ouvre toutes les portes, à la fois pour la modélisation (où nous plaidons pour l’éla- boration de modèles avec structures par couches) et pour l’inférence (où le Bayésien exploitera les structures de conditionnement inverse). Le livre est construit en deux parties : – Lessituationsd’ingénieriesousincertitudespartagentdenombreuxpoints communs. La première partie décrit les principes généraux de modélisa- tion statistique permettant d’encadrer mais aussi de venir au secours de l’imagination de l’apprenti modélisateur : sont mis en place les concepts de décisions, d’informations, d’états de la nature et d’expertise. Dans ce cadre décisionnel, l’approche bayésienne est présentée comme une ana- lyse de sensibilité vis-à-vis d’un critère de risque. On décrit ensuite com- mentlesmodèlescourantspeuventêtreconstruitssurlabasedequelques conceptsgénéraux:conceptsdesymétrie,deparcimonieetd’entropieou grâce aux théories de comportements asymptotiques. Enfin, le raison- nement conditionnel permet la naissance de structures de modèles par couches de variables latentes et nous décrivons les constructions condi- tionnelles les plus utiles : données manquantes, modèles hiérarchiques, modèles dynamiques, etc. – L’inférence est le processus d’apprentissage qui permet d’identifier un système en reconstruisant le vecteur des états de la nature à partir des informations collectées au fur et à mesure. La formule de Bayes donne la crédibilité à accorder à chaque paramètre sous la forme d’une distri- bution conjointe de probabilités dite loi a posteriori. Malheureusement, les modèles courants mettent en jeu de nombreux paramètres et, par conséquent,ladistributiondeprobabilitéa posteriori estuneloimultidi- mensionnelledontlaconstantedenormalisationseprésentesouslaforme d’uneintégralemultiplecomplexe.Parailleurs,laboîteàoutilsstandard desdistributionsdeprobabiliténedonnedesexpressionsanalytiquesque pour un nombre trop restreint de distributions multidimensionnelles. La seconde partie présente donc les méthodes de calcul de ces distributions a posteriori, notamment les algorithmes de simulation Monte Carlo et tout particulièrement ceux par chaînes de Markov (MCMC) qui se ré-

Description:
Cet ouvrage expose de fa?on d?taill?e la pratique de l'approche statistique bay?sienne ? l'aide de nombreux exemples choisis pour leur int?r?t p?dagogique. La premi?re partie donne les principes g?n?raux de mod?lisation statistique permettant d'encadrer mais aussi de venir au secours de l'imaginatio
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.