Tesis de Doctorado Oldemar Rodríguez

 

Embed or link this publication

Description

Tesis de Doctorado Oldemar Rodríguez

Popular Pages


p. 1

universit´ paris ix­dauphine e u.f.r math´ matique de la d´ cision e e th se e l obtention du titre de docteur en informatique pr´ sent´ e et soutenue par e e oldemar rodriguez rojas sujet de la th se e classification et mod les lin´ aires e e en analyse des donn´ es symboliques e jury directeur de th se e edwin diday professeur a l universit´ paris ix­dauphine france e rapporteurs gilbert saporta professeur au conservatoire national des arts et m´ tiers france e suzanne winsberg professeur a l universit´ de rutgers etats­unis e suffrageants paula brito professeur a l universit´ de porto portugal e pierre cazes professeur a l universit´ paris ix­dauphine france e rosanna verde professeur a l universit´ federico ii italie e pr´ sent´ e et soutenue publiquement le 14 novembre 2000 e e

[close]

p. 2

contents introduction 12 1 pr´ sentation de l analyse des donn´ es symboliques e e 1.1 1.2 1.3 donn´ es symboliques e objets symboliques propri´ t´ s et op´ rateurs des objets symboliques ee e 18 18 21 23 2 classification pyramidale symbolique ascendante 2.1 2.2 2.3 2.4 2.5 d´ finitions pr´ liminaires e e algorithme de classification pyramidale symbolique algorithme de classification pyramidale symbolique avec ordre donn´ e th´ or mes de convergence e e exemples 27 27 32 45 50 51 3 la r´ gression symbolique e 3.1 introduction 2 60 60

[close]

p. 3

3 3.2 statistiques descriptives pour de donn´ es symboliques e 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 3.2.8 3.3 la moyenne symbolique la m´ diane symbolique e percentiles symboliques et d´ viation quartile symbolique e la moyenne symbolique des valeurs extr mes e la variance et l ´ cart type symbolique e histogrammes symboliques bo^tes de dispersion boxplot i la corr´ lation symbolique e 61 61 63 64 66 67 68 70 70 80 80 la r´ gression lin´ aire symbolique simple e e 3.3.1 3.3.2 mod le de r´ gression simple avec la corr´ lation empirique e e e mod le de r´ gression simple avec la corr´ lation symbolique maxe e e imum et minimum 3.3.3 mod le de r´ gression symbolique simple avec les points inf´ rieur­ e e e sup´ rieur e 3.3.4 mod le des sommets pour la r´ gression symbolique simple e e 81 83 85 4 le cercle des corr´ lations symboliques et l analyse en composantes prine cipales pour des donn´ es de type histogramme e 4.1 cercle des corr´ lations symboliques dans l analyse en composantes prine cipales 89 88

[close]

p. 4

4 4.1.1 le cercle des corr´ lations en utilisant le coefficient de la corr´ lation e e symbolique 4.1.2 4.1.3 4.1.4 4.1.5 4.2 la dualit´ dans la m´ thode des centres e e 89 98 la dualit´ dans la m´ thode des sommets 116 e e les aides symboliques a l interpr´ tation 119 e le logiciel pour l analyse en composantes principales symbolique 124 g´ n´ ralisation de l analyse en composantes principales aux donn´ es de e e e type histogramme 126 4.2.1 4.2.2 4.2.3 l algorithme 126 exemples d application 132 l interpr´ tation 134 e 5 l analyse symbolique des tableaux de proximit´ s e 5.1 5.2 5.3 5.4 137 introduction 137 l analyse classique des tableaux de dissimilarit´ s 138 e l analyse des tableaux de dissimilarit´ s de type intervalle interscal e 141 exemples 147 5.4.1 5.4.2 exemple des huiles et des graisses 147 exemple de jugements de rectangles 150 5.5 le programme de l algorithme interscal 154 conclusion 155

[close]

p. 5

5 a programme int´ gr´ de m´ thodes d analyse des donn´ es symboliques pimad­ eeee symbolique 166 a.1 l installation et la d´ sinstallation 167 e a.2 le module de classification ascendante pyramidale symbolique 167 a.3 le module d analyse en composantes principales pour des donn´ es de e type intervalle 169 a.4 le module d analyse en composantes principales pour des donn´ es de e type histogramme 173 a.5 le module de r´ gression lin´ are symbolique 174 e e a.6 le module de l algorithme interscal pour la m´ thode d analyse des e tableaux de proximit´ s de type intervalle 176 e

[close]

p. 6

list of figures 1 2.1 2.2 2.3 2.4 2.5 2.6 2.7 deux principes fondamentaux de l analyse de donn´ es symbolique e exemple d une pyramide pyramide symbolique pyramide en construction pyramide en construction pyramide obtenue apr s l union de deux composantes connexes e pyramide du tableau de donn´ es de l exemple 1.1.1 e repr´ sentation pyramidale de l exemple de l huile et la graisse ´ chelle e e modifi´ e 2.8 repr´ sentation pyramidale de l exemple de l huile et la graisse ´ chelle e e r´ elle e 2.9 hi´ rarchie binaire de l exemple de l huile et la graisse ´ chelle modifi´ e e e 57 58 56 14 30 31 34 37 44 52 2.10 repr´ sentation pyramidale de l exemple de l huile et la graisse si on a e l ordre des objets a priori 7651243 59 6

[close]

p. 7

7 3.1 3.2 3.3 3.4 3.5 3.6 l histogramme symbolique de la variable y1 =systolic­pressure la bo^te de dispersion de la variable y =pulse­rate i xh ou yh contiennent l origine tous les deux xh et yh sont dans le m me m­quadrant e xh et yh sont dans des m­quadrants oppos´ s e xh et yh ne contiennent pas des vecteurs colin´ aires et ni l un ni l autre e xh ou yh contient l origine 3.7 graphique de r´ gression des variables systolic­pressure×pulse­rate avec e le mod le de la corr´ lation empirique e e 3.8 graphique de r´ gression des variables systolic­pressure×pulse­rate avec e le mod le de la corr´ lation symbolique maximum et minimum e e 3.9 graphique de r´ gression des variables systolic­pressure×pulse­rate avec e le mod le de inf´ rieur­sup´ rieur points e e e 3.10 graphique de r´ gression des variables systolic­pressure×pulse­rate avec e le mod le des sommets e 4.1 4.2 4.3 cercle classique des corr´ lations e cercle des corr´ lations symbolique e cercle des corr´ lations symbolique de oils and fats data avec la m´ thode e e des centres 4.4 cercle des corr´ lations symbolique de oils and fats data avec la m´ thode e e des centres 99 98 87 90 92 85 84 82 78 69 71 75 76 77

[close]

p. 8

8 4.5 cercle des corr´ lations symbolique de oils and fats data avec la m´ thode e e des sommets 101 4.6 4.7 4.8 4.9 projection des variables hypercubes 102 le cercle des corr´ lations symbolique avec le algorithme 4.2 110 e le plan principal symbolique avec la m´ thode des centres dual 110 e le cercle des corr´ lations symbolique avec la m´ thode des centres commencant e e ¸ par z t z 114 4.10 plan principal symbolique avec la m´ thode des centres commencant par e ¸ z t z 115 4.11 cercle des corr´ lations symbolique avec la m´ thode des sommets 120 e e 4.12 la qualit´ symbolique de si selon le j­i me axe factoriel 121 e e 4.13 le plan principal avec des donn´ es de type continu intervalle et hise togramme 133 4.14 la pyramide avec des donn´ es de type continue intervalles et histogramme.134 e 4.15 tableau des donn´ es avec deux individus et deux variables de type hise togramme 135 4.16 tplan principal du tableau 136 5.1 5.2 5.3 distances minimum et maximum entre les deux hypercubes 143 distances moyennes parmi les deux hypercubes 144 plan principal de donn´ es des huiles et des graisses en utilisant l algorithme e interscal 150

[close]

p. 9

9 5.4 5.5 5.6 le plan principal symbolique avec la m´ thode des centres dual 150 e rectangles dont la hauteur est inf´ rieure a leur largeur du c t´ droit 152 e oe a troisi me dimension s est reli´ e a la taille ou a l aire des rectangles avec e e les plus petits apparaissant sur le dessus 152 a.1 pimad­symbolique dans le menu d´ marrer de windows 167 e a.2 fen tre principal du module de classification ascendante pyramidale syme bolique 168 a.3 la bo^te de dialogue pour la selection de variables 170 i a.4 fen tre principale du module d analyse en composantes principales pour e des donn´ es de type intervalle 171 e a.5 bo^te de dialogue pour choisir l algorithme 172 i a.6 fen tre principale du module d analyse en composantes principales pour e des donn´ es de type histogramme 174 e a.7 fen tre principal du module de r´ gression symbolique simple 175 e e a.8 options du module de r´ gression 177 e a.9 fen tre principal du module pour l algorithme interscal 178 e

[close]

p. 10

list of tables 2.1 3.1 4.1 4.2 tableau des donn´ es e exemple avec onze patients tableau des donn´ es oils and fats e les corr´ lations classiques entre le centre de gravit´ des variables et le e e centre de gravit´ des composants principales pour la m´ thode des centres e e 4.3 les corr´ lations symboliques entre les variables et les composants princie pales pour la m´ thode de centres e 4.4 les corr´ lations classiques entre le centre de gravit´ des variables et le e e centre de gravit´ des composantes principales pour la m´ thode des sommets.100 e e 4.5 les corr´ lations symbolique entre le centre de gravit´ des variables et le e e centre de gravit´ des composantes principales pour la m´ thode des sommets.100 e e 4.6 corr´ lations symboliques entre les variables et les composants principales e avec la m´ thode des centres en employant l algorithme 4.2 108 e 4.7 corr´ lations classiques entre les variables et les composants principales e avec la m´ thode des centres 108 e 97 96 31 65 96 10

[close]

p. 11

11 4.8 4.9 composantes principales avec la m´ thode des centres duale 109 e corr´ lations symboliques entre les variables et les composantes princie pales avec la m´ thode des centres duale 113 e 4.10 corr´ lations symboliques entre les variables et les composantes princie pales avec la m´ thode des sommets 119 e 5.1 l ensemble de donn´ es des huiles et des graisses 148 e a.1 barre d outils du module de pyramide 169 a.2 barre d outils communs a tous les modules de pimad­symbolique 170 a.3 barre d outils du module d analyse en composantes principales pour des donn´ es de type intervalle 172 e a.4 barre d outils du module de r´ gression lin´ ale symbolique 176 e e

[close]

p. 12

introduction 12 introduction ce travail s inscrit dans le cadre de l analyse des donn´ es symboliques propos´ dans [30 e e diday 1987 31 diday 1989 32 diday 1991 [33 diday 1993 [34 diday 1995 [35 diday 1995 [36 diday 1996 [38 diday 1998 39 diday 2000 l analyse des donn´ es symboliques est une extension de l analyse de donn´ es qui est en e e ce moment en plein d´ veloppement en effet beaucoup des m´ thodes des techniques et e e ´e ea des algorithmes de l analyse de donn´ es ont et´ d´ j abord´ s en vu de cette extension par e e exemple nous pouvons mentionner les travaux de [16 cazes chouakria diday et schektman 1997 qui g´ n´ ralisent l analyse en composantes principales pour des donn´ es de e e e type intervalle [9 brito 1991 et [55 mfoumoune 1998 dans la classification pyramidale les travaux de [76 ziani 1996 sur la s´ lection des variables sur un enseme ble d objects symboliques [21 decarvalho 1994 [46 gowda et diday 1991 [47 gowda et diday 1992 pour le calcul des dissimilarit´ s entre les objets symboliques e [23 diday et emilion 1996 et [26 diday et emilion 1997 pour la construction des

[close]

p. 13

introduction 13 histogrammes des capacit´ s [66 st´ phan 1996 [67 st´ phan 1998 [68 st´ phan eeeeh´ brail et lechevallier 1997 et [69 st´ phan h´ brail et lechevallier 1999 pour e e e l extraction des objets symboliques a partir d une base de donn´ es [61 polaillon 1998 e pour la construction l organisation et l interpr´ tation par les treillis de galois au cas syme bolique [51 lauro verde et palumbo 1999 et de [52 lauro verde et palumbo 2000 dans des m´ thodes factorielles pour des donn´ es symboliques parmi beaucoup d autres e e ´ nous pouvons aussi citer les etudes plus r´ centes propos´ es par diday dans [41 diday e e et rodr´guez 2000 concernant la qualit´ la robustesse et la fiabilit´ des objets symboli e e iques ´ il y a egalement des avanc´ s importantes en ce qui concerne le logiciel pour le traitement e des donn´ es symboliques par exemple le projet sodas voir [7 bock et diday 2000 e ´ et [40 diday et bisdorff 2000 qui est le r´ sultat de l effort de 17 equipes europ´ ennes e e patronn´ par eurostat le db2so qui construit objets symboliques a partir des bases e de donn´ es relationnelles voir [49 h´ brail et lechevallier 2000 strata decision e e tree sta et stdeditor voir [8 bravo 2000 et [62 p´ rinel 1996 dans le e cas d objets probabilistes avec des applications m´ dicales entre autres e le but de ce travail est de g´ n´ raliser au cas symbolique certaines techniques de la classifie e cation automatique aussi bien que quelques mod les lin´ aires ces g´ n´ ralisations seront eeee toujours faites d apr s deux principes fondamentaux de l analyse de donn´ es symbolique e e a savoir cf knowledge discovery from symbolic data and the sodas software dans [41 diday et rodr´guez 2000 i 1 l analyse des donn´ es classiques devrait etre toujours un cas particulier de l analyse e des donn´ es symboliques e 2 dans une analyse des donn´ es symboliques tant la sortie comme la entr´ e devraient e e etre symboliques.

[close]

p. 14

introduction ces deux principes sont illustr´ s dans la figure 1 e 14 figure 1 deux principes fondamentaux de l analyse de donn´ es symbolique e en ce qui concerne la classification automatique notre objectif sp´ cifique est e 1 g´ n´ raliser l algorithme cap propos´ dans [28 diday 1984 de facon a ce que e e e ¸ l algorithme produise une pyramide symbolique c est­ ­dire une pyramide dans a laquelle chaque palier est associ´ a un objet symbolique complet e concernant les mod les lin´ aires nos objectifs sp´ cifiques sont e e e 1 g´ n´ raliser la m´ thode classique de la r´ gression simple au cas des donn´ es syme eeee boliques de type intervalle 2 g´ n´ raliser la m´ thode de l analyse en composantes principales pour des donn´ es eeee de type intervalle propos´ e par [16 cazes chouakria diday et schektman 1997 e dans deux sens dans un premier temps nous proposerons trois mani res de projeter e

[close]

p. 15

introduction 15 les variables de type intervalle dans le cercle des corr´ lations dans une deuxi me e e temps nous proposerons un algorithme pour l analyse en composantes principales pour des donn´ es de type histogramme e 3 g´ n´ raliser la m´ thode classique de l analyse des tableaux de dissimilarit´ s de [71 eeee torgenson 1958 et [45 gower 1966 multidimensional scaling pour les disimilarit´ s de type intervalle e ´ ce travail cherche egalement a mettre en application un logiciel pour chacune des m´ thodes e d´ velopp´ es e e dans le chapitre 1 nous pr´ senterons les concepts de base de l analyse de donn´ es syme e bolique qui sont n´ cessaires pour le d´ veloppement de ce travail cette pr´ sentation sera e e e bas´ e sur [30 diday 1987 [38 diday 1998 [39 diday 1999 et [9 brito 1991 e dans [28 diday 1984 diday a propos´ l algorithme cap pour construire les pyrae mides num´ riques c est­ ­dire une pyramide qui est construite a partir d une matrice e a de dissimilarit´ s classiques [3 bertrand et diday 1990 ont propos´ un algorithme e e avec le m me but [55 mfoumoune 1998 a pr´ sent´ egalement un algorithme avec e e e ´ cet but d´ nomm´ quickcap dont l objectif est d am´ liorer le temps d ex´ cution dans eeee [9 brito 1991 paula brito a pr´ sent´ un macro­algorithme avec l objectif de construe e ire une pyramide symbolique tenant compte des travaux mentionn´ s ci­dessus dans le e chapitre 2 nous pr´ senterons deux nouveaux algorithmes qui g´ n´ ralisent au cas syme e e bolique l algorithme cap le premier de ces deux algorithmes d´ nomm´ caps produit e e en effet une pyramide symbolique parce qu il construit un objet symbolique associ´ a e ´ chaque palier de la pyramide et il v´ rifie egalement sa compl´ tude l algorithme caps e e est vraiment une g´ n´ ralisation de l algorithme cap parce que s il recoit comme entr´ e e e ¸ e une matrice de dissimiliraties il produit la m me sortie que l algorithme cap dans le e chapitre 2 nous pr´ senterons aussi un deuxi me algorithme d´ nomm´ capso qui cone e e e struit une pyramide symbolique ayant comme entr´ e un ordre donn´ a priori sans tenir e e

[close]

Comments

no comments yet