Academic literature on the topic 'Algorithme de clustering hiérarchique'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Algorithme de clustering hiérarchique.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Algorithme de clustering hiérarchique"

1

Sopena, Julien, Souheib Baarir, and Fabrice Legond-Aubry. "Vérification formelle d'un algorithme générique et hiérarchique d'exclusion mutuelle." Techniques et sciences informatiques 28, no. 9 (2009): 1085–105. http://dx.doi.org/10.3166/tsi.28.1085-1105.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Chassetuillier, Jules, Charlotte Cancalon, Anaïs Havet, Françoise Bugnard, and Stève Benard. "Apport de l’analyse de clustering pour optimiser un algorithme défini à priori – Retour d’expérience et application en diabétologie sur une cohorte de patients issus de l’Échantillon Généraliste des Bénéficiaires (EGB)." Revue d'Épidémiologie et de Santé Publique 69 (June 2021): S84. http://dx.doi.org/10.1016/j.respe.2021.05.005.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Kouame, Yao Francis, Atolé Brice Bienvenu Kedi, Seka Simplice Kouassi, et al. "Caractéristiques physico-chimiques des eaux de forages à usage domestique dans la ville de Daloa (centre-ouest de la Côte d’Ivoire)." International Journal of Biological and Chemical Sciences 15, no. 2 (2021): 835–45. http://dx.doi.org/10.4314/ijbcs.v15i2.33.

Full text
Abstract:
Les populations de la ville de Daloa en Côte d’Ivoire consomment majoritairement les eaux de forages au détriment de l’eau fournie par la société agréée. Ainsi, cette étude des eaux de forages a pour objectif l’évaluation de ses caractéristiques physico-chimiques. Elle a permis de mesurer au niveau de quinze forages les paramètres tels que le pH, la conductivité électrique, la température, le nitrite, le nitrate, l’ammonium, le sulfate, le bicarbonate, le calcium, le magnésium et le potassium. Les valeurs moyennes sont comparées aux normes relatives à la qualité de l’eau de boisson. L’analyse statistique multivariée dont l’Analyse en Composantes Principales (ACP) et la Classification Hiérarchique Ascendante (CHA) a été également appliquée à l’ensemble des paramètres mesurés. Il ressort des résultats que l’eau des forages est légèrement acide avec un pH moyen de 6,0 ± 0,5. Elle est faiblement minéralisée avec une conductivité électrique moyenne de 246,2 ± 162,6 μS/cm. Une forte corrélation est signalée entre la conductivité électrique et les paramètres suivants : nitrate, ammonium, bicarbonate, calcium, magnésium, sodium et potassium. La classification des forages est gouvernée par les valeurs de conductivité et de pH qui permettent de regrouper les forages selon leur qualité physico-chimique. Les eaux des forages de Daloa sont conformes aux directives de l’OMS.Mots clés : Daloa, eau de forage, norme, paramètres physico-chimique, qualité de l’eau.
 English title: Physicochemical characteristic of ground water for domestic use in the town of Daloa (Midwest, Ivory Coast)
 
 The population of Daloa (third largest city in Côte d’Ivoire) mainly consume borehole water to the detriment of water provided by approved company. Thus, the quality of borehole water is evaluated from their physicochemical characteristics in this study. The study carried out in various districts of the city made it possible to measure for fifteen boreholes the physicochemical parameters such as pH, electric conductivity, temperature, nitrite, nitrate, ammonium, sulphate, bicarbonate, calcium, magnesium and potassium. The average values are compared with the standards relating to drinking water quality. The Multivariate statistical analysis whose Principal Components Analysis (PCA) and hierarchical clustering (HC) were also applied to the whole of the measured parameters. The results show that the borehole water is slightly acid with an average pH of 6,0 ± 0,5. It is slightly mineral-bearing with an average electric conductivity of 246,2 ± 162,6 μS/cm. A strong correlation is announced between electric conductivity and the following parameters: nitrate, ammonium, bicarbonate, calcium, magnesium, sodium and potassium. The classification of borehole controlled by this value of conductivity and pH which makes it possible to gather borehole according to their physicochemical quality. The physicochemical parameters of borehole water from Daloa are in conformity with the directives of WHO.Keywords: Daloa, borehole water, standard, physicochemical parameters, water quality.
APA, Harvard, Vancouver, ISO, and other styles
4

Faye, Maurice-Djibril, Eddy Caron, and Ousmane Thiare. "A self-stabilizing algorithm for a hierarchical middleware self-adaptive deployment : specification, proof, simulations." Revue Africaine de la Recherche en Informatique et Mathématiques Appliquées Volume 25 - 2016 - Special... (December 12, 2016). http://dx.doi.org/10.46298/arima.1473.

Full text
Abstract:
International audience ABSTRACT. An effective solution to deal with this dynamic nature of distributed systems is to implement a self-adaptive mechanism to sustain the distributed architecture. Self-adaptive systems can autonomously modify their behavior at run-timein response to changes in their environment. Our paper describes the self-adaptive algorithm that we developed for an existing middleware. Once the middleware is deployed, it can detects a set of events which indicate an unstable deployment state. When an event is detected, some instructions are executed to handle the event. We have proposed a sketch proof of the self-stabilizing property of the algorithm. We have designed a simulator to have a deeper insights of our proposed self-adaptive algorithm. Results of our simulated experiments validate the safe convergence of the algorithm. RÉSUMÉ.Dans cet article, nous nous intéressons aux moyens de rendre le déploiement d’un intergiciel auto-adaptatif. Le type d’intergiciel que nous avons considéré ici est hiérarchique (structure de graphe) et distribué. Les infrastructures de grilles/cloud étant dynamiques (perte et ajout de nœuds),un déploiement statique n’est pas la solution idéale car en cas de panne, il est souvent nécessaire de reprendre tout le processus de déploiement; or cette opération est très coûteuse. Nous avons donc proposé un algorithme auto-stabilisant pour que l’intergiciel puisse retrouver un état stable sans intervention extérieure, au bout d’un temps fini, lorsqu’il est confronté à des pannes transitoires. Pouravoir une idée plus précise des caractéristiques de l’algorithme, nous avons conçu un simulateur. Lesrésultats des simulations montrent qu’un déploiement, sujet à des pannes transitoires, s’auto-adapte.
APA, Harvard, Vancouver, ISO, and other styles
5

Flambeau Jiechieu Kameni, Florentin, and Norbert Tsopze. "Approche hiérarchique d’extraction des compétences dans des CVs en format PDF." Revue Africaine de la Recherche en Informatique et Mathématiques Appliquées Volume 32 - 2019 - 2020 (October 3, 2019). http://dx.doi.org/10.46298/arima.4964.

Full text
Abstract:
The aim of this work is to use a hybrid approach to extract CVs' competences. The extraction approach for competences is made of two phases: a segmentation into sections phase within which the terms representing the competences are extracted from a CV; and a prediction phase that consists from the features previously extracted, to foretell a set of competences that would have been deduced and that would not have been necessary to mention in the resume of that expert. The main contributions of the work are two folds : the use of the approach of the hierarchical clustering of a résume in section before extracting the competences; the use of the multi-label learning model based on SVMs so as to foretell among a set of skills, those that we deduce during the reading of a CV. Experimentation carried out on a set of CVs collected from an internet source have shown that, more than 10% improvement in the identification of blocs compared to a model of the start of the art. The multi-label competences model of prediction allows finding the list of competences with a precision and a reminder respectively in an order of 90.5 % and 92.3 %. . L’objectif de ce travail est d’utiliser l’approche héirarchique d’extraction des informations dans le CV pour en extraire les compétences. L’approche d’extraction des compétences proposée s’effectue en deux grandes phases : une phase de segmentation du CV en sections classées suivant leurs contenus et à partir desquelles les termes représentant les compétences (compétences de bases) sont extraits; et une phase de prédiction qui consiste à partir des caractéristiques extraites précédemment, à prédire un ensemble de compétences qu’un expert aurait déduites, et que ces compétences ne seraient pas nécessairement mentionnées dans le CV (compétences implicites). Les principales contributions de ce travail sont : l’utilisation de l’approche hiérarchique de segmentation du CV en sections pour extraire les compétences dans le CV; l’amélioration de la l’approche de segmentation des CV; enfin, l’utilisation de l’approche binary relevance de classification multi-label pour prédire les compétences implicites du CV. Les expérimentations effectuées sur un jeu de CVs collectés sur Internet ont montré une amélioration de la précision de l’identification des blocs de plus de 10% comparé à un modèle de l’état de l’art. Aussi, le modèle de prédiction multi-label des compétences, permet de retrouver la liste des compétences avec une précision et un rappel respectivement de l’ordre de 90,5% et 92,3%.
APA, Harvard, Vancouver, ISO, and other styles
6

Ba, Mandicou, Olivier Flauzac, Bachar Salim Haggar, Rafik MAKHLOUFI, Florent Nolot, and Ibrahima Niang. "Vers une structuration auto-stabilisante des réseaux Ad Hoc." Revue Africaine de la Recherche en Informatique et Mathématiques Appliquées Volume 17 - 2014 - Special... (August 4, 2014). http://dx.doi.org/10.46298/arima.1970.

Full text
Abstract:
International audience In this paper, we present a self-stabilizing asynchronous distributed clustering algorithm that builds non-overlapping k-hops clusters. Our approach does not require any initialization. It is based only on information from neighboring nodes with periodic messages exchange. Starting from an arbitrary configuration, the network converges to a stable state after a finite number of steps. Firstly, we prove that the stabilization is reached after at most n+2 transitions and requires (u+1)* log(2n+k+3) bits per node, whereΔu represents node's degree, n is the number of network nodes and k represents the maximum hops number. Secondly, using OMNet++ simulator, we performed an evaluation of our proposed algorithm. Dans cet article, nous proposons un algorithme de structuration auto-stabilisant, distribuéet asynchrone qui construit des clusters de diamètre au plus 2k. Notre approche ne nécessite aucuneinitialisation. Elle se fonde uniquement sur l’information provenant des noeuds voisins à l’aided’échanges de messages. Partant d’une configuration quelconque, le réseau converge vers un étatstable après un nombre fini d’étapes. Nous montrons par preuve formelle que pour un réseau de nnoeuds, la stabilisation est atteinte en au plus n + 2 transitions. De plus, l’algorithme nécessite uneoccupation mémoire de (u + 1) log(2n + k + 3) bits pour chaque noeud u où u représente ledegré (nombre de voisins) de u et k la distance maximale dans les clusters. Afin de consolider lesrésultats théoriques obtenus, nous avons effectué une campagne de simulation sous OMNeT++ pourévaluer la performance de notre solution.
APA, Harvard, Vancouver, ISO, and other styles
7

Aissi, Abdeldjalil, Yassine BEGHAMI, Olivier Lepais, and Errol Vela. "Analyse morphologique et taxonomique du complexe Quercus faginea (Fagaceae) en Algérie (Morphological and taxonomic analysis of Quercus faginea (Fagaceae) complex in Algeria)." Botany, September 24, 2020. http://dx.doi.org/10.1139/cjb-2020-0075.

Full text
Abstract:
La systématique de Quercus faginea Lam. (s.l) (Fagaceae) reste encore indéfinie, d’autant plus qu’elle s’hybride avec d’autres espèces et qu’elle est polymorphe. Quatre sous-espèces ont été identifiées et présentement reconnues en péninsule ibérique et au Maroc, or, les données disponibles ne permettent pas de trancher entre les taxons présents en Algérie. Pour remédier au manque de données nécessaires, une analyse morphologique et taxonomique de treize populations du complexe dans le pays a été effectuée. Dans chacune, vingt feuilles et vingt bourgeons sur dix arbres matures ont été prélevés pour une description détaillée de 23 traits morphologiques. L’ACM (analyse des correspondances multiples) et la CAH (classification ascendante hiérarchique) ont été utilisées pour analyser les données et identifier des groupes homogènes. Une variabilité significative intra et inter-populationnelle est remarquable, avec une taille des feuilles qui tend à se diminuer en allant de l’est vers l’ouest et du nord au sud du pays. Cette variabilité ne permet pas, à elle seule, de différentier entre les populations étudiées, en revanche, les traits liés à la forme du limbe et aux types du tomentum sur la feuille s’avèrent plus utiles. Cette étude confirme que le complexe Q. faginea Lam. est représenté en Algérie par deux espèces : Quercus canariensis Willd. et Q. faginea Lam., lui-même représenté par deux taxons, subsp. faginea et subsp. broteroi. 
 
 The systematics of Quercus faginea Lam. (s.l) (Fagaceae) remains obscure, as it tends to crossbreed with other species and show signs of polymorphism. Four subspecies were identified and currently recognized in the Iberian Peninsula and Morocco. However, the literature to date does not allow the distinction between the taxa present in Algeria. To remedy the lack of required data, morphological and taxonomic analysis of thirteen tree populations has been carried out in the country. In the process, twenty leaves and twenty buds from ten mature trees were collected at each population to produce a more detailed description of 23 particular morphological traits. MCA (multiple correspondence analysis) and AHC (agglomerative hierarchical clustering) were used to analyze the data and to identify homogeneous groups. The results obtained show high intra and inter-population variability, with leaf size diminishing from east to west and from north to south. Though the findings were remarkable, they alone could not be used to differentiate between populations under examination; the traits relating to limb shape and indumentum type on the leaf prove to be more useful. It is clear from this study that the Q. faginea Lam. group in Algeria is represented by two species: Quercus canariensis Willd. and Q. faginea Lam., the latter being represented by two taxa: subsp. faginea and subsp. broteroi
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Algorithme de clustering hiérarchique"

1

Clavière, Simon. "Clustering hiérarchique et adaptatif à base de marches aléatoires." Versailles-St Quentin en Yvelines, 2012. http://www.theses.fr/2012VERS0053.

Full text
Abstract:
Nous proposons dans ces travaux des algorithmes distribués de clustering basé sur la taille destinés à créer des structures adaptatives pour les réseaux distribués dynamiques à large échelle. Nous construisons des clusters dont la taille est comprise entre K et 2K, avec K un paramètre de l'algorithme et nous construisons des arbres couvrants des clusters pour permettre leur organisation. Après avoir donné une spécification pour ce problème, nous présentons un premier algorithme distribué pour le résoudre. Les clusters grandissent en recrutant des nœuds à l'aide d'un jeton se déplaçant aléatoirement dans le réseau et sont divisés quand c'est possible en deux clusters disjoints composés d'au moins K nœuds. Ce processus, associé à une identification binaire permet la construction hiérarchique de clusters imbriqués avec un mécanisme de communication inter et intra-cluster. Dans un second algorithme, nous appliquons notre méthode de construction à des réseaux dynamiques. La résistance de notre algorithme aux changements topologiques est obtenue par la diffusion de messages de renommage dans les clusters. Nous avons développé des méthodes permettant de gérer un changement topologique à l'intérieur d'un cluster. Elles permettent de séparer en deux une structure hiérarchique de clusters ne respectant plus la spécification, puis de les fusionner. Nous présentons enfin un algorithme silencieux de clustering auto-stabilisant. Avec une approche différente, nous interdisons la construction de deux clusters adjacents dont la taille est inférieure à K. Nous construisons un arbre de clusters enraciné en un nœud élu comme leader<br>We propose in this work size-oriented distributed clustering algorithms aimed at large-scale dynamic distributed networks. The clusters we build are of size between K and 2K, with K a parameter of the algorithm and we build cluster spanning trees to allow for their organization. We present a first algorithm to compute a binary hierarchy of nested disjoint clusters in static networks. A token browses the network randomly and recruits nodes to its cluster. When a cluster reaches a maximal size defined by the parameter K, it is divided (when possible), and tokens are created in both new clusters. The naming process used for the clusters, along with the information stored during each division, allows routing between any two clusters. Next, we present a version o this algorithm adaptive to topological changes. The algorithm is made resistant to topological changes through the broadcast of renaming messages in clusters. We have developed methods allowing the management of a topological change inside a cluster. They divide into 2 a hierarchical structure that does not meet the specification any longer, and merge them. Last, we present a silent self-stabilizing clustering algorithm. Based on a different approach, we forbid that two adjacent clusters are both of size less than K. We build a cluster tree rooted in an elected node
APA, Harvard, Vancouver, ISO, and other styles
2

Dehman, Alia. "Spatial clustering of linkage disequilibrium blocks for genome-wide association studies." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLE013/document.

Full text
Abstract:
Avec le développement récent des technologies de génotypage à haut débit, l'utilisation des études d'association pangénomiques (GWAS) est devenue très répandue dans la recherche génétique. Au moyen de criblage de grandes parties du génome, ces études visent à caractériser les facteurs génétiques impliqués dans le développement de maladies génétiques complexes. Les GWAS sont également basées sur l'existence de dépendances statistiques, appelées déséquilibre de liaison (DL), habituellement observées entre des loci qui sont proches dans l'ADN. Le DL est défini comme l'association non aléatoire d'allèles à des loci différents sur le même chromosome ou sur des chromosomes différents dans une population. Cette caractéristique biologique est d'une importance fondamentale dans les études d'association car elle permet la localisation précise des mutations causales en utilisant les marqueurs génétiques adjacents. Néanmoins, la structure de blocs complexe induite par le DL ainsi que le grand volume de données génétiques constituent les principaux enjeux soulevés par les études GWAS. Les contributions présentées dans ce manuscrit comportent un double aspect, à la fois méthodologique et algorithmique. Sur le plan méthodologie, nous proposons une approche en trois étapes qui tire profit de la structure de groupes induite par le DL afin d'identifier des variants communs qui pourraient avoir été manquées par l'analyse simple marqueur. Dans une première étape, nous effectuons une classification hiérarchique des SNPs avec une contrainte d'adjacence et en utilisant le DL comme mesure de similarité. Dans une seconde étape, nous appliquons une approche de sélection de modèle à la hiérarchie obtenue afin de définir des blocs de DL. Enfin, nous appliquons le modèle de régression Group Lasso sur les blocs de DL inférés. L'efficacité de l'approche proposée est comparée à celle des approches de régression standards sur des données simulées, semi-simulées et réelles de GWAS. Sur le plan algorithmique, nous nous concentrons sur l'algorithme de classification hiérarchique avec contrainte spatiale dont la complexité quadratique en temps n'est pas adaptée à la grande dimension des données GWAS. Ainsi, nous présentons, dans ce manuscrit, une mise en œuvre efficace d'un tel algorithme dans le contexte général de n'importe quelle mesure de similarité. En introduisant un paramètre $h$ défini par l'utilisateur et en utilisant la structure de tas-min, nous obtenons une complexité sous-quadratique en temps de l'algorithme de classification hiérarchie avec contrainte d'adjacence, ainsi qu'une complexité linéaire en mémoire en le nombre d'éléments à classer. L'intérêt de ce nouvel algorithme est illustré dans des applications GWAS<br>With recent development of high-throughput genotyping technologies, the usage of Genome-Wide Association Studies (GWAS) has become widespread in genetic research. By screening large portions of the genome, these studies aim to characterize genetic factors involved in the development of complex genetic diseases. GWAS are also based on the existence of statistical dependencies, called Linkage Disequilibrium (LD) usually observed between nearby loci on DNA. LD is defined as the non-random association of alleles at different loci on the same chromosome or on different chromosomes in a population. This biological feature is of fundamental importance in association studies as it provides a fine location of unobserved causal mutations using adjacent genetic markers. Nevertheless, the complex block structure induced by LD as well as the large volume of genetic data arekey issues that have arisen with GWA studies. The contributions presented in this manuscript are in twofold, both methodological and algorithmic. On the methodological part, we propose a three-step approach that explicitly takes advantage of the grouping structure induced by LD in order to identify common variants which may have been missed by single marker analyses. In thefirst step, we perform a hierarchical clustering of SNPs with anadjacency constraint using LD as a similarity measure. In the second step, we apply a model selection approach to the obtained hierarchy in order to define LD blocks. Finally, we perform Group Lasso regression on the inferred LD blocks. The efficiency of the proposed approach is investigated compared to state-of-the art regression methods on simulated, semi-simulated and real GWAS data. On the algorithmic part, we focus on the spatially-constrained hierarchical clustering algorithm whose quadratic time complexity is not adapted to the high-dimensionality of GWAS data. We then present, in this manuscript, an efficient implementation of such an algorithm in the general context of anysimilarity measure. By introducing a user-parameter $h$ and using the min-heap structure, we obtain a sub-quadratic time complexity of the adjacency-constrained hierarchical clustering algorithm, as well as a linear space complexity in thenumber of items to be clustered. The interest of this novel algorithm is illustrated in GWAS applications
APA, Harvard, Vancouver, ISO, and other styles
3

Avril, François. "Mécanismes pour la cohérence, l'atomicité et les communications au niveau des clusters : application au clustering hiérarchique distribué adaptatif." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLV034/document.

Full text
Abstract:
Nous nous intéressons dans cette thèse à l'organisation des systèmes distribués dynamiquesde grande taille : ensembles de machines capables de communiquer entre elles et pouvant à toutinstant se connecter ou se déconnecter. Nous proposons de partitionner le système en groupesconnexes, appelés clusters. Afin d'organiser des réseaux de grande taille, nous construisons unestructure hiérarchique imbriquée dans laquelle les clusters d'un niveau sont regroupés au seinde clusters du niveau supérieur. Pour mener à bien ce processus, nous mettons en place desmécanismes permettant aux clusters d'être les noeuds d'un nouveau système distribué exécutantl'algorithme de notre choix. Cela nécessite en particulier des mécanismes assurant la cohérence decomportement pour le niveau supérieur au sein de chaque cluster. En permettant aux clusters deconstituer un nouveau système distribué exécutant notre algorithme de clustering, nous construisonsune hiérarchie de clusters par une approche ascendante. Nous démontrons cet algorithme endéfinissant formellement le système distribué des clusters, et en démontrant que chaque exécutionde notre algorithme induit sur ce système une exécution de l'algorithme de niveau supérieur. Celanous permet, en particulier, de démontrer par récurrence que nous calculons bien un clusteringhiérarchique imbriqué. Enfin, nous appliquons cette démarche à la résolution des collisions dansles réseaux de capteurs. Pour éviter ce phénomène, nous proposons de calculer un clusteringadapté du système, qui nous permet de calculer un planning organisant les communications ausein du réseau et garantissant que deux messages ne seront jamais émis simultanément dans laportée de communication de l'un des capteurs<br>To manage and handle large scale distributed dynamic distributed systems, constitutedby communicating devices that can connect or disconnect at any time, we propose to computeconnected subgraphs of the system, called clusters. We propose to compute a hierarchical structure,in which clusters of a level are grouped into clusters of the higher level. To achieve this goal,we introduce mechanisms that allow clusters to be the nodes of a distinct distributed system,that executes an algorithm. In particular, we need mechanisms to maintain the coherence of thebehavior among the nodes of a cluster regarding the higher level. By allowing clusters to be nodesof a distributed system that executes a clustering algorithm, we compute a nested hierarchicalclustering by a bottom-up approach. We formally define the distributed system of clusters, andprove that any execution of our algorithm induces an execution of the higher level algorithm onthe distributed system of clusters. Then, we prove by induction that our algorithm computes anested hierarchical clustering of the system. Last, we use this approach to solve a problem thatappears in sensor networks : collision. To avoid collisions, we propose to compute a clusteringof the system. This clustering is then used to compute a communication schedule in which twomessages cannot be sent at the same time in the range of a sensor
APA, Harvard, Vancouver, ISO, and other styles
4

Alshaer, Mohammad. "An Efficient Framework for Processing and Analyzing Unstructured Text to Discover Delivery Delay and Optimization of Route Planning in Realtime." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSE1105/document.

Full text
Abstract:
L'Internet des objets, ou IdO (en anglais Internet of Things, ou IoT) conduit à un changement de paradigme du secteur de la logistique. L'avènement de l'IoT a modifié l'écosystème de la gestion des services logistiques. Les fournisseurs de services logistiques utilisent aujourd'hui des technologies de capteurs telles que le GPS ou la télémétrie pour collecter des données en temps réel pendant la livraison. La collecte en temps réel des données permet aux fournisseurs de services de suivre et de gérer efficacement leur processus d'expédition. Le principal avantage de la collecte de données en temps réel est qu’il permet aux fournisseurs de services logistiques d’agir de manière proactive pour éviter des conséquences telles que des retards de livraison dus à des événements imprévus ou inconnus. De plus, les fournisseurs ont aujourd'hui tendance à utiliser des données provenant de sources externes telles que Twitter, Facebook et Waze, parce que ces sources fournissent des informations critiques sur des événements tels que le trafic, les accidents et les catastrophes naturelles. Les données provenant de ces sources externes enrichissent l'ensemble de données et apportent une valeur ajoutée à l'analyse. De plus, leur collecte en temps réel permet d’utiliser les données pour une analyse en temps réel et de prévenir des résultats inattendus (tels que le délai de livraison, par exemple) au moment de l’exécution. Cependant, les données collectées sont brutes et doivent être traitées pour une analyse efficace. La collecte et le traitement des données en temps réel constituent un énorme défi. La raison principale est que les données proviennent de sources hétérogènes avec une vitesse énorme. La grande vitesse et la variété des données entraînent des défis pour effectuer des opérations de traitement complexes telles que le nettoyage, le filtrage, le traitement de données incorrectes, etc. La diversité des données - structurées, semi-structurées et non structurées - favorise les défis dans le traitement des données à la fois en mode batch et en temps réel. Parce que, différentes techniques peuvent nécessiter des opérations sur différents types de données. Une structure technique permettant de traiter des données hétérogènes est très difficile et n'est pas disponible actuellement. En outre, l'exécution d'opérations de traitement de données en temps réel est très difficile ; des techniques efficaces sont nécessaires pour effectuer les opérations avec des données à haut débit, ce qui ne peut être fait en utilisant des systèmes d'information logistiques conventionnels. Par conséquent, pour exploiter le Big Data dans les processus de services logistiques, une solution efficace pour la collecte et le traitement des données en temps réel et en mode batch est essentielle. Dans cette thèse, nous avons développé et expérimenté deux méthodes pour le traitement des données: SANA et IBRIDIA. SANA est basée sur un classificateur multinomial Naïve Bayes, tandis qu'IBRIDIA s'appuie sur l'algorithme de classification hiérarchique (CLH) de Johnson, qui est une technologie hybride permettant la collecte et le traitement de données par lots et en temps réel. SANA est une solution de service qui traite les données non structurées. Cette méthode sert de système polyvalent pour extraire les événements pertinents, y compris le contexte (tel que le lieu, l'emplacement, l'heure, etc.). En outre, il peut être utilisé pour effectuer une analyse de texte sur les événements ciblés. IBRIDIA a été conçu pour traiter des données inconnues provenant de sources externes et les regrouper en temps réel afin d'acquérir une connaissance / compréhension des données permettant d'extraire des événements pouvant entraîner un retard de livraison. Selon nos expériences, ces deux approches montrent une capacité unique à traiter des données logistiques<br>Internet of Things (IoT) is leading to a paradigm shift within the logistics industry. The advent of IoT has been changing the logistics service management ecosystem. Logistics services providers today use sensor technologies such as GPS or telemetry to collect data in realtime while the delivery is in progress. The realtime collection of data enables the service providers to track and manage their shipment process efficiently. The key advantage of realtime data collection is that it enables logistics service providers to act proactively to prevent outcomes such as delivery delay caused by unexpected/unknown events. Furthermore, the providers today tend to use data stemming from external sources such as Twitter, Facebook, and Waze. Because, these sources provide critical information about events such as traffic, accidents, and natural disasters. Data from such external sources enrich the dataset and add value in analysis. Besides, collecting them in real-time provides an opportunity to use the data for on-the-fly analysis and prevent unexpected outcomes (e.g., such as delivery delay) at run-time. However, data are collected raw which needs to be processed for effective analysis. Collecting and processing data in real-time is an enormous challenge. The main reason is that data are stemming from heterogeneous sources with a huge speed. The high-speed and data variety fosters challenges to perform complex processing operations such as cleansing, filtering, handling incorrect data, etc. The variety of data – structured, semi-structured, and unstructured – promotes challenges in processing data both in batch-style and real-time. Different types of data may require performing operations in different techniques. A technical framework that enables the processing of heterogeneous data is heavily challenging and not currently available. In addition, performing data processing operations in real-time is heavily challenging; efficient techniques are required to carry out the operations with high-speed data, which cannot be done using conventional logistics information systems. Therefore, in order to exploit Big Data in logistics service processes, an efficient solution for collecting and processing data in both realtime and batch style is critically important. In this thesis, we developed and experimented with two data processing solutions: SANA and IBRIDIA. SANA is built on Multinomial Naïve Bayes classifier whereas IBRIDIA relies on Johnson's hierarchical clustering (HCL) algorithm which is hybrid technology that enables data collection and processing in batch style and realtime. SANA is a service-based solution which deals with unstructured data. It serves as a multi-purpose system to extract the relevant events including the context of the event (such as place, location, time, etc.). In addition, it can be used to perform text analysis over the targeted events. IBRIDIA was designed to process unknown data stemming from external sources and cluster them on-the-fly in order to gain knowledge/understanding of data which assists in extracting events that may lead to delivery delay. According to our experiments, both of these approaches show a unique ability to process logistics data. However, SANA is found more promising since the underlying technology (Naïve Bayes classifier) out-performed IBRIDIA from performance measuring perspectives. It is clearly said that SANA was meant to generate a graph knowledge from the events collected immediately in realtime without any need to wait, thus reaching maximum benefit from these events. Whereas, IBRIDIA has an important influence within the logistics domain for identifying the most influential category of events that are affecting the delivery. Unfortunately, in IBRIRDIA, we should wait for a minimum number of events to arrive and always we have a cold start. Due to the fact that we are interested in re-optimizing the route on the fly, we adopted SANA as our data processing framework
APA, Harvard, Vancouver, ISO, and other styles
5

Mena, Rodrigo. "Risk–based modeling, simulation and optimization for the integration of renewable distributed generation into electric power networks." Thesis, Châtenay-Malabry, Ecole centrale de Paris, 2015. http://www.theses.fr/2015ECAP0034/document.

Full text
Abstract:
Il est prévu que la génération distribuée par l’entremise d’énergie de sources renouvelables (DG) continuera à jouer un rôle clé dans le développement et l’exploitation des systèmes de puissance électrique durables, efficaces et fiables, en vertu de cette fournit une alternative pratique de décentralisation et diversification de la demande globale d’énergie, bénéficiant de sources d’énergie plus propres et plus sûrs. L’intégration de DG renouvelable dans les réseaux électriques existants pose des défis socio–technico–économiques, qu’ont attirés de la recherche et de progrès substantiels.Dans ce contexte, la présente thèse a pour objet la conception et le développement d’un cadre de modélisation, simulation et optimisation pour l’intégration de DG renouvelable dans des réseaux de puissance électrique existants. Le problème spécifique à considérer est celui de la sélection de la technologie,la taille et l’emplacement de des unités de génération renouvelable d’énergie, sous des contraintes techniques, opérationnelles et économiques. Dans ce problème, les questions de recherche clés à aborder sont: (i) la représentation et le traitement des variables physiques incertains (comme la disponibilité de les diverses sources primaires d’énergie renouvelables, l’approvisionnement d’électricité en vrac, la demande de puissance et l’apparition de défaillances de composants) qui déterminent dynamiquement l’exploitation du réseau DG–intégré, (ii) la propagation de ces incertitudes sur la réponse opérationnelle du système et le suivi du risque associé et (iii) les efforts de calcul intensif résultant du problème complexe d’optimisation combinatoire associé à l’intégration de DG renouvelable.Pour l’évaluation du système avec un plan d’intégration de DG renouvelable donné, un modèle de calcul de simulation Monte Carlo non–séquentielle et des flux de puissance optimale (MCS–OPF) a été conçu et mis en oeuvre, et qui émule l’exploitation du réseau DG–intégré. Réalisations aléatoires de scénarios opérationnels sont générés par échantillonnage à partir des différentes distributions des variables incertaines, et pour chaque scénario, la performance du système est évaluée en termes économiques et de la fiabilité de l’approvisionnement en électricité, représenté par le coût global (CG) et l’énergie non fournie (ENS), respectivement. Pour mesurer et contrôler le risque par rapport à la performance du système, deux indicateurs sont introduits, la valeur–à–risque conditionnelle(CVaR) et l’écart du CVaR (DCVaR).Pour la sélection optimale de la technologie, la taille et l’emplacement des unités DG renouvelables,deux approches distinctes d’optimisation multi–objectif (MOO) ont été mis en oeuvre par moteurs de recherche d’heuristique d’optimisation (HO). La première approche est basée sur l’algorithme génétique élitiste de tri non-dominé (NSGA–II) et vise à la réduction concomitante de l’espérance mathématique de CG et de ENS, dénotés ECG et EENS, respectivement, combiné avec leur valeurs correspondent de CVaR(CG) et CVaR(ENS); la seconde approche effectue un recherche à évolution différentielle MOO (DE) pour minimiser simultanément ECG et s’écart associé DCVaR(CG). Les deux approches d’optimisation intègrent la modèle de calcul MCS–OPF pour évaluer la performance de chaque réseau DG–intégré proposé par le moteur de recherche HO.Le défi provenant de les grands efforts de calcul requises par les cadres de simulation et d’optimisation proposée a été abordée par l’introduction d’une technique originale, qui niche l’analyse de classification hiérarchique (HCA) dans un moteur de recherche de DE.Exemples d’application des cadres proposés ont été élaborés, concernant une adaptation duréseau test de distribution électrique IEEE 13–noeuds et un cadre réaliste du système test de sous–transmission et de distribution IEEE 30–noeuds. [...]<br>Renewable distributed generation (DG) is expected to continue playing a fundamental role in the development and operation of sustainable, efficient and reliable electric power systems, by virtue of offering a practical alternative to diversify and decentralize the overall power generation, benefiting from cleaner and safer energy sources. The integration of renewable DG in the existing electric powernetworks poses socio–techno–economical challenges, which have attracted substantial research and advancement.In this context, the focus of the present thesis is the design and development of a modeling,simulation and optimization framework for the integration of renewable DG into electric powernetworks. The specific problem considered is that of selecting the technology, size and location of renewable generation units, under technical, operational and economic constraints. Within this problem, key research questions to be addressed are: (i) the representation and treatment of the uncertain physical variables (like the availability of diverse primary renewable energy sources, bulk–power supply, power demands and occurrence of components failures) that dynamically determine the DG–integrated network operation, (ii) the propagation of these uncertainties onto the system operational response and the control of the associated risk and (iii) the intensive computational efforts resulting from the complex combinatorial optimization problem of renewable DG integration.For the evaluation of the system with a given plan of renewable DG, a non–sequential MonteCarlo simulation and optimal power flow (MCS–OPF) computational model has been designed and implemented, that emulates the DG–integrated network operation. Random realizations of operational scenarios are generated by sampling from the different uncertain variables distributions,and for each scenario the system performance is evaluated in terms of economics and reliability of power supply, represented by the global cost (CG) and the energy not supplied (ENS), respectively.To measure and control the risk relative to system performance, two indicators are introduced, the conditional value–at–risk (CVaR) and the CVaR deviation (DCVaR).For the optimal technology selection, size and location of the renewable DG units, two distinct multi–objective optimization (MOO) approaches have been implemented by heuristic optimization(HO) search engines. The first approach is based on the fast non–dominated sorting genetic algorithm(NSGA–II) and aims at the concurrent minimization of the expected values of CG and ENS, thenECG and EENS, respectively, combined with their corresponding CVaR(CG) and CVaR(ENS) values; the second approach carries out a MOO differential evolution (DE) search to minimize simultaneously ECG and its associated deviation DCVaR(CG). Both optimization approaches embed the MCS–OPF computational model to evaluate the performance of each DG–integrated network proposed by the HO search engine. The challenge coming from the large computational efforts required by the proposed simulation and optimization frameworks has been addressed introducing an original technique, which nests hierarchical clustering analysis (HCA) within a DE search engine. Examples of application of the proposed frameworks have been worked out, regarding an adaptation of the IEEE 13 bus distribution test feeder and a realistic setting of the IEEE 30 bussub–transmission and distribution test system. The results show that these frameworks are effectivein finding optimal DG–integrated networks solutions, while controlling risk from two distinctperspectives: directly through the use of CVaR and indirectly by targeting uncertainty in the form ofDCVaR. Moreover, CVaR acts as an enabler of trade–offs between optimal expected performanceand risk, and DCVaR integrates also uncertainty into the analysis, providing a wider spectrum ofinformation for well–supported and confident decision making
APA, Harvard, Vancouver, ISO, and other styles
6

Courjault-Rade, Vincent. "Ballstering : un algorithme de clustering dédié à de grands échantillons." Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30126/document.

Full text
Abstract:
Ballstering appartient à la famille des méthodes de machine learning qui ont pour but de regrouper en classes les éléments formant la base de données étudiée et ce sans connaissance au préalable des classes qu'elle contient. Ce type de méthodes, dont le représentant le plus connu est k-means, se rassemblent sous le terme de "partitionnement de données" ou "clustering". Récemment un algorithme de partitionnement "Fast Density Peak Clustering" (FDPC) paru dans le journal Science a suscité un intérêt certain au sein de la communauté scientifique pour son aspect innovant et son efficacité sur des données distribuées en groupes non-concentriques. Seulement cet algorithme présente une complexité telle qu'il ne peut être aisément appliqué à des données volumineuses. De plus nous avons pu identifier plusieurs faiblesses pouvant nuire très fortement à la qualité de ses résultats, dont en particulier la présence d'un paramètre général dc difficile à choisir et ayant malheureusement un impact non-négligeable. Compte tenu de ces limites, nous avons repris l'idée principale de FDPC sous un nouvel angle puis apporté successivement des modifications en vue d'améliorer ses points faibles. Modifications sur modifications ont finalement donné naissance à un algorithme bien distinct que nous avons nommé Ballstering. Le fruit de ces 3 années de thèse se résume principalement en la conception de ce dernier, un algorithme de partitionnement dérivé de FDPC spécialement conçu pour être efficient sur de grands volumes de données. Tout comme son précurseur, Ballstering fonctionne en deux phases: une phase d'estimation de densité suivie d'une phase de partitionnement. Son élaboration est principalement fondée sur la construction d'une sous-procédure permettant d'effectuer la première phase de FDPC avec une complexité nettement amoindrie tout évitant le choix de dc qui devient dynamique, déterminé suivant la densité locale. Nous appelons ICMDW cette sous-procédure qui représente une partie conséquente de nos contributions. Nous avons également remanié certaines des définitions au cœur de FDPC et revu entièrement la phase 2 en s'appuyant sur la structure arborescente des résultats fournis par ICDMW pour finalement produire un algorithme outrepassant toutes les limitations que nous avons identifié chez FDPC<br>Ballstering belongs to the machine learning methods that aim to group in classes a set of objects that form the studied dataset, without any knowledge of true classes within it. This type of methods, of which k-means is one of the most famous representative, are named clustering methods. Recently, a new clustering algorithm "Fast Density Peak Clustering" (FDPC) has aroused great interest from the scientific community for its innovating aspect and its efficiency on non-concentric distributions. However this algorithm showed a such complexity that it can't be applied with ease on large datasets. Moreover, we have identified several weaknesses that impact the quality results and the presence of a general parameter dc difficult to choose while having a significant impact on the results. In view of those limitations, we reworked the principal idea of FDPC in a new light and modified it successively to finally create a distinct algorithm that we called Ballstering. The work carried out during those three years can be summarised by the conception of this clustering algorithm especially designed to be effective on large datasets. As its Precursor, Ballstering works in two phases: An estimation density phase followed by a clustering step. Its conception is mainly based on a procedure that handle the first step with a lower complexity while avoiding at the same time the difficult choice of dc, which becomes automatically defined according to local density. We name ICMDW this procedure which represent a consistent part of our contributions. We also overhauled cores definitions of FDPC and entirely reworked the second phase (relying on the graph structure of ICMDW's intermediate results), to finally produce an algorithm that overcome all the limitations that we have identified
APA, Harvard, Vancouver, ISO, and other styles
7

Jaddi, Farid. "CSR : une extension hiérarchique adaptative du protocole de routage ad hoc DSR." Phd thesis, Toulouse, INPT, 2006. http://oatao.univ-toulouse.fr/7471/1/jaddi.pdf.

Full text
Abstract:
La facilité de déploiement des réseaux ad hoc s'avère utile lorsque la mise en place d'une infrastucture est impossible. L'objectif du routage est de trouver les chemins tout en considérant les contraintes de bande passante et de dynamicité de la topologie. Dans cette thèse, nous nous sommes intéressés à l'adaptation du type de routage selon les conditions de mobilité et de densité du réseau. Nous proposons une méthode d'auto-adaptation du mode de routage en fonction de la mobilité et de la densité. Les métriques de mobilité et de densité, les modes de routages ainsi que les transitions entre les modes ont été définis. Nous avons montré la faisabilité de notre méthode en proposant une extension hiérarchique du protocole plat DSR que nous avons nommée CSR. Nous avons spécifié les procédures CSR et les avons implantée sous ns2. Nous avons mené une étude de performances du CSR en le comparant aux protocoles préconisés par l'IETF pour montrer l'intérêt de l'adaptation du mode de routage.
APA, Harvard, Vancouver, ISO, and other styles
8

Boutin, Victor. "Etude d’un algorithme hiérarchique de codage épars et prédictif : vers un modèle bio-inspiré de la perception visuelle." Thesis, Aix-Marseille, 2020. http://www.theses.fr/2020AIXM0028.

Full text
Abstract:
La représentation concise et efficace de l'information est un problème qui occupe une place centrale dans l'apprentissage machine. Le cerveau, et plus particulièrement le cortex visuel, ont depuis longtemps trouvé des solutions performantes et robustes afin de résoudre un tel problème. A l'échelle locale, le codage épars est l'un des mécanismes les plus prometteurs pour modéliser le traitement de l'information au sein des populations de neurones dans le cortex visuel. A l'échelle structurelle, le codage prédictif suggère que les signaux descendants observés dans le cortex visuel modulent l'activité des neurones pour inclure des détails contextuels au flux d'information ascendant. Cette thèse propose de combiner codage épars et codage prédictif au sein d'un modèle hiérarchique et convolutif. D'un point de vue computationnel, nous démontrons que les connections descendantes, introduites par le codage prédictif, permettent une convergence meilleure et plus rapide du modèle. De plus, nous analysons les effets des connections descendantes sur l'organisation des populations de neurones, ainsi que leurs conséquences sur la manière dont notre algorithme se représente les images. Nous montrons que les connections descendantes réorganisent les champs d'association de neurones dans V1 afin de permettre une meilleure intégration des contours. En outre, nous observons que ces connections permettent une meilleure reconstruction des images bruitées. Nos résultats suggèrent que l'inspiration des neurosciences fournit un cadre prometteur afin de développer des algorithmes de vision artificielles plus performants et plus robustes<br>Building models to efficiently represent images is a central and difficult problem in the machine learning community. The neuroscientific study of the early visual cortical areas is a great source of inspiration to find economical and robust solutions. For instance, Sparse Coding (SC) is one of the most successful frameworks to model neural computation at the local scale in the visual cortex. At the structural scale of the ventral visual pathways, the Predictive Coding (PC) theory has been proposed to model top-down and bottom-up interaction between cortical regions. The presented thesis introduces a model called the Sparse Deep Predictive Coding (SDPC) that combines Sparse Coding and Predictive Coding in a hierarchical and convolutional architecture. We analyze the SPDC from a computational and a biological perspective. In terms of computation, the recurrent connectivity introduced by the PC framework allows the SDPC to converge to lower prediction errors with a higher convergence rate. In addition, we combine neuroscientific evidence with machine learning methods to analyze the impact of recurrent processing at both the neural organization and representational level. At the neural organization level, the feedback signal of the model accounted for a reorganization of the V1 association fields that promotes contour integration. At the representational level, the SDPC exhibited significant denoising ability which is highly correlated with the strength of the feedback from V2 to V1. These results from the SDPC model demonstrate that neuro-inspiration might be the right methodology to design more powerful and more robust computer vision algorithms
APA, Harvard, Vancouver, ISO, and other styles
9

Moussaoui, Omar. "Routage hiérarchique basé sur le clustering : garantie de QoS pour les applications multicast et réseaux de capteurs." Cergy-Pontoise, 2006. http://biblioweb.u-cergy.fr/theses/06CERG0300.pdf.

Full text
Abstract:
Les avancées technologiques dans le domaine des réseaux informatique ont permis l'essor de très vastes et différents champs d'applications. Cette diversité amène les réseaux informatiques à supporter différents types de trafics et à fournir des services qui doivent être à la fois génériques et adaptatifs aux applications car les propriétés de qualité de service (QoS) diffèrent d'un type d'applications à un autre. Par exemple, les applications multimédia en temps réel requièrent des délais de transfert très minimes, une garantie de bande passante et un faible taux de perte de paquets, alors que les applications des réseaux de capteurs sans fil (RCSF) doivent principalement résoudre le problème de gestion de la consommation d'énergie. Cependant, ces deux types d'applications font face au problème du passage à l'échelle. Dans cette optique, le routage hiérarchique basé sur le dustering s'impose comme une approche très prometteuse pour résoudre ce problème. Notre travail par le biais de cette thèse est de s'intéresser à l'application de ce type de routage dans différents environnements pour offrir de meilleures QoS aux applications multimédia et aux applications des RCSF. Plus concrètement, les contributions de cette thèse sont organisées autour de deux grands axes: (I) Garantie de la QoS pour les applications multicast des flux multimédia sur Internet; et (ii) Optimisation de la consommation d'énergie dans les RCSF<br>Advances in networks and computers have prompted the development of very vast and various fields of applications. This diversity leads the networks ta support various types of traffic and to provide services which must be at the same time generic and adaptive because properties of quality of service (QoS) differ from a type of application to another. For example, the multi-media and real-time applications require low end-ta-end delays, bandwidth guarantee and low drop rate, whereas prolonged network lifetime is the main requirement for many Wireless Sensor Networks (WSN) applications. However, these two types of applications are established against the problem of scalability. Accordingly, the hierarchical routing based on the clustering is an effective approach for solving this problem. Indeed, clustering-based approach allow to reduce the complexity of the routing on a large scale by the means of (i) the division of the network into differem clusters based on sorne criteria of QoS, and (ii) the management of the intra-cluster communications locally by the elected nodes as Cluster Heads (CHs). Since the requirements in QoS depend on the applications type, the clustering procedure must be adapted to fulfil the requiremems of each application type. Our work through this thesis is related ta the hierarchical routing protocol based on the clustering and its application in various environments to offer a good QoS to the multi-media real-time applications, and the WSN applications
APA, Harvard, Vancouver, ISO, and other styles
10

Wang, Xinyu. "Toward Scalable Hierarchical Clustering and Co-clustering Methods : application to the Cluster Hypothesis in Information Retrieval." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE2123/document.

Full text
Abstract:
Comme une méthode d’apprentissage automatique non supervisé, la classification automatique est largement appliquée dans des tâches diverses. Différentes méthodes de la classification ont leurs caractéristiques uniques. La classification hiérarchique, par exemple, est capable de produire une structure binaire en forme d’arbre, appelée dendrogramme, qui illustre explicitement les interconnexions entre les instances de données. Le co-clustering, d’autre part, génère des co-clusters, contenant chacun un sous-ensemble d’instances de données et un sous-ensemble d’attributs de données. L’application de la classification sur les données textuelles permet d’organiser les documents et de révéler les connexions parmi eux. Cette caractéristique est utile dans de nombreux cas, par exemple, dans les tâches de recherche d’informations basées sur la classification. À mesure que la taille des données disponibles augmente, la demande de puissance du calcul augmente. En réponse à cette demande, de nombreuses plates-formes du calcul distribué sont développées. Ces plates-formes utilisent les puissances du calcul collectives des machines, pour couper les données en morceaux, assigner des tâches du calcul et effectuer des calculs simultanément.Dans cette thèse, nous travaillons sur des données textuelles. Compte tenu d’un corpus de documents, nous adoptons l’hypothèse de «bag-of-words» et applique le modèle vectoriel. Tout d’abord, nous abordons les tâches de la classification en proposant deux méthodes, Sim_AHC et SHCoClust. Ils représentent respectivement un cadre des méthodes de la classification hiérarchique et une méthode du co-clustering hiérarchique, basé sur la proximité. Nous examinons leurs caractéristiques et performances du calcul, grâce de déductions mathématiques, de vérifications expérimentales et d’évaluations. Ensuite, nous appliquons ces méthodes pour tester l’hypothèse du cluster, qui est l’hypothèse fondamentale dans la recherche d’informations basée sur la classification. Dans de tels tests, nous utilisons la recherche du cluster optimale pour évaluer l’efficacité de recherche pour tout les méthodes hiérarchiques unifiées par Sim_AHC et par SHCoClust . Nous aussi examinons l’efficacité du calcul et comparons les résultats. Afin d’effectuer les méthodes proposées sur des ensembles de données plus vastes, nous sélectionnons la plate-forme d’Apache Spark et fournissons implémentations distribuées de Sim_AHC et de SHCoClust. Pour le Sim_AHC distribué, nous présentons la procédure du calcul, illustrons les difficultés rencontrées et fournissons des solutions possibles. Et pour SHCoClust, nous fournissons une implémentation distribuée de son noyau, l’intégration spectrale. Dans cette implémentation, nous utilisons plusieurs ensembles de données qui varient en taille pour examiner l’échelle du calcul sur un groupe de noeuds<br>As a major type of unsupervised machine learning method, clustering has been widely applied in various tasks. Different clustering methods have different characteristics. Hierarchical clustering, for example, is capable to output a binary tree-like structure, which explicitly illustrates the interconnections among data instances. Co-clustering, on the other hand, generates co-clusters, each containing a subset of data instances and a subset of data attributes. Applying clustering on textual data enables to organize input documents and reveal connections among documents. This characteristic is helpful in many cases, for example, in cluster-based Information Retrieval tasks. As the size of available data increases, demand of computing power increases. In response to this demand, many distributed computing platforms are developed. These platforms use the collective computing powers of commodity machines to parallelize data, assign computing tasks and perform computation concurrently.In this thesis, we first address text clustering tasks by proposing two clustering methods, Sim_AHC and SHCoClust. They respectively represent a similarity-based hierarchical clustering and a similarity-based hierarchical co-clustering. We examine their properties and performances through mathematical deduction, experimental verification and evaluation. Then we apply these methods in testing the cluster hypothesis, which is the fundamental assumption in cluster-based Information Retrieval. In such tests, we apply the optimal cluster search to evaluation the retrieval effectiveness of different clustering methods. We examine the computing efficiency and compare the results of the proposed tests. In order to perform clustering on larger datasets, we select Apache Spark platform and provide distributed implementation of Sim_AHC and of SHCoClust. For distributed Sim_AHC, we present the designed computing procedure, illustrate confronted difficulties and provide possible solutions. And for SHCoClust, we provide a distributed implementation of its core, spectral embedding. In this implementation, we use several datasets that vary in size to examine scalability
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography