Дисертації з теми "Recommandation de données d'apprentissage"

Щоб переглянути інші типи публікацій з цієї теми, перейдіть за посиланням: Recommandation de données d'apprentissage.

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся з топ-50 дисертацій для дослідження на тему "Recommandation de données d'apprentissage".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Переглядайте дисертації для різних дисциплін та оформлюйте правильно вашу бібліографію.

1

Joshi, Bikash. "Algorithmes d'apprentissage pour les grandes masses de données : Application à la classification multi-classes et à l'optimisation distribuée asynchrone." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM046/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objectif de cette thèse est de développer des algorithmes d'apprentissage adaptés aux grandes masses de données. Dans un premier temps, nous considérons le problème de la classification avec un grand nombre de classes. Afin d'obtenir un algorithme adapté à la grande dimension, nous proposons un algorithme qui transforme le problème multi-classes en un problème de classification binaire que nous sous-échantillonnons de manière drastique. Afin de valider cette méthode, nous fournissons une analyse théorique et expérimentale détaillée.Dans la seconde partie, nous approchons le problème de l'apprentissage sur données distribuées en introduisant un cadre asynchrone pour le traitement des données. Nous appliquons ce cadre à deux applications phares : la factorisation de matrice pour les systèmes de recommandation en grande dimension et la classification binaire
This thesis focuses on developing scalable algorithms for large scale machine learning. In this work, we present two perspectives to handle large data. First, we consider the problem of large-scale multiclass classification. We introduce the task of multiclass classification and the challenge of classifying with a large number of classes. To alleviate these challenges, we propose an algorithm which reduces the original multiclass problem to an equivalent binary one. Based on this reduction technique, we introduce a scalable method to tackle the multiclass classification problem for very large number of classes and perform detailed theoretical and empirical analyses.In the second part, we discuss the problem of distributed machine learning. In this domain, we introduce an asynchronous framework for performing distributed optimization. We present application of the proposed asynchronous framework on two popular domains: matrix factorization for large-scale recommender systems and large-scale binary classification. In the case of matrix factorization, we perform Stochastic Gradient Descent (SGD) in an asynchronous distributed manner. Whereas, in the case of large-scale binary classification we use a variant of SGD which uses variance reduction technique, SVRG as our optimization algorithm
2

Labiadh, Mouna. "Méthodologie de construction de modèles adaptatifs pour la simulation énergétique des bâtiments." Thesis, Lyon, 2021. http://www.theses.fr/2021LYSE1158.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La modélisation prédictive au sein des bâtiments est essentielle pour le contrôle intelligent, la coordination et la planification efficaces des réseaux d'énergie. L'un des moyens de modélisation prédictive utilise l'apprentissage automatique. En plus de leur bonne performance, ces approches sont rapides et permettent une intégration facile du bâtiment dans des systèmes intelligents. Cependant, un modèle d'apprentissage précis s'appuie essentiellement sur la disponibilité des données historiques en quantité suffisante, notamment quand l'apprentissage profond est utilisé. Dans le domaine d'énergie des bâtiments, les données historiques ne sont pas disponibles pour l'entraînement, notamment dans le cas des bâtiments nouvellement construits et nouvellement rénovés. En outre, il est fréquent d'évaluer l'efficacité énergétiques des bâtiments avant leur construction ou rénovation. Dans de tels cas, on dispose uniquement d'une description contextuelle du bâtiment futur et de sa conception. Cette thèse s'intéresse à la tâche de modélisation prédictive de la consommation énergétique des bâtiments quand aucune donnée historique n'est disponible. Pour cela, des données collectées à partir de plusieurs différents bâtiments sources sont exploitées. Ceci est de plus en plus pertinent compte tenu la croissance des initiatives de données ouvertes dans plusieurs secteurs, dont celui de l'énergie. Ainsi, l'idée est de transférer la connaissance entre les modèles de bâtiments. Peu de travaux de recherche sont menés à l'intersection des domaines de modélisation de l'énergie des bâtiments et le transfert d'apprentissage. Le traitement de données multi-sources constitue un défi majeur, vu l'écart de concept qui peut exister entre les différents sources et aussi entre chaque source et cible. Comme contribution, on propose une méthodologie de modélisation prédictive adaptative aux requêtes des utilisateurs. Le premier processus est responsable de la recommandation de données d'apprentissage pertinentes vis-à-vis un bâtiment cible, seulement en utilisant une description contextuelle minimale sur ce dernier (métadonnées). La description contextuelle est modélisée en tant que requête utilisateur. Pour permettre des recommandations spécifiques à la tâche cible, notre approche se base sur l'apprentissage profond de métrique de similarité. Le second processus est responsable de l'entraînement de plusieurs modèles prédictifs sur les données d'apprentissage recommandées par le processus précédent. Ces modèles sont combinés avec une méthode ensembliste pour assurer une bonne performance. L'implémentation de la méthodologie est basée sur les microservices. Les processus indépendants sont, par conséquent, modélisés en tant que microservices à but unique et à source de données séparée. Les métadonnées des bâtiments et leurs séries temporelles recueillies auprès de nombreuses sources sont intégrées au sein d'une vue unifiée et basée sur des ontologies. Les évaluations expérimentales de la méthodologie valident son efficacité et son applicabilité à la tâche de modélisation énergétique des bâtiments. Par ailleurs, vu le caractère générique de sa conception, la méthodologie peut être réutilisée dans d'autres applications dans divers secteurs
Predictive modeling of energy consumption in buildings is essential for intelligent control and efficient planning of energy networks. One way to perform predictive modeling is through machine learning approaches. Alongside their good performance, these approaches are time efficient and facilitates the integration of buildings into smart environments. However, accurate machine learning models rely heavily on collecting relevant building operational data in a sufficient amount, notably when deep learning is used. In the field of buildings energy, historical data are not available for training, such is the case in newly built or newly renovated buildings. Moreover, it is common to verify the energy efficiency of buildings before construction or renovation. For such cases, only a contextual description about the future building and its design is available. The goal of this dissertation is to address the predictive modeling tasks of building energy consumption when no historical data are available for the given target building. To that end, existing data collected from multiple different source buildings are leveraged. This is increasingly relevant with the growth of open data initiatives in various sectors, namely building energy. The main idea is to transfer knowledge across building models. There is little research at the intersection of building energy modeling and knowledge transfer. An important challenge arises when dealing with multi-source data, since large domain shift may exist between different sources and also between each source and the target. As a contribution, a two-fold query-adaptive methodology is developed for cross-building predictive modeling. The first process recommends relevant training data to a target building solely by using a minimal contextual description on it (metadata). Contextual descriptions are provided as user queries. To enable a task-specific recommendation, a deep similarity learning framework is used. The second process trains multiple predictive models based on recommended training data. These models are combined together using an ensemble learning framework to ensure a robust performance. The implementation of the proposed methodology is based on microservices. Logically independent workflows are modeled as microservices with single purposes and separate data sources. Building metadata and time series data collected from multiple sources are integrated into an unified ontology-based view. Experimental evaluation of the predictive model factory validates the effectiveness and the applicability for the use case of building energy modeling. Moreover, because of its generic design, the methodology for query-adaptive cross-domain predictive modeling can be re-used for a diverse range of use cases in different fields
3

Servajean, Maximilien. "Recommandation diversifiée et distribuée pour les données scientifiques." Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20216/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans de nombreux domaines, les nouvelles technologies d'acquisition de l'information ou encore de mesure (e.g. serres de phénotypage robotisées) ont engendré une création phénoménale de données. Nous nous appuyons en particulier sur deux cas d'application réels: les observations de plantes en botanique et les données de phénotypage en biologie. Cependant, nos contributions peuvent être généralisées aux données du Web. Par ailleurs, s'ajoute à la quantité des données leur distribution. Chaque utilisateur stocke en effet ses données sur divers sites hétérogènes (e.g. ordinateurs personnels, serveurs, cloud), données qu'il souhaite partager. Que ce soit pour les observations de botanique ou pour les données de phénotypage en biologie, des solutions collaboratives, comprenant des outils de recherche et de recommandation distribués, bénéficieraient aux utilisateurs. L'objectif général de ce travail est donc de définir un ensemble de techniques permettant le partage et la découverte de données, via l'application d'approches de recherche et de recommandation, dans un environnement distribué (e.g. sites hétérogènes).Pour cela, la recherche et la recommandation permettent aux utilisateurs de se voir présenter des résultats, ou des recommandations, à la fois pertinents par rapport à une requête qu'ils auraient soumise et par rapport à leur profil. Les techniques de diversification permettent de présenter aux utilisateurs des résultats offrant une meilleure nouveauté tout en évitant de les lasser par des contenus redondants et répétitifs. Grâce à la diversité, une distance entre toutes les recommandations est en effet introduite afin que celles-ci soient les plus représentatives possibles de l'ensemble des résultats pertinents. Peu de travaux exploitent la diversité des profils des utilisateurs partageant les données. Dans ce travail de thèse, nous montrons notamment que dans certains scénarios, diversifier les profils des utilisateurs apporte une nette amélioration en ce qui concerne la qualité des résultats~: des sondages montrent que dans plus de 75% des cas, les utilisateurs préfèrent la diversité des profils à celle des contenus. Par ailleurs, afin d'aborder les problèmes de distribution des données sur des sites hétérogènes, deux approches sont possibles. La première, les réseaux P2P, consiste à établir des liens entre chaque pair (noeud du réseau): étant donné un pair p, ceux avec lesquels il a établi un lien représentent son voisinage. Celui-ci est utilisé lorsque p soumet une requête q, pour y répondre. Cependant, dans les solutions de l'état de l'art, la redondance des profils des pairs présents dans les différents voisinages limitent la capacité du système à retrouver des résultats pertinents sur le réseau, étant donné les requêtes soumises par les utilisateurs. Nous montrons, dans ce travail, qu'introduire de la diversité dans le calcul du voisinage, en augmentant la couverture, permet un net gain en termes de qualité. En effet, en tenant compte de la diversité, chaque pair du voisinage a une plus forte probabilité de retourner des résultats nouveaux à l'utilisateur courant: lorsqu'une requête est soumise par un pair, notre approche permet de retrouver jusqu'à trois fois plus de bons résultats sur le réseau. La seconde approche de la distribution est le multisite. Généralement, dans les solutions de l'état de l'art, les sites sont homogènes et représentés par de gros centres de données. Dans notre contexte, nous proposons une approche permettant la collaboration de sites hétérogènes, tels que de petits serveurs d'équipe, des ordinateurs personnels ou de gros sites dans le cloud. Un prototype est issu de cette contribution. Deux versions du prototype ont été réalisées afin de répondre aux deux cas d'application, en s'adaptant notamment aux types des données
In many fields, novel technologies employed in information acquisition and measurement (e.g. phenotyping automated greenhouses) are at the basis of a phenomenal creation of data. In particular, we focus on two real use cases: plants observations in botany and phenotyping data in biology. Our contributions can be, however, generalized to Web data. In addition to their huge volume, data are also distributed. Indeed, each user stores their data in many heterogeneous sites (e.g. personal computers, servers, cloud); yet he wants to be able to share them. In both use cases, collaborative solutions, including distributed search and recommendation techniques, could benefit to the user.Thus, the global objective of this work is to define a set of techniques enabling sharing and discovery of data in heterogeneous distributed environment, through the use of search and recommendation approaches.For this purpose, search and recommendation allow users to be presented sets of results, or recommendations, that are both relevant to the queries submitted by the users and with respect to their profiles. Diversification techniques allow users to receive results with better novelty while avoiding redundant and repetitive content. By introducing a distance between each result presented to the user, diversity enables to return a broader set of relevant items.However, few works exploit profile diversity, which takes into account the users that share each item. In this work, we show that in some scenarios, considering profile diversity enables a consequent increase in results quality: surveys show that in more than 75% of the cases, users would prefer profile diversity to content diversity.Additionally, in order to address the problems related to data distribution among heterogeneous sites, two approaches are possible. First, P2P networks aim at establishing links between peers (nodes of the network): creating in this way an overlay network, where peers directly connected to a given peer p are known as his neighbors. This overlay is used to process queries submitted by each peer. However, in state of the art solutions, the redundancy of the peers in the various neighborhoods limits the capacity of the system to retrieve relevant items on the network, given the queries submitted by the users. In this work, we show that introducing diversity in the computation of the neighborhood, by increasing the coverage, enables a huge gain in terms of quality. By taking into account diversity, each peer in a given neighborhood has indeed, a higher probability to return different results given a keywords query compared to the other peers in the neighborhood. Whenever a query is submitted by a peer, our approach can retrieve up to three times more relevant items than state of the art solutions.The second category of approaches is called multi-site. Generally, in state of the art multi-sites solutions, the sites are homogeneous and consist in big data centers. In our context, we propose an approach enabling sharing among heterogeneous sites, such as small research teams servers, personal computers or big sites in the cloud. A prototype regrouping all contributions have been developed, with two versions addressing each of the use cases considered in this thesis
4

Collobert, Ronan. "Algorithmes d'Apprentissage pour grandes bases de données." Paris 6, 2004. http://www.theses.fr/2004PA066063.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
5

Pradel, Bruno. "Evaluation des systèmes de recommandation à partir d'historiques de données." Paris 6, 2013. http://www.theses.fr/2013PA066263.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse présente différents protocoles d'évaluations permettantune meilleure estimation des erreurs de systèmes de recommandationsconstruits à partir d'historiques de données d'utilisateurs (ie sansinteractions directes avec les utilisateurs du système). Dans un premier chapitre de contribution, nous présentons lesrésultats d'une étude de cas d'un système de recommandation uniquementbasé sur les données d'achats d'un magasin de bricolage. Larecommandation est une tâche complexe qui à été souvent assimiléeuniquement à tache de prédiction de notes. Dans cette étude, nouscherchons à prédire les achats qu'un client va effectuer et non lanote qu'il attribuerait à un produit. Les données de notes étantindisponibles pour bon nombre d'industriels, cela correspond à uneapplication fréquemment rencontrée en pratique mais pourtant rarementtraitée dans la littérature. Dans ce cadre, nous évaluons lesperformances de plusieurs algorithmes de filtrage collaboratif del'état de l'art. Nous montrons comment certaines modifications desprotocoles d'apprentissages et de tests, ainsi que l'apportd'information de contexte, aboutit à de fortes variations desperformances entre algorithmes et à une sélection de modèle différente. Dans les chapitres suivants, nous abordons la problématique del'évaluation d'algorithmes de filtrage collaboratif à partir denotes. Dans un deuxième chapitre, nous détaillons notre participationau challenge de recommandation contextuelle de films CAMRa. Cechallenge propose deux modifications du protocole classique deprédiction de notes: les algorithmes sont évalués en considérant desmesures d'ordonnancement et les notes sont échantillonnées en test demanière temporelle sur deux périodes spécifiques de l'année: lasemaine de Noël et de la cérémonie des Oscars. Nous proposons unalgorithme de recommandations personnalisées qui prend en compte lesvariations temporelles de la popularité des items. La dernière contribution de cette thèse étudie l'influence duprocessus d'observations des notes sur les mesures de performancesTopK (rappel/ précision). Les utilisateurs choisissent les itemsqu'ils veulent noter, ainsi les notes sont obtenues par un processusd'observations non aléatoires. D'une part, certains items reçoiventbeaucoup plus de notes que les autres, et d'autre part, les notes"positives" sont sur-observés car les utilisateurs notent plusfréquemment les items qu'ils aiment. Nous proposons une analysethéorique de ces phénomènes et présentons également des résultatsd'expériences effectuées à l'aide de données Yahoo! réunissant desnotes collectées à la fois de manière classique et de manièrealéatoire. Nous montrons notamment qu'une prise en compte des notesmanquantes comme négatives en apprentissage aboutit à de bonnesperformances sur les mesures TopK, mais que ces performances peuventêtre trompeuses en favorisant des algorithmes modélisant la popularitédes items plus que les réelles préférences des utilisateurs
This thesis presents various experimental protocols leading to abetter offline estimation of errors in recommender systems. As a first contribution, results form a case study of a recommendersystem based on purchased data will be presented. Recommending itemsis a complex task that has been mainly studied considering solelyratings data. In this study, we put the stress on predicting thepurchase a customer will make rather than the rating he will assign toan item. While ratings data are not available for many industries andpurchases data widely used, very few studies considered purchasesdata. In that setting, we compare the performances of variouscollaborative filtering models from the litterature. We notably showthat some changes the training and testing phases, and theintroduction of contextual information lead to major changes of therelative perfomances of algorithms. The following contributions will focus on the study of ratings data. Asecond contribution will present our participation to the Challenge onContext-Aware Movie Recommendation. This challenge provides two majorchanges in the standard ratings prediction protocol: models areevaluated conisdering ratings metrics and tested on two specificsperiod of the year: Christmas and Oscars. We provides personnalizedrecommendation modeling the short-term evolution of the popularitiesof movies. Finally, we study the impact of the observation process of ratings onranking evaluation metrics. Users choose the items they want to rateand, as a result, ratings on items are not observed at random. First,some items receive a lot more ratings than others and secondly, highratings are more likely to be oberved than poor ones because usersmainly rate the items they likes. We propose a formal analysis ofthese effects on evaluation metrics and experiments on the Yahoo!Musicdataset, gathering standard and randomly collected ratings. We showthat considering missing ratings as negative during training phaseleads to good performances on the TopK task, but these performancescan be misleading favoring methods modeling the popularities of itemsmore than the real tastes of users
6

Ben, Ellefi Mohamed. "La recommandation des jeux de données basée sur le profilage pour le liage des données RDF." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT276/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Avec l’émergence du Web de données, notamment les données ouvertes liées, une abondance de données est devenue disponible sur le web. Cependant, les ensembles de données LOD et leurs sous-graphes inhérents varient fortement par rapport a leur taille, le thème et le domaine, les schémas et leur dynamicité dans le temps au niveau des données. Dans ce contexte, l'identification des jeux de données appropriés, qui répondent a des critères spécifiques, est devenue une tâche majeure, mais difficile a soutenir, surtout pour répondre a des besoins spécifiques tels que la recherche d'entités centriques et la recherche des liens sémantique des données liées. Notamment, en ce qui concerne le problème de liage des données, le besoin d'une méthode efficace pour la recommandation des jeux de données est devenu un défi majeur, surtout avec l'état actuel de la topologie du LOD, dont la concentration des liens est très forte au niveau des graphes populaires multi-domaines tels que DBpedia et YAGO, alors qu'une grande liste d'autre jeux de données considérés comme candidats potentiels pour le liage est encore ignorée. Ce problème est dû a la tradition du web sémantique dans le traitement du problème de "identification des jeux de données candidats pour le liage". Bien que la compréhension de la nature du contenu d'un jeu de données spécifique est une condition cruciale pour les cas d'usage mentionnées, nous adoptons dans cette thèse la notion de "profil de jeu de données"- un ensemble de caractéristiques représentatives pour un jeu de données spécifique, notamment dans le cadre de la comparaison avec d'autres jeux de données. Notre première direction de recherche était de mettre en œuvre une approche de recommandation basée sur le filtrage collaboratif, qui exploite à la fois les prols thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d'obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Cette approche a besoin d'apprendre le comportement de la connectivité des jeux de données dans le LOD graphe. Cependant, les expérimentations ont montré que la topologie actuelle de ce nuage LOD est loin d'être complète pour être considéré comme des données d'apprentissage.Face aux limites de la topologie actuelle du graphe LOD, notre recherche a conduit a rompre avec cette représentation de profil thématique et notamment du concept "apprendre pour classer" pour adopter une nouvelle approche pour l'identification des jeux de données candidats basée sur le chevauchement des profils intensionnels entre les différents jeux de données. Par profil intensionnel, nous entendons la représentation formelle d'un ensemble d'étiquettes extraites du schéma du jeu de données, et qui peut être potentiellement enrichi par les descriptions textuelles correspondantes. Cette représentation fournit l'information contextuelle qui permet de calculer la similarité entre les différents profils d'une manière efficace. Nous identifions le chevauchement de différentes profils à l'aide d'une mesure de similarité semantico-fréquentielle qui se base sur un classement calcule par le tf*idf et la mesure cosinus. Les expériences, menées sur tous les jeux de données lies disponibles sur le LOD, montrent que notre méthode permet d'obtenir une précision moyenne de 53% pour un rappel de 100%.Afin d'assurer des profils intensionnels de haute qualité, nous introduisons Datavore- un outil oriente vers les concepteurs de métadonnées qui recommande des termes de vocabulaire a réutiliser dans le processus de modélisation des données. Datavore fournit également les métadonnées correspondant aux termes recommandés ainsi que des propositions des triples utilisant ces termes. L'outil repose sur l’écosystème des Vocabulaires Ouverts Lies (LOV) pour l'acquisition des vocabulaires existants et leurs métadonnées
With the emergence of the Web of Data, most notably Linked Open Data (LOD), an abundance of data has become available on the web. However, LOD datasets and their inherent subgraphs vary heavily with respect to their size, topic and domain coverage, the schemas and their data dynamicity (respectively schemas and metadata) over the time. To this extent, identifying suitable datasets, which meet specific criteria, has become an increasingly important, yet challenging task to supportissues such as entity retrieval or semantic search and data linking. Particularlywith respect to the interlinking issue, the current topology of the LOD cloud underlines the need for practical and efficient means to recommend suitable datasets: currently, only well-known reference graphs such as DBpedia (the most obvious target), YAGO or Freebase show a high amount of in-links, while there exists a long tail of potentially suitable yet under-recognized datasets. This problem is due to the semantic web tradition in dealing with "finding candidate datasets to link to", where data publishers are used to identify target datasets for interlinking.While an understanding of the nature of the content of specific datasets is a crucial prerequisite for the mentioned issues, we adopt in this dissertation the notion of "dataset profile" - a set of features that describe a dataset and allow the comparison of different datasets with regard to their represented characteristics. Our first research direction was to implement a collaborative filtering-like dataset recommendation approach, which exploits both existing dataset topic proles, as well as traditional dataset connectivity measures, in order to link LOD datasets into a global dataset-topic-graph. This approach relies on the LOD graph in order to learn the connectivity behaviour between LOD datasets. However, experiments have shown that the current topology of the LOD cloud group is far from being complete to be considered as a ground truth and consequently as learning data.Facing the limits the current topology of LOD (as learning data), our research has led to break away from the topic proles representation of "learn to rank" approach and to adopt a new approach for candidate datasets identication where the recommendation is based on the intensional profiles overlap between differentdatasets. By intensional profile, we understand the formal representation of a set of schema concept labels that best describe a dataset and can be potentially enriched by retrieving the corresponding textual descriptions. This representation provides richer contextual and semantic information and allows to compute efficiently and inexpensively similarities between proles. We identify schema overlap by the help of a semantico-frequential concept similarity measure and a ranking criterion based on the tf*idf cosine similarity. The experiments, conducted over all available linked datasets on the LOD cloud, show that our method achieves an average precision of up to 53% for a recall of 100%. Furthermore, our method returns the mappings between the schema concepts across datasets, a particularly useful input for the data linking step.In order to ensure a high quality representative datasets schema profiles, we introduce Datavore| a tool oriented towards metadata designers that provides rankedlists of vocabulary terms to reuse in data modeling process, together with additional metadata and cross-terms relations. The tool relies on the Linked Open Vocabulary (LOV) ecosystem for acquiring vocabularies and metadata and is made available for the community
7

Shu, Wu. "Contributions à la détection des anomalies et au développement des systèmes de recommandation." Thèse, Université de Sherbrooke, 2012. http://hdl.handle.net/11143/6563.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le forage de données, appelé également "Découverte de connaissance dans les bases de données" , est un jeune domaine de recherche interdisciplinaire. Le forage de données étudie les processus d'analyse de grands ensembles de données pour en extraire des connaissances, et les processus de transformation de ces connaissances en des structures faciles à comprendre et à utiliser par les humains. Cette thèse étudie deux tâches importantes dans le domaine du forage de données : la détection des anomalies et la recommandation de produits. La détection des anomalies est l'identification des données non conformes aux observations normales. La recommandation de produit est la prédiction du niveau d'intérêt d'un client pour des produits en se basant sur des données d'achats antérieurs et des données socio-économiques. Plus précisément, cette thèse porte sur 1) la détection des anomalies dans de grands ensembles de données de type catégorielles; et 2) les techniques de recommandation à partir des données de classements asymétriques. La détection des anomalies dans des données catégorielles de grande échelle est un problème important qui est loin d'être résolu. Les méthodes existantes dans ce domaine souffrnt d'une faible efficience et efficacité en raison de la dimensionnalité élevée des données, de la grande taille des bases de données, de la complexité élevée des tests statistiques, ainsi que des mesures de proximité non adéquates. Cette thèse propose une définition formelle d'anomalie dans les données catégorielles ainsi que deux algorithmes efficaces et efficients pour la détection des anomalies dans les données de grande taille. Ces algorithmes ont besoin d'un seul paramètre : le nombre des anomalies. Pour déterminer la valeur de ce paramètre, nous avons développé un critère en nous basant sur un nouveau concept qui est l'holo-entropie. Plusieurs recherches antérieures sur les systèmes de recommandation ont négligé un type de classements répandu dans les applications Web, telles que le commerce électronique (ex. Amazon, Taobao) et les sites fournisseurs de contenu (ex. YouTube). Les données de classements recueillies par ces sites se différencient de celles de classements des films et des musiques par leur distribution asymétrique élevée. Cette thèse propose un cadre mieux adapté pour estimer les classements et les préférences quantitatives d'ordre supérieur pour des données de classements asymétriques. Ce cadre permet de créer de nouveaux modèles de recommandation en se basant sur la factorisation de matrice ou sur l'estimation de voisinage. Des résultats expérimentaux sur des ensembles de données asymétriques indiquent que les modèles créés avec ce cadre ont une meilleure performance que les modèles conventionnels non seulement pour la prédiction de classements, mais aussi pour la prédiction de la liste des Top-N produits.
8

Elati, Mohamed. "Apprentissage de réseaux de régulation génétique à partir de données d'expression." Paris 13, 2007. http://www.theses.fr/2007PA132031.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
9

Bonis, Thomas. "Algorithmes d'apprentissage statistique pour l'analyse géométrique et topologique de données." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS459/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans cette thèse, on s'intéresse à des algorithmes d'analyse de données utilisant des marches aléatoires sur des graphes de voisinage, ou graphes géométriques aléatoires, construits à partir des données. On sait que les marches aléatoires sur ces graphes sont des approximations d'objets continus appelés processus de diffusion. Dans un premier temps, nous utilisons ce résultat pour proposer un nouvel algorithme de partitionnement de données flou de type recherche de modes. Dans cet algorithme, on définit les paquets en utilisant les propriétés d'un certain processus de diffusion que l'on approche par une marche aléatoire sur un graphe de voisinage. Après avoir prouvé la convergence de notre algorithme, nous étudions ses performances empiriques sur plusieurs jeux de données. Nous nous intéressons ensuite à la convergence des mesures stationnaires des marches aléatoires sur des graphes géométriques aléatoires vers la mesure stationnaire du processus de diffusion limite. En utilisant une approche basée sur la méthode de Stein, nous arrivons à quantifier cette convergence. Notre résultat s'applique en fait dans un cadre plus général que les marches aléatoires sur les graphes de voisinage et nous l'utilisons pour prouver d'autres résultats : par exemple, nous arrivons à obtenir des vitesses de convergence pour le théorème central limite. Dans la dernière partie de cette thèse, nous utilisons un concept de topologie algébrique appelé homologie persistante afin d'améliorer l'étape de "pooling" dans l'approche "sac-de-mots" pour la reconnaissance de formes 3D
In this thesis, we study data analysis algorithms using random walks on neighborhood graphs, or random geometric graphs. It is known random walks on such graphs approximate continuous objects called diffusion processes. In the first part of this thesis, we use this approximation result to propose a new soft clustering algorithm based on the mode seeking framework. For our algorithm, we want to define clusters using the properties of a diffusion process. Since we do not have access to this continuous process, our algorithm uses a random walk on a random geometric graph instead. After proving the consistency of our algorithm, we evaluate its efficiency on both real and synthetic data. We then deal tackle the issue of the convergence of invariant measures of random walks on random geometric graphs. As these random walks converge to a diffusion process, we can expect their invariant measures to converge to the invariant measure of this diffusion process. Using an approach based on Stein's method, we manage to obtain quantitfy this convergence. Moreover, the method we use is more general and can be used to obtain other results such as convergence rates for the Central Limit Theorem. In the last part of this thesis, we use the concept of persistent homology, a concept of algebraic topology, to improve the pooling step of the bag-of-words approach for 3D shapes
10

Aleksandrova, Marharyta. "Factorisation de matrices et analyse de contraste pour la recommandation." Thesis, Université de Lorraine, 2017. http://www.theses.fr/2017LORR0080/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans de nombreux domaines, les données peuvent être de grande dimension. Ça pose le problème de la réduction de dimension. Les techniques de réduction de dimension peuvent être classées en fonction de leur but : techniques pour la représentation optimale et techniques pour la classification, ainsi qu'en fonction de leur stratégie : la sélection et l'extraction des caractéristiques. L'ensemble des caractéristiques résultant des méthodes d'extraction est non interprétable. Ainsi, la première problématique scientifique de la thèse est comment extraire des caractéristiques latentes interprétables? La réduction de dimension pour la classification vise à améliorer la puissance de classification du sous-ensemble sélectionné. Nous voyons le développement de la tâche de classification comme la tâche d'identification des facteurs déclencheurs, c'est-à-dire des facteurs qui peuvent influencer le transfert d'éléments de données d'une classe à l'autre. La deuxième problématique scientifique de cette thèse est comment identifier automatiquement ces facteurs déclencheurs? Nous visons à résoudre les deux problématiques scientifiques dans le domaine d'application des systèmes de recommandation. Nous proposons d'interpréter les caractéristiques latentes de systèmes de recommandation basés sur la factorisation de matrices comme des utilisateurs réels. Nous concevons un algorithme d'identification automatique des facteurs déclencheurs basé sur les concepts d'analyse par contraste. Au travers d'expérimentations, nous montrons que les motifs définis peuvent être considérés comme des facteurs déclencheurs
In many application areas, data elements can be high-dimensional. This raises the problem of dimensionality reduction. The dimensionality reduction techniques can be classified based on their aim: dimensionality reduction for optimal data representation and dimensionality reduction for classification, as well as based on the adopted strategy: feature selection and feature extraction. The set of features resulting from feature extraction methods is usually uninterpretable. Thereby, the first scientific problematic of the thesis is how to extract interpretable latent features? The dimensionality reduction for classification aims to enhance the classification power of the selected subset of features. We see the development of the task of classification as the task of trigger factors identification that is identification of those factors that can influence the transfer of data elements from one class to another. The second scientific problematic of this thesis is how to automatically identify these trigger factors? We aim at solving both scientific problematics within the recommender systems application domain. We propose to interpret latent features for the matrix factorization-based recommender systems as real users. We design an algorithm for automatic identification of trigger factors based on the concepts of contrast analysis. Through experimental results, we show that the defined patterns indeed can be considered as trigger factors
11

Chulyadyo, Rajani. "Un nouvel horizon pour la recommandation : intégration de la dimension spatiale dans l'aide à la décision." Thesis, Nantes, 2016. http://www.theses.fr/2016NANT4012/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
De nos jours, il est très fréquent de représenter un système en termes de relations entre objets. Parmi les applications les plus courantes de telles données relationnelles, se situent les systèmes de recommandation (RS), qui traitent généralement des relations entre utilisateurs et items à recommander. Les modèles relationnels probabilistes (PRM) sont un bon choix pour la modélisation des dépendances probabilistes entre ces objets. Une tendance croissante dans les systèmes de recommandation est de rajouter une dimension spatiale à ces objets, que ce soient les utilisateurs, ou les items. Cette thèse porte sur l’intersection peu explorée de trois domaines connexes - modèles probabilistes relationnels (et comment apprendre les dépendances probabilistes entre attributs d’une base de données relationnelles), les données spatiales et les systèmes de recommandation. La première contribution de cette thèse porte sur le chevauchement des PRM et des systèmes de recommandation. Nous avons proposé un modèle de recommandation à base de PRM capable de faire des recommandations à partir des requêtes des utilisateurs, mais sans profils d’utilisateurs, traitant ainsi le problème du démarrage à froid. Notre deuxième contribution aborde le problème de l’intégration de l’information spatiale dans un PRM
Nowadays it is very common to represent a system in terms of relationships between objects. One of the common applications of such relational data is Recommender System (RS), which usually deals with the relationships between users and items. Probabilistic Relational Models (PRMs) can be a good choice for modeling probabilistic dependencies between such objects. A growing trend in recommender systems is to add spatial dimensions to these objects, and make recommendations considering the location of users and/or items. This thesis deals with the (not much explored) intersection of three related fields – Probabilistic Relational Models (a method to learn probabilistic models from relational data), spatial data (often used in relational settings), and recommender systems (which deal with relational data). The first contribution of this thesis deals with the overlapping of PRM and recommender systems. We have proposed a PRM-based personalized recommender system that is capable of making recommendations from user queries in cold-start systems without user profiles. Our second contribution addresses the problem of integrating spatial information into a PRM
12

Ben, Ticha Sonia. "Recommandation personnalisée hybride." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0168/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Face à la surabondance des ressources et de l'information sur le net, l'accès aux ressources pertinentes devient une tâche fastidieuse pour les usagers de la toile. Les systèmes de recommandation personnalisée comptent parmi les principales solutions qui assistent l'utilisateur en filtrant les ressources, pour ne lui proposer que celles susceptibles de l’intéresser. L’approche basée sur l’observation du comportement de l’utilisateur à partir de ses interactions avec le e-services est appelée analyse des usages. Le filtrage collaboratif et le filtrage basé sur le contenu sont les principales techniques de recommandations personnalisées. Le filtrage collaboratif exploite uniquement les données issues de l’analyse des usages alors que le filtrage basé sur le contenu utilise en plus les données décrivant le contenu des ressources. Un système de recommandation hybride combine les deux techniques de recommandation. L'objectif de cette thèse est de proposer une nouvelle technique d'hybridation en étudiant les bénéfices de l'exploitation combinée d'une part, des informations sémantiques des ressources à recommander, avec d'autre part, le filtrage collaboratif. Plusieurs approches ont été proposées pour l'apprentissage d'un nouveau profil utilisateur inférant ses préférences pour l’information sémantique décrivant les ressources. Pour chaque approche proposée, nous traitons le problème du manque de la densité des données et le problème du passage à l’échelle. Nous montrons également, de façon empirique, un gain au niveau de la précision des recommandations par rapport à des approches purement collaboratives ou purement basées sur le contenu
Face to the ongoing rapid expansion of the Internet, user requires help to access to items that may interest her or him. A personalized recommender system filters relevant items from huge catalogue to particular user by observing his or her behavior. The approach based on observing user behavior from his interactions with the website is called usage analysis. Collaborative Filtering and Content-Based filtering are the most widely used techniques in personalized recommender system. Collaborative filtering uses only data from usage analysis to build user profile, while content-based filtering relies in addition on semantic information of items. Hybrid approach is another important technique, which combines collaborative and content-based methods to provide recommendations. The aim of this thesis is to present a new hybridization approach that takes into account the semantic information of items to enhance collaborative recommendations. Several approaches have been proposed for learning a new user profile inferring preferences for semantic information describing items. For each proposed approach, we address the sparsity and the scalability problems. We prove also, empirically, an improvement in recommendations accuracy against collaborative filtering and content-based filtering
13

Falip, Joris. "Structuration de données multidimensionnelles : une approche basée instance pour l'exploration de données médicales." Thesis, Reims, 2019. http://www.theses.fr/2019REIMS014/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'exploitation, a posteriori, des données médicales accumulées par les praticiens représente un enjeu majeur pour la recherche clinique comme pour le suivi personnalisé du patient. Toutefois les professionnels de santé manquent d'outils adaptés leur permettant d'explorer, comprendre et manipuler aisément leur données. Dans ce but, nous proposons un algorithme de structuration d'éléments par similarité et représentativité. Cette méthode permet de regrouper les individus d'un jeu de données autour de membres représentatifs et génériques aptes à subsumer les éléments et résumer les données. Cette méthode, procédant dimension par dimension avant d'agréger les résultats, est adaptée aux données en haute dimension et propose de plus des résultats transparents, interprétables et explicables. Les résultats obtenus favorisent l'analyse exploratoire et le raisonnement par analogie via une navigation de proche en proche : la structure obtenue est en effet similaire à l'organisation des connaissances utilisée par les experts lors du processus décisionnel qu'ils emploient. Nous proposons ensuite un algorithme de détection d'anomalies qui permet de détecter des anomalies complexes et en haute dimensionnalité en analysant des projections sur deux dimensions. Cette approche propose elle aussi des résultats interprétables. Nous évaluons ensuite ces deux algorithmes sur des données réelles et simulées dont les éléments sont décrits par de nombreuses variables : de quelques dizaines à plusieurs milliers. Nous analysant particulièrement les propriétés du graphe résultant de la structuration des éléments. Nous décrivons par la suite un outil de prétraitement de données médicales ainsi qu'une plateforme web destinée aux médecins. Via cet outil à l'utilisation intuitif nous proposons de structurer de manière visuelle les éléments pour faciliter leur exploration. Ce prototype fournit une aide à la décision et au diagnostique médical en permettant au médecin de naviguer au sein des données et d'explorer des patients similaires. Cela peut aussi permettre de vérifier des hypothèses cliniques sur une cohorte de patients
A posteriori use of medical data accumulated by practitioners represents a major challenge for clinical research as well as for personalized patient follow-up. However, health professionals lack the appropriate tools to easily explore, understand and manipulate their data. To solve this, we propose an algorithm to structure elements by similarity and representativeness. This method allows individuals in a dataset to be grouped around representative and generic members who are able to subsume the elements and summarize the data. This approach processes each dimension individually before aggregating the results and is adapted to high-dimensional data and also offers transparent, interpretable and explainable results. The results we obtain are suitable for exploratory analysis and reasoning by analogy: the structure is similar to the organization of knowledge and decision-making process used by experts. We then propose an anomaly detection algorithm that allows complex and high-dimensional anomalies to be detected by analyzing two-dimensional projections. This approach also provides interpretable results. We evaluate these two algorithms on real and simulated high-dimensional data with up to thousands of dimensions. We analyze the properties of graphs resulting from the structuring of elements. We then describe a medical data pre-processing tool and a web application for physicians. Through this intuitive tool, we propose a visual structure of the elements to ease the exploration. This decision support prototype assists medical diagnosis by allowing the physician to navigate through the data and explore similar patients. It can also be used to test clinical hypotheses on a cohort of patients
14

Poirier, Damien. "Des textes communautaires à la recommandation." Phd thesis, Université d'Orléans, 2011. http://tel.archives-ouvertes.fr/tel-00597422.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La thèse concerne la transformation de données textuelles non structurées en données structurées et exploitables par des systèmes de recommandation. Deux grandes catégories d'informations sont utilisées dans le domaine des moteurs de recommandation : les données descriptives de contenus comme les méta-données ou les tags (filtrage thématique), et les données d'usages qui peuvent être des notes ou encore des pages Web visitées par exemple (filtrage collaboratif). D'autres données sont présentes sur le Web et ne sont pas encore réellement exploitées. Avec l'émergence du Web 2.0, les internautes sont de plus en plus amenés à partager leurs sentiments, opinions, expériences sur des produits, personnalités, films, musiques, etc. Les données textuelles produites par les utilisateurs représentent potentiellement des sources riches d'informations qui peuvent être complémentaires des données exploitées actuellement par les moteurs de recommandation et peuvent donc ouvrir de nouvelles voies d'études dans ce domaine en plein essor. Notre objectif dans le cadre de la thèse est de produire, à partir de commentaires issus de sites communautaires (blogs ou forums), des matrices d'entrées pertinentes pour les systèmes de recommandation. L'idée sous-jacente est de pouvoir enrichir un système pour un service débutant, qui possède encore peu d'utilisateurs propres, et donc peu de données d'usages, par des données issues d'autres utilisateurs. Nous faisons tout d'abord un état de l'art de la recommandation automatique. Nous présentons ensuite le moteur ainsi que les données utilisées pour les expérimentations. Le chapitre suivant décrit les premières expérimentations en mode thématique. Nous faisons ensuite un nouvel état de l'art sur la classification d'opinion. Pour finir, nous décrivons les expérimentations menées pour l'approche collaborative à l'aide de la classification d'opinion.
15

Delporte, Julien. "Factorisation matricielle, application à la recommandation personnalisée de préférences." Phd thesis, INSA de Rouen, 2014. http://tel.archives-ouvertes.fr/tel-01005223.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s'articule autour des problèmes d'optimisation à grande échelle, et plus particulièrement autour des méthodes de factorisation matricielle sur des problèmes de grandes tailles. L'objectif des méthodes de factorisation de grandes matrices est d'extraire des variables latentes qui permettent d'expliquer les données dans un espace de dimension réduite. Nous nous sommes intéressés au domaine d'application de la recommandation et plus particulièrement au problème de prédiction de préférences d'utilisateurs.Dans une contribution, nous nous sommes intéressés à l'application de méthodes de factorisation dans un environnement de recommandation contextuelle et notamment dans un contexte social.Dans une seconde contribution, nous nous sommes intéressés au problème de sélection de modèle pour la factorisation où l'on cherche à déterminer de façon automatique le rang de la factorisation par estimation de risque.
16

Moin, Afshin. "Les Techniques De Recommandation Et De Visualisation Pour Les Données A Une Grande Echelle." Phd thesis, Université Rennes 1, 2012. http://tel.archives-ouvertes.fr/tel-00724121.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Nous avons assisté au développement rapide de la technologie de l'information au cours de la dernière décennie. D'une part, la capacité du traitement et du stockage des appareils numériques est en constante augmentation grâce aux progrès des méthodes de construction. D'autre part, l'interaction entre ces dispositifs puissants a été rendue possible grâce à la technologie de réseautage. Une conséquence naturelle de ces progrès, est que le volume des données générées dans différentes applications a grandi à un rythme sans précédent. Désormais, nous sommes confrontés à de nouveaux défis pour traiter et représenter efficacement la masse énorme de données à notre disposition. Cette thèse est centrée autour des deux axes de recommandation du contenu pertinent et de sa visualisation correcte. Le rôle des systèmes de recommandation est d'aider les utilisateurs dans le processus de prise de décision pour trouver des articles avec un contenu pertinent et une qualité satisfaisante au sein du vaste ensemble des possibilités existant dans le Web. D'autre part, la représentation correcte des données traitées est un élément central à la fois pour accroître l'utilité des données pour l'utilisateur final et pour la conception des outils d'analyse efficaces. Dans cet exposé, les principales approches des systèmes de recommandation ainsi que les techniques les plus importantes de la visualisation des données sous forme de graphes sont discutées. En outre, il est montré comment quelques-unes des mêmes techniques appliquées aux systèmes de recommandation peuvent être modifiées pour tenir compte des exigences de visualisation.
17

Moin, Afshin. "Les techniques de recommandation et de visualisation pour les données à une grande échelle." Rennes 1, 2012. https://tel.archives-ouvertes.fr/tel-00724121.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
We have witnessed the rapid development of the information technology during the last decade. On one side, processing and stocking capacity of digital devices is increasing constantly thanks to advances in construction methods. On the other side, the interaction between these powerful devices has been made possible through networking technology. As a natural consequence of these progresses, the volume of the data generated in different applications has grown with an unprecedented rate. Consequently, it is becoming increasingly harder for internet users to find items and content matching their needs. Henceforth, we are confronted with new challenges to efficiently process and represent the huge mass of data at our disposal. This thesis is centered around the two axes of recommending relevant content and its proper visualization. The role of the recommender systems is to help users in the process of decision making to find items with relevant content and satisfactory quality among the large set of alternatives existing in the Web. On the other hand, the adequate representation of the processed data is central both for increasing its utility to the end-user and for designing efficient analysis tools. In this presentation, the prevalent approaches to recommender systems and the principal techniques for visualization of data in the form of graphs are discussed. Furthermore, it is shown how some of the same techniques applied to recommender systems can be modified to consider visualization requirements
Nous avons assisté au développement rapide de la technologie de l'information au cours de la dernière décennie. D'une part, la capacité du traitement et du stockage des appareils numériques est en constante augmentation grâce aux progrès des méthodes de construction. D'autre part, l'interaction entre ces dispositifs puissants a été rendue possible grâce à la technologie de réseautage. Une conséquence naturelle de ces progrès, est que le volume des données générées dans différentes applications a grandi à un rythme sans précédent. Désormais, nous sommes confrontés à de nouveaux défis pour traiter et représenter efficacement la masse énorme de données à notre disposition. Cette thèse est centrée autour des deux axes de recommandation du contenu pertinent et de sa visualisation correcte. Le rôle des systèmes de recommandation est d'aider les utilisateurs dans le processus de prise de décision pour trouver des articles avec un contenu pertinent et une qualité satisfaisante au sein du vaste ensemble des possibilités existant dans le Web. D'autre part, la représentation correcte des données traitées est un élément central à la fois pour accroître l’utilité des données pour l'utilisateur final et pour la conception des outils d'analyse efficaces. Dans cet exposé, les principales approches des systèmes de recommandation ainsi que les techniques les plus importantes de la visualisation des données sous forme de graphes sont discutées. En outre, il est montré comment quelques-unes des mêmes techniques appliquées aux systèmes de recommandation peuvent être modifiées pour tenir compte des exigences de visualisation
18

Gras, Benjamin. "Les oubliés de la recommandation sociale." Thesis, Université de Lorraine, 2018. http://www.theses.fr/2018LORR0017/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Un système de recommandation a pour objectif de recommander à un utilisateur, appelé utilisateur actif, des ressources pertinentes pour lui. Le filtrage collaboratif (FC) est une approche de recommandation très répandue qui exploite les préférences exprimées par des utilisateurs sur des ressources. Le FC repose sur l'hypothèse que les préférences des utilisateurs sont cohérentes entre elles, ce qui permet d'inférer les préférences d'un utilisateur à partir des préférences des autres utilisateurs. Définissons une préférence spécifique comme une préférence qui ne serait partagée pour aucun groupe d'utilisateurs. Un utilisateur possédant plusieurs préférences spécifiques qu'il ne partage avec aucun autre utilisateur sera probablement mal servi par une approche de FC classique. Il s'agit du problème des Grey Sheep Users (GSU). Dans cette thèse, je réponds à trois questions distinctes. 1) Qu'est-ce qu'une préférence spécifique ? J'apporte une réponse en proposant des hypothèses associées que je valide expérimentalement. 2) Comment identifier les GSU dans les données ? Cette identification est importante afin d'anticiper les mauvaises recommandations qui seront fournies à ces utilisateurs. Je propose des mesures numériques permettant d'identifier les GSU dans un jeu de données de recommandation sociale. Ces mesures sont significativement plus performantes que celles de l'état de l'art. Enfin, comment modéliser ces GSU pour améliorer la qualité des recommandations qui leurs sont fournies ? Je propose des méthodes inspirées du domaine de l'apprentissage automatique et dédiées à la modélisation des GSU permettant d'améliorer la qualité des recommandations qui leurs sont fournies
A recommender system aims at providing relevant resources to a user, named the active user. To allow this recommendation, the system exploits the information it has collected about the active user or about resources. The collaborative filtering (CF) is a widely used recommandation approach. The data exploited by CF are the preferences expressed by users on resources. CF is based on the assumption that preferences are consistent between users, allowing a user's preferences to be inferred from the preferences of other users. In a CF-based recommender system, at least one user community has to share the preferences of the active user to provide him with high quality recommendations. Let us define a specific preference as a preference that is not shared by any group of user. A user with several specific preferences will likely be poorly served by a classic CF approach. This is the problem of Grey Sheep Users (GSU). In this thesis, I focus on three separate questions. 1) What is a specific preference? I give an answer by proposing associated hypotheses that I validate experimentally. 2) How to identify GSU in preference data? This identification is important to anticipate the low quality recommendations that will be provided to these users. I propose numerical indicators to identify GSU in a social recommendation dataset. These indicators outperform those of the state of the art and allow to isolate users whose quality of recommendations is very low. 3) How can I model GSU to improve the quality of the recommendations they receive? I propose new recommendation approaches to allow GSU to benefit from the opinions of other users
19

Khemiri, Rym. "Vers l'OLAP collaboratif pour la recommandation des analyses en ligne personnalisées." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22015/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La personnalisation vise à recueillir les intérêts, les préférences, les usages, les contraintes, le contexte, etc. souvent considérés comme faisant partie de ce que l'on appelle ''profil utilisateur'' pour ensuite les intégrer dans un système et les exploiter afin de permettre à l'utilisateur d'accéder rapidement aux informations les plus pertinentes pour lui. Par ailleurs, au sein d'une organisation, différents acteurs sont amenés à prendre des décisions à différents niveaux de responsabilité et ont donc besoin de réaliser des analyses à partir de l'entrepôt de données pour supporter la prise de décision. Ainsi, dans le contexte de cette communauté d'utilisateurs de l'entrepôt de données, la notion de collaboration émerge. Il est alors intéressant de combiner les concepts de personnalisation et de collaboration pour approcher au mieux les besoins des utilisateurs en leur recommandant des analyses en ligne pertinentes. L'objectif de ce mémoire est de proposer une approche collaborative pour l'OLAP, impliquant plusieurs utilisateurs, dirigée par un processus de personnalisation intégré aux systèmes décisionnels afin de pouvoir aider l'utilisateur final dans son processus d'analyse en ligne. Qu'il s'agisse de personnalisation du modèle d'entrepôt, de recommandation de requêtes décisionnelles ou de recommandation de chemins de navigation au sein des cubes de données, l'utilisateur a besoin d'un système décisionnel efficace qui l'aide dans sa démarche d'analyse en ligne. La finalité est de fournir à l'utilisateur des réponses pertinentes proches de ses besoins pour qu'il puisse mieux appréhender ses prises de décision. Nous nous sommes intéressés dans cette thèse à trois problèmes relevant de la prise en compte de l'utilisateur au sein des entrepôts de données et de l'OLAP. Nos contributions s'appuient sur la combinaison de techniques issues de la fouille de données avec les entrepôts et OLAP. Notre première contribution est une approche qui consiste à personnaliser les hiérarchies de dimensions afin d'obtenir des axes d'analyse nouveaux sémantiquement plus riches pouvant aider l'utilisateur à réaliser de nouvelles analyses non prévues par le modèle de l'entrepôt initial. En effet, nous relâchons la contrainte du modèle fixe de l'entrepôt, ce qui permet à l'utilisateur de créer de nouveaux axes d'analyse pertinents en tenant compte à la fois de ses contraintes et des connaissances enfouies dans les données entreposées. Notre approche repose sur une méthode d'apprentissage non-supervisé, le k-means contraint, capable de créer de nouveaux regroupements intéressants des données entreposées pouvant constituer un nouveau niveau de hiérarchie permettant de réaliser de nouvelles requêtes décisionnelles. L'intérêt est alors de pouvoir exploiter ces nouveaux niveaux de hiérarchie pour que les autres utilisateurs appartenant à la même communauté d'utilisateurs puissent en tirer profit, dans l'esprit d'un système collaboratif dans lequel chacun apporte sa pierre à l'édifice. Notre deuxième contribution est une approche interactive pour aider l'utilisateur à formuler de nouvelles requêtes décisionnelles pour construire des cubes OLAP pertinents en s'appuyant sur ses requêtes décisionnelles passées, ce qui lui permet d'anticiper sur ses besoins d'analyse futurs. Cette approche repose sur l'extraction des motifs fréquents à partir d'une charge de requêtes associée à un ou à un ensemble d'utilisateurs appartenant à la même communauté d'acteurs d'une organisation. Notre intuition est que la pertinence d'une requête décisionnelle est fortement corrélée avec la fréquence d'utilisation par l'utilisateur (ou un ensemble d'utilisateurs) des attributs associés à l'ensemble de ses (leurs) requêtes précédentes. Notre approche de formulation de requêtes (...)
The objective of this thesis is to provide a collaborative approach to the OLAP involving several users, led by an integrated personalization process in decision-making systems in order to help the end user in their analysis process. Whether personalizing the warehouse model, recommending decision queries or recommending navigation paths within the data cubes, the user need an efficient decision-making system that assist him. We were interested in three issues falling within data warehouse and OLAP personalization offering three major contributions. Our contributions are based on a combination of datamining techniques with data warehouses and OLAP technology. Our first contribution is an approach about personalizing dimension hierarchies to obtain new analytical axes semantically richer for the user that can help him to realize new analyzes not provided by the original data warehouse model. Indeed, we relax the constraint of the fixed model of the data warehouse which allows the user to create new relevant analysis axes taking into account both his/her constraints and his/her requirements. Our approach is based on an unsupervised learning method, the constrained k-means. Our goal is then to recommend these new hierarchy levels to other users of the same user community, in the spirit of a collaborative system in which each individual brings his contribution. The second contribution is an interactive approach to help the user to formulate new decision queries to build relevant OLAP cubes based on its past decision queries, allowing it to anticipate its future analysis needs. This approach is based on the extraction of frequent itemsets from a query load associated with one or a set of users belonging to the same actors in a community organization. Our intuition is that the relevance of a decision query is strongly correlated to the usage frequency of the corresponding attributes within a given workload of a user (or group of users). Indeed, our approach of decision queries formulation is a collaborative approach because it allows the user to formulate relevant queries, step by step, from the most commonly used attributes by all actors of the user community. Our third contribution is a navigation paths recommendation approach within OLAP cubes. Users are often left to themselves and are not guided in their navigation process. To overcome this problem, we develop a user-centered approach that suggests the user navigation guidance. Indeed, we guide the user to go to the most interesting facts in OLAP cubes telling him the most relevant navigation paths for him. This approach is based on Markov chains that predict the next analysis query from the only current query. This work is part of a collaborative approach because transition probabilities from one query to another in the cuboids lattice (OLAP cube) is calculated by taking into account all analysis queries of all users belonging to the same community. To validate our proposals, we present a support system user-centered decision which comes in two subsystems: (1) content personalization and (2) recommendation of decision queries and navigation paths. We also conducted experiments that showed the effectiveness of our analysis online user centered approaches using quality measures such as recall and precision
20

Firoozeh, Nazanin. "Semantic-oriented Recommandation for Content Enrichment." Thesis, Sorbonne Paris Cité, 2018. http://www.theses.fr/2018USPCD033.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse présente une méthode originale permettant d’enrichir le contenu d'un document non structuré par rapport à un domaine d'intérêt à l’aide de techniques de traitement du langage naturel et de recherche d'information. Il s'agit de minimiser l'écart sémantique existant entre le document et le domaine considérés. La méthode s'appuie sur une collection d’enrichissement constituée automatiquement en lien avec le domaine d'intérêt et procède par extraction de mots-clés et détection de thèmes (topics). L’enrichissement est assuré par l'utilisateur à partir des thèmes désambiguïsés qui lui sont proposés, ceux-ci étant représentés par des ensembles discriminants de mots-clés sémantiquement pertinents et étiquetés avec des mots-clés représentatifs. La méthode d’enrichissement proposé a été appliquée à des pages web. Elle est robuste au bruit indépendant du domaine considéré et facile transporter dans différentes langues. Elle est pauvre en connaissances mais elle exploite les résultats de moteurs de recherche de manière optimisée. L'approche a été testée sur différentes langues. L'évaluation a été conduite sur le français et sur 10 domaines différents. Les résultats ont été évalués par des utilisateurs dans un contexte applicatif réel et par comparaison avec des approches de références. On observe une bonne précision des résultats et une bonne cohérence sémantique au sein de chaque thème, avec une amélioration significative par rapport aux méthodes d'extraction des mots-clé et de détection de thèmes de l'état de l'art
In this thesis, we aim at enriching the content of an unstructured document with respect to a domain of interest. The goal is to minimize the vocabulary and informational gap between the document and the domain. Such an enrichment which is based on Natural Language Processing and Information Retrieval technologies has several applications. As an example, flling in the gap between a scientifc paper and a collection of highly cited papers in a domain helps the paper to be better acknowledged by the community that refers to that collection. Another example is to fll in the gap between a web page and the usual keywords of visitors that are interested in a given domain so as it is better indexed and referred to in that domain, i.e. more accessible for those visitors. We propose a method to fll that gap. We first generate an enrichment collection, which consists of the important documents related to the domain of interest. The main information of the enrichment collection is then extracted, disambiguated and proposed to a user,who performs the enrichment. This is achieved by decomposing the problem into two main components of keyword extraction and topic detection. We present a comprehensive study over different approaches of each component. Using our findings, we propose approaches for extracting keywords from web pages, detecting their under lying topics, disambiguating them and returning the ones related to the domain of interest. The enrichment is performed by recommending discriminative sets of semantically relevant keywords, i.e. topics, to a user. The topics are labeled with representative keywords and have a level of granularity that is easily interpretable. Topic keywords are ranked by importance. This helps to control the length of the document, which needs to be enriched, by targeting the most important keywords of each topic. Our approach is robust to the noise in web pages. It is also knowledge-poor and domain-independent. It, however, exploits search engines for generating the required data but is optimized in the number of requests sent to them. In addition, the approach is easily tunable to different languages. We have implemented the keyword extraction approach in 12 languages and four of them have been tested over various domains. The topic detection approach has been implemented and tested on English and French. However, it is on French language that the approaches have been tested on a large scale : the keyword extraction on roughly 400 domains and the topic detection on 80 domains.To evaluate the performance of our enrichment approach, we focused on French and we performed different experiments on the proposed keyword extraction and topic detection methods. To evaluate their robustness, we studied them on 10 topically diverse domains.Results were evaluated through both user-based evaluations on a real application context and by comparing with baseline approaches. Our results on the keyword extraction approach showed that the statistical features are not adequate for capturing words importance within a web page. In addition, we found our proposed approach of keyword extraction to be effective when applied on real applications. The evaluations on the topic detection approach also showed that it can electively filter out the keywords which are not related to a target domain and that it labels the topics with representative and discriminative keywords. In addition, the approach achieved a high precision in preserving the semantic consistency of the keywords within each topic. We showed that our approach out performs a baseline approach, since the widely-used co-occurrence feature between keywords is notivenough for capturing their semantic similarity and consequently for detecting semantically consistent topics
21

Duthil, Benjamin. "De l'extraction des connaissances à la recommandation." Phd thesis, Montpellier 2, 2012. http://tel.archives-ouvertes.fr/tel-00771504.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les technologies de l'information et le succès des services associés (forums, sites spécialisés, etc) ont ouvert la voie à un mode d'expression massive d'opinions sur les sujets les plus variés (e-commerce, critiques artistiques, etc). Cette profusion d'opinions constitue un véritable eldorado pour l'internaute, mais peut rapidement le conduire à une situation d'indécision car,les avis déposés peuvent être fortement disparates voire contradictoires. Pour une gestion fiable et pertinente de l'information contenue dans ces avis, il est nécessaire de mettre en place des systèmes capables de traiter directement les opinions exprimées en langage naturel afin d'en contrôler la subjectivité et de gommer les effets de lissage des traitements statistiques. La plupart des systèmes dits de recommandation ne prennent pas en compte toute la richesse sémantique des critiques et leur associent souvent des systèmes d'évaluation qui nécessitent une implication conséquente et des compétences particulières chez l'internaute. Notre objectif est de minimiser l'intervention humaine dans le fonctionnement collaboratif des systèmes de recommandation en automatisant l'exploitation des données brutes que constituent les avis en langage naturel. Notre approche non supervisée de segmentation thématique extrait les sujets d'intérêt des critiques, puis notre technique d'analyse de sentiments calcule l'opinion exprimée sur ces critères. Ces méthodes d'extraction de connaissances combinées à des outils d'analyse multicritère adaptés à la fusion d'avis d'experts ouvrent la voie à des systèmes de recommandation pertinents, fiables et personnalisés.
22

Berti-Équille, Laure. "La qualité des données et leur recommandation : modèle conceptuel, formalisation et application a la veille technologique." Toulon, 1999. http://www.theses.fr/1999TOUL0008.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les activités liées à la veille technologique sont traditionnellement centrées sur la notion de validation de l'information par expertise. Jusqu'à présent aucun système d'information n'assure (ni n'assiste) l'analyse critique et qualitative de l'information qu'il stocke. La plupart des systèmes d'information actuels stockent des données (I) dont la source est généralement unique, non connue ou non identifiée/authentifiée et (2) dont k qualité est inégale et/ou ignorée. Après avoir analysé le vaste panorama des travaux de recherche dont les problématiques présentent des analogies avec la problématique de la veille, l'objectif était de proposer un environnement permettant la gestion des sources textuelles, des données (souvent contradictoires) extraites de leur contenu et des méta-données de qualité. La contribution de cette thèse est d'apporter une perspective multi-source à la qualité des données en définissant les concepts de base de données multi-sources (BDMS), de qualité de données multi-sources (QDMS) et de recommandation multi-critère. Mon travail s'est axé sur : la proposition d'une méthodologie qui guide pas-à-pas la mise en oeuvre de la qualité des données dans un contexte d'informations mulli-sources ; la modélisation conceptuelle d'une BDMS permettant la gestion de sources, de données multi-sources et t de leur rnéta-données de qualité et proposant des mécanismes de recommandation des données selon leur qualité relative, la formalisation du modèle de données QDMS qui décrit les données multi-sources, leurs méta-données de qualité et l'ensemble des opérations pour les manipuler, le développement du prototype sQuaL pour valider l'ensemble de mes propositions. Les perspectives sont de développer un système d'information spécifique à la veille pour qu'il gère des données multi-sources, prenne en compte la qualité de ses propres données et propose à l'interrogation une recommandation des données basée sur leur qualité relative. A plus long terme, il s'agit de développer le concept de système d'information "introspectif", c'est-à-dire actif et réactif quant à la qualité de ses propres données
Technological Watch activities are focused on information qualification and validation by human expertise. As a matter of facf, none of these systems can provide (nor assist) a critical and qualitative analysis of data they store and manage- Most of information systems store data (1) whose source is usually unique, not known or not identified/authenticated (2) whose quality is unequal and/or ignored. In practice, several data may describe the same entity in the real world with contradictory values and their relative quality may be comparatively evaluated. Many techniques for data cleansing and editing exist for detecting some errors in database but it is determinant to know which data have bad quality and to use the benefit of a qualitative expert judgment on data, which is complementary to quantitative and statistical data analysis. My contribution is to provide a multi-source perspective to data quality, to introduce and to define the concepts of multi-source database (MSDB) and multi-source data quality (MSDQ). My approach was to analyze the wide panorama of research in the literature whose problematic have some analogies with technological watch problematic. The main objective of my work was to design and to provide a storage environment for managing textual information sources, (more or less contradictory) data that are extracted from the textual content and their quality mcta-data. My work was centered on proposing : the methodology to guide step-by-step a project for data quality in a multi-source information context, the conceptual modeling of a multi-source database (MSDB) for managing data sources, multi-source data and their quality meta-data and proposing mechanisms for multi-criteria data recommendation ; the formalization of the QMSD data model (Quality of Multi-Source Data) which describes multi-source data, their quality meta-data and the set of operations for manipulating them ; the development of the sQuaL prototype for implementing and validating my propositions. In the long term, the perspectives are to develop a specific dccisional information system extending classical functionalities for (1) managing multi-source data (2) taking into account their quality meta-data and (3) proposing data-quality-based recommendation as query results. The ambition is to develop the concept of "introspective information system" ; that is to say, an information system thai is active and reactive concerning the quality of its own data
23

Séguéla, Julie. "Fouille de données textuelles et systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web." Thesis, Paris, CNAM, 2012. http://www.theses.fr/2012CNAM0801/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'expansion du média Internet pour le recrutement a entraîné ces dernières années la multiplication des canaux dédiés à la diffusion des offres d'emploi. Dans un contexte économique où le contrôle des coûts est primordial, évaluer et comparer les performances des différents canaux de recrutement est devenu un besoin pour les entreprises. Cette thèse a pour objectif le développement d'un outil d'aide à la décision destiné à accompagner les recruteurs durant le processus de diffusion d'une annonce. Il fournit au recruteur la performance attendue sur les sites d'emploi pour un poste à pourvoir donné. Après avoir identifié les facteurs explicatifs potentiels de la performance d'une campagne de recrutement, nous appliquons aux annonces des techniques de fouille de textes afin de les structurer et d'en extraire de l'information pertinente pour enrichir leur description au sein d'un modèle explicatif. Nous proposons dans un second temps un algorithme prédictif de la performance des offres d'emploi, basé sur un système hybride de recommandation, adapté à la problématique de démarrage à froid. Ce système, basé sur une mesure de similarité supervisée, montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée. Nos expérimentations sont menées sur un jeu de données réelles, issues d'une base de données d'annonces publiées sur des sites d'emploi
Last years, e-recruitment expansion has led to the multiplication of web channels dedicated to job postings. In an economic context where cost control is fundamental, assessment and comparison of recruitment channel performances have become necessary. The purpose of this work is to develop a decision-making tool intended to guide recruiters while they are posting a job on the Internet. This tool provides to recruiters the expected performance on job boards for a given job offer. First, we identify the potential predictors of a recruiting campaign performance. Then, we apply text mining techniques to the job offer texts in order to structure postings and to extract information relevant to improve their description in a predictive model. The job offer performance predictive algorithm is based on a hybrid recommender system, suitable to the cold-start problem. The hybrid system, based on a supervised similarity measure, outperforms standard multivariate models. Our experiments are led on a real dataset, coming from a job posting database
24

Ducoffe, Mélanie. "Active learning et visualisation des données d'apprentissage pour les réseaux de neurones profonds." Thesis, Université Côte d'Azur (ComUE), 2018. http://www.theses.fr/2018AZUR4115/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Notre travail est présenté en trois parties indépendantes. Tout d'abord, nous proposons trois heuristiques d'apprentissage actif pour les réseaux de neurones profonds : Nous mettons à l'échelle le `query by committee' , qui agrège la décision de sélectionner ou non une donnée par le vote d'un comité. Pour se faire nous formons le comité à l'aide de différents masques de dropout. Un autre travail se base sur la distance des exemples à la marge. Nous proposons d'utiliser les exemples adversaires comme une approximation de la dite distance. Nous démontrons également des bornes de convergence de notre méthode dans le cas de réseaux linéaires. L’usage des exemples adversaires ouvrent des perspectives de transférabilité d’apprentissage actif d’une architecture à une autre. Puis, nous avons formulé une heuristique d'apprentissage actif qui s'adapte tant au CNNs qu'aux RNNs. Notre méthode sélectionne les données qui minimisent l'énergie libre variationnelle. Dans un second temps, nous nous sommes concentrés sur la distance de Wasserstein. Nous projetons les distributions dans un espace où la distance euclidienne mimique la distance de Wasserstein. Pour se faire nous utilisons une architecture siamoise. Également, nous démontrons les propriétés sous-modulaires des prototypes de Wasserstein et comment les appliquer à l'apprentissage actif. Enfin, nous proposons de nouveaux outils de visualisation pour expliquer les prédictions d'un CNN sur du langage naturel. Premièrement, nous détournons une stratégie d'apprentissage actif pour confronter la pertinence des phrases sélectionnées aux techniques de phraséologie les plus récentes. Deuxièmement, nous profitons des algorithmes de déconvolution des CNNs afin de présenter une nouvelle perspective sur l'analyse d'un texte
Our work is presented in three separate parts which can be read independently. Firstly we propose three active learning heuristics that scale to deep neural networks: We scale query by committee, an ensemble active learning methods. We speed up the computation time by sampling a committee of deep networks by applying dropout on the trained model. Another direction was margin-based active learning. We propose to use an adversarial perturbation to measure the distance to the margin. We also establish theoretical bounds on the convergence of our Adversarial Active Learning strategy for linear classifiers. Some inherent properties of adversarial examples opens up promising opportunity to transfer active learning data from one network to another. We also derive an active learning heuristic that scales to both CNN and RNN by selecting the unlabeled data that minimize the variational free energy. Secondly, we focus our work on how to fasten the computation of Wasserstein distances. We propose to approximate Wasserstein distances using a Siamese architecture. From another point of view, we demonstrate the submodular properties of Wasserstein medoids and how to apply it in active learning. Eventually, we provide new visualization tools for explaining the predictions of CNN on a text. First, we hijack an active learning strategy to confront the relevance of the sentences selected with active learning to state-of-the-art phraseology techniques. These works help to understand the hierarchy of the linguistic knowledge acquired during the training of CNNs on NLP tasks. Secondly, we take advantage of deconvolution networks for image analysis to present a new perspective on text analysis to the linguistic community that we call Text Deconvolution Saliency
25

Albaric, Franck. "Problèmes posés par le recueil des données concernant la prise en charge extra-hospitalière de l'arrêt cardio-respiratoire : application du style d'Utstein." Lyon 1, 1994. http://www.theses.fr/1994LYO1261B.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
26

Tran, Nguyen Minh-Thu. "Abstraction et règles d'association pour l'amélioration des systèmes de recommandation à partir de données de préférences binaires." Paris 13, 2011. http://www.theses.fr/2011PA132016.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les systèmes de recommandation sont des systèmes de filtrage de l’information dont l’objectif est l’aide à la décision d’utilisateurs faisant face à l’augmentation incessante d’informations (sur des nouvelles, images, objets de consommations, objets culturels, etc. ) à traiter sur internet. Ces systèmes sont utilisés dans le commerce électronique, les loisirs, la presse en ligne, etc. Et représente un enjeu économique croissant. En commerce électronique, les informations nécessaires à la construction de tels systèmes sont souvent difficiles à exploiter : préférences souvent binaires, forme en longue traîne de la distribution des préférences et ajout/suppression constant d’items. De fait, la plupart des systèmes de recommandations se focalisent sur les items les plus populaires car les items nouveaux ou appartenant à la “longue traîne” sont associés à un nombre de préférences faible ou nul, et donc problématiques à recommander. Pour améliorer la performance de ces systèmes, nous proposons de recourir à l’abstraction d’items. Tout d’abord, l’abstraction des items peut conduire à une réduction considérable de l’effet longue traîne. Deuxièmement, l’extraction de règles d’association abstraites peut être utilisée pour identifier les items à recommander. Deux algorithmes sont introduits : AbsTopα, qui se base sur les règles dans l’espace des items abstraits et ACReco, qui combine les items abstraits et concrets. Ces algorithmes ont été évaluée de manière quantitative (pertinence) et qualitative (nouveauté et diversité) sur une base de données réelle d’un site d’e-commerce en ligne. Les résultats empiriques présentés montrent l’intérêt de l’approche proposée
In recent years, recommendation systems have been extensively explored in order to help the user facing the increasing information on Internet. Those systems are used in e-commerce (Amazon, eBay, Netflix. . . ), entertainment, online news, etc. In the domain of e-commerce, the available data is often difficult to exploit to build robust recommendations : binary data, long tail of the distribution of preferences and everlasting adding or removing of items. In fact, most recommender systems focus on the most popular items because the new items or those of the "long tail" are associated with little or no preference. To improve the performance of these systems, we propose to search for association rules between abstracted items. First, the abstraction of the items can lead to a considerable reduction of the long tail effect. Second, the extraction of abstract association rules can be used to identify items to be recommended. . Two algorithms are introduced : AbsTopk, based on the rules in the space of abstract and ACReco combining items in the space of abstract and concrete items by pair. These algorithms were evaluated quantitatively (relevance) and qualitatively (novelty and diversity) on a real database of an online e-commerce site. The empirical results presented show the interest of the proposed approach
27

Karoui, Hajer. "Système coopératif de type égal-à-égal pour la recommandation : Application à la gestion et la recommandation de références bibliographiques." Phd thesis, Université Paris-Nord - Paris XIII, 2007. http://tel.archives-ouvertes.fr/tel-00299935.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Nous explorons la réutilisation et le partage automatique des expériences passées des utilisateurs dans des tâches de RI. Le but est de proposer des recommandations pertinentes à l'utilisateur selon ses intérêts. Nous utilisons le raisonnement à partir de cas (RàPC) comme une méthodologie d'apprentissage et de modélisation de l'expérience des utilisateurs et, l'architecture P2P afin de préserver l'autonomie des utilisateurs. Pour illustrer notre approche, nous avons développé une application pilote COBRAS pour la gestion et la recommandation de références bibliographiques.
Deux problématiques se présentent : comment obtenir les références pertinentes et comment choisir des agents avec qui collaborer ? Pour résoudre ces problèmes, nous nous sommes basés sur l'exploitation des historiques des interactions entre les agents.
Le RàPC est utilisée pour deux finalités :
a)déterminer pour une requête, des agents intéressants à interroger ;
b)chercher pour une requête, des références pertinentes.
28

Laloë, Thomas. "Sur quelques problèmes d'apprentissage supervisé et non supervisé." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2009. http://tel.archives-ouvertes.fr/tel-00455528.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'objectif de cette Thèse est d'apporter une contribution au problème de l'apprentissage statistique, notamment en développant des méthodes pour prendre en compte des données fonctionnelles. Dans la première partie, nous développons une approche de type plus proches voisins pour la régression fonctionnelle. Dans la deuxième, nous étudions les propriétés de la méthode de quantification dans des espaces de dimension infinie. Nous appliquons ensuite cette méthode pour réaliser une étude comportementale de bancs d'anchois. Enfin, la dernière partie est dédiée au problème de l'estimation des ensembles de niveaux de la fonction de régression dans un cadre multivarié.
29

Goulon-Sigwalt-Abram, Aurélie. "Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2008. http://pastel.archives-ouvertes.fr/pastel-00004103.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La modélisation de propriétés et d'activités de molécules constitue un champ de recherche important, qui permet par exemple de guider la synthèse de médicaments. Les méthodes traditionnelles de modélisation établissent des relations non linéaires entre les propriétés étudiées et les caractéristiques structurelles des molécules, appelées descripteurs. Leurs principaux inconvénients résident dans la difficulté du choix des descripteurs et leur calcul préalable. Nous avons mis au point une nouvelle technique de modélisation qui s'affranchit de ces problèmes, en établissant une relation directe entre la structure des données et la propriété modélisée. L'apprentissage s'effectue non plus à partir de vecteurs de données, mais à partir de graphes. Les molécules peuvent en effet être représentées par des graphes, qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial. Chaque graphe de la base étudiée est alors associé à une fonction de même structure mathématique, appelée graph machine, obtenue par combinaison de fonctions paramétrées identiques. Ces paramètres sont alors déterminés par apprentissage. Nous montrons que les techniques traditionnelles de sélection de modèle peuvent être utilisées dans le cadre des graph machines ; elles permettent d'évaluer les capacités en généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-représentées dans la base d'apprentissage, et d'estimer les intervalles de confiance des prédictions. De très bons résultats ont été obtenus par l'utilisation de cette technique sur un grand nombre de bases de données de propriétés ou d'activités moléculaires.
30

Draidi, Fady. "Recommandation Pair-à-Pair pour Communautés en Ligne à Grande Echelle." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2012. http://tel.archives-ouvertes.fr/tel-00766963.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les systèmes de recommandation (RS) et le pair-à-pair (P2) sont complémen-taires pour faciliter le partage de données à grande échelle: RS pour filtrer et person-naliser les requêtes des utilisateurs, et P2P pour construire des systèmes de partage de données décentralisés à grande échelle. Cependant, il reste beaucoup de difficultés pour construire des RS efficaces dans une infrastructure P2P. Dans cette thèse, nous considérons des communautés en ligne à grande échelle, où les utilisateurs notent les contenus qu'ils explorent et gardent dans leur espace de travail local les contenus de qualité pour leurs sujets d'intérêt. Notre objectif est de construire un P2P-RS efficace pour ce contexte. Nous exploitons les sujets d'intérêt des utilisateurs (extraits automatiquement des contenus et de leurs notes) et les don-nées sociales (amitié et confiance) afin de construire et maintenir un overlay P2P so-cial. La thèse traite de plusieurs problèmes. D'abord, nous nous concentrons sur la conception d'un P2P-RS qui passe à l'échelle, appelé P2Prec, en combinant les ap-proches de recommandation par filtrage collaboratif et par filtrage basé sur le contenu. Nous proposons alors de construire et maintenir un overlay P2P dynamique grâce à des protocoles de gossip. Nos résultats d'expérimentation montrent que P2Prec per-met d'obtenir un bon rappel avec une charge de requêtes et un trafic réseau accep-tables. Ensuite, nous considérons une infrastructure plus complexe afin de construire et maintenir un overlay P2P social, appelé F2Frec, qui exploite les relations sociales entre utilisateurs. Dans cette infrastructure, nous combinons les aspects filtrage par contenu et filtrage basé social, pour obtenir un P2P-RS qui fournit des résultats de qualité et fiables. A l'aide d'une évaluation de performances extensive, nous mon-trons que F2Frec améliore bien le rappel, ainsi que la confiance dans les résultats avec une surcharge acceptable. Enfin, nous décrivons notre prototype de P2P-RS que nous avons implémenté pour valider notre proposition basée sur P2Prec et F2Frec.
31

Ghenname, Mérième. "Le web social et le web sémantique pour la recommandation de ressources pédagogiques." Thesis, Saint-Etienne, 2015. http://www.theses.fr/2015STET4015/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ce travail de recherche est conjointement effectué dans le cadre d’une cotutelle entre deux universités : en France l’Université Jean Monnet de Saint-Etienne, laboratoire Hubert Curien sous la supervision de Mme Frédérique Laforest, M. Christophe Gravier et M. Julien Subercaze, et au Maroc l’Université Mohamed V de Rabat, équipe LeRMA sous la supervision de Mme Rachida Ajhoun et Mme Mounia Abik. Les connaissances et les apprentissages sont des préoccupations majeures dans la société d’aujourd’hui. Les technologies de l’apprentissage humain visent à promouvoir, stimuler, soutenir et valider le processus d’apprentissage. Notre approche explore les opportunités soulevées en faisant coopérer le Web Social et le Web sémantique pour le e-learning. Plus précisément, nous travaillons sur l’enrichissement des profils des apprenants en fonction de leurs activités sur le Web Social. Le Web social peut être une source d’information très importante à explorer, car il implique les utilisateurs dans le monde de l’information et leur donne la possibilité de participer à la construction et à la diffusion de connaissances. Nous nous focalisons sur le suivi des différents types de contributions, dans les activités de collaboration spontanée des apprenants sur les réseaux sociaux. Le profil de l’apprenant est non seulement basé sur la connaissance extraite de ses activités sur le système de e-learning, mais aussi de ses nombreuses activités sur les réseaux sociaux. En particulier, nous proposons une méthodologie pour exploiter les hashtags contenus dans les écrits des utilisateurs pour la génération automatique des intérêts des apprenants dans le but d’enrichir leurs profils. Cependant les hashtags nécessitent un certain traitement avant d’être source de connaissances sur les intérêts des utilisateurs. Nous avons défini une méthode pour identifier la sémantique de hashtags et les relations sémantiques entre les significations des différents hashtags. Par ailleurs, nous avons défini le concept de Folksionary, comme un dictionnaire de hashtags qui pour chaque hashtag regroupe ses définitions en unités de sens. Les hashtags enrichis en sémantique sont donc utilisés pour nourrir le profil de l’apprenant de manière à personnaliser les recommandations sur le matériel d’apprentissage. L’objectif est de construire une représentation sémantique des activités et des intérêts des apprenants sur les réseaux sociaux afin d’enrichir leurs profils. Nous présentons également notre approche générale de recommandation multidimensionnelle dans un environnement d’e-learning. Nous avons conçu une approche fondée sur trois types de filtrage : le filtrage personnalisé à base du profil de l’apprenant, le filtrage social à partir des activités de l’apprenant sur les réseaux sociaux, et le filtrage local à partir des statistiques d’interaction de l’apprenant avec le système. Notre implémentation s’est focalisée sur la recommandation personnalisée
This work has been jointly supervised by U. Jean Monnet Saint Etienne, in the Hubert Curien Lab (Frederique Laforest, Christophe Gravier, Julien Subercaze) and U. Mohamed V Rabat, LeRMA ENSIAS (Rachida Ahjoun, Mounia Abik). Knowledge, education and learning are major concerns in today’s society. The technologies for human learning aim to promote, stimulate, support and validate the learning process. Our approach explores the opportunities raised by mixing the Social Web and the Semantic Web technologies for e-learning. More precisely, we work on discovering learners profiles from their activities on the social web. The Social Web can be a source of information, as it involves users in the information world and gives them the ability to participate in the construction and dissemination of knowledge. We focused our attention on tracking the different types of contributions, activities and conversations in learners spontaneous collaborative activities on social networks. The learner profile is not only based on the knowledge extracted from his/her activities on the e-learning system, but also from his/her many activities on social networks. We propose a methodology for exploiting hashtags contained in users’ writings for the automatic generation of learner’s semantic profiles. Hashtags require some processing before being source of knowledge on the user interests. We have defined a method to identify semantics of hashtags and semantic relationships between the meanings of different hashtags. By the way, we have defined the concept of Folksionary, as a hashtags dictionary that for each hashtag clusters its definitions into meanings. Semantized hashtags are thus used to feed the learner’s profile so as to personalize recommendations on learning material. The goal is to build a semantic representation of the activities and interests of learners on social networks in order to enrich their profiles. We also discuss our recommendation approach based on three types of filtering (personalized, social, and statistical interactions with the system). We focus on personalized recommendation of pedagogical resources to the learner according to his/her expectations and profile
32

Piworwarski, Benjamin. "Techniques d'apprentissage pour le traitement d'informations structurées : application à la recherche d'information." Paris 6, 2003. http://www.theses.fr/2003PA066567.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
33

Omidvar, Tehrani Behrooz. "Optimization-based User Group Management : Discovery, Analysis, Recommendation." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM038/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les donn ́ees utilisateurs sont devenue de plus en plus disponibles dans plusieurs do- maines tels que les traces d'usage des smartphones et le Web social. Les donn ́ees util- isateurs, sont un type particulier de donn ́ees qui sont d ́ecrites par des informations socio-d ́emographiques (ex., ˆage, sexe, m ́etier, etc.) et leurs activit ́es (ex., donner un avis sur un restaurant, voter, critiquer un film, etc.). L'analyse des donn ́ees utilisa- teurs int ́eresse beaucoup les scientifiques qui travaillent sur les ́etudes de la population, le marketing en-ligne, les recommandations et l'analyse des donn ́ees `a grande ́echelle. Cependant, les outils d'analyse des donn ́ees utilisateurs sont encore tr`es limit ́es.Dans cette th`ese, nous exploitons cette opportunit ́e et proposons d'analyser les donn ́ees utilisateurs en formant des groupes d'utilisateurs. Cela diff`ere de l'analyse des util- isateurs individuels et aussi des analyses statistiques sur une population enti`ere. Un groupe utilisateur est d ́efini par un ensemble des utilisateurs dont les membres parta- gent des donn ́ees socio-d ́emographiques et ont des activit ́es en commun. L'analyse au niveau d'un groupe a pour objectif de mieux g ́erer les donn ́ees creuses et le bruit dans les donn ́ees. Dans cette th`ese, nous proposons un cadre de gestion de groupes d'utilisateurs qui contient les composantes suivantes: d ́ecouverte de groupes, analyse de groupes, et recommandation aux groupes.La premi`ere composante concerne la d ́ecouverte des groupes d'utilisateurs, c.- `a-d., compte tenu des donn ́ees utilisateurs brutes, obtenir les groupes d'utilisateurs en op- timisantuneouplusieursdimensionsdequalit ́e. Ledeuxi`emecomposant(c.-`a-d., l'analyse) est n ́ecessaire pour aborder le probl`eme de la surcharge de l'information: le r ́esultat d'une ́etape d ́ecouverte des groupes d'utilisateurs peut contenir des millions de groupes. C'est une tache fastidieuse pour un analyste `a ́ecumer tous les groupes trouv ́es. Nous proposons une approche interactive pour faciliter cette analyse. La question finale est comment utiliser les groupes trouv ́es. Dans cette th`ese, nous ́etudions une applica- tion particuli`ere qui est la recommandation aux groupes d'utilisateurs, en consid ́erant les affinit ́es entre les membres du groupe et son ́evolution dans le temps.Toutes nos contributions sont ́evalu ́ees au travers d'un grand nombre d'exp ́erimentations `a la fois pour tester la qualit ́e et la performance (le temps de r ́eponse)
User data is becoming increasingly available in multiple domains ranging from phone usage traces to data on the social Web. User data is a special type of data that is described by user demographics (e.g., age, gender, occupation, etc.) and user activities (e.g., rating, voting, watching a movie, etc.) The analysis of user data is appealing to scientists who work on population studies, online marketing, recommendations, and large-scale data analytics. However, analysis tools for user data is still lacking.In this thesis, we believe there exists a unique opportunity to analyze user data in the form of user groups. This is in contrast with individual user analysis and also statistical analysis on the whole population. A group is defined as set of users whose members have either common demographics or common activities. Group-level analysis reduces the amount of sparsity and noise in data and leads to new insights. In this thesis, we propose a user group management framework consisting of following components: user group discovery, analysis and recommendation.The very first step in our framework is group discovery, i.e., given raw user data, obtain user groups by optimizing one or more quality dimensions. The second component (i.e., analysis) is necessary to tackle the problem of information overload: the output of a user group discovery step often contains millions of user groups. It is a tedious task for an analyst to skim over all produced groups. Thus we need analysis tools to provide valuable insights in this huge space of user groups. The final question in the framework is how to use the found groups. In this thesis, we investigate one of these applications, i.e., user group recommendation, by considering affinities between group members.All our contributions of the proposed framework are evaluated using an extensive set of experiments both for quality and performance
34

Rochd, El Mehdi. "Modèles probabilistes de consommateurs en ligne : personnalisation et recommandation." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4086.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les systèmes de recherche ont facilité l’accès à l’information disponible sur le web à l’aide de mécanismes de collecte, d’indexation et de stockage de contenus hétérogènes.Ils génèrent des traces résultant de l’activité des internautes. Il s’agit ensuite d’analyser ces données à l’aide d’outils de data mining afin d’améliorer la qualité de réponse de ces systèmes ou de la personnaliser en fonction des profils des utilisateurs. Certains acteurs, comme la société Marketshot, se positionnent comme intermédiaires entre les consommateurs et les professionnels. Ils mettent en relation les acheteurs potentiels avec les grandes marques et leurs réseaux de distribution à travers leurs sites Internet d’aide à l’achat. Pour cela, ces intermédiaires ont développé des portails efficaces et stockent de gros volumes de données liées à l’activité des internautes sur leurs sites. Ces gisements de données sont exploités pour répondre favorablement aux besoins des internautes, ainsi qu’à ceux des professionnels qui cherchent à comprendre le comportement de leurs clients et anticiper leurs actes d’achats. C’est dans ce contexte, où on cherche à fouiller les données collectées du web, que se placent mes travaux de recherche. L’idée est de construire des modèles qui permettent d’expliciter une corrélation entre les activités des internautes sur les sites d’aide à l’achat et les tendances de ventes de produits dans la « vraie vie ». En effet, ma thèse se place dans le cadre de l’apprentissage probabiliste et plus particulièrement des modèles graphiques « Topic Models ». Elle consiste à modéliser les comportements des internautes à partir des données d’usages de sites web
Research systems have facilitated access to information available on the web using mechanisms for collecting, indexing and storage of heterogeneous content. They generate data resulting from the activity of users on Internet (queries, logfile). The next step is to analyze the data using data mining tools in order to improve the response’s quality of these systems, or to customize the response based on users’ profiles. Some actors, such as the company Marketshot, are positioned as intermediaries between consumers and professionals. Indeed, they link potential buyers with the leading brands and distribution networks through their websites. For such purposes, these intermediaries have developed effective portals, and have stored large volumes of data related to the activity of users on their websites. These data repositories are exploited to respond positively to the needs of users as well as those of professionals who seek to understand the behavior of their customers and anticipate their purchasing actions. My thesis comes within the framework of searching through the data collected from the web. The idea is to build models that explain the correlation between the activities of users on websites of aid for the purchase, and sales trends of products in « real life ». In fact, my research concerns probabilistic learning, in particular Topic Models. It involves modeling the users’ behavior from uses of trader websites
35

Nana, jipmo Coriane. "Intégration du web social dans les systèmes de recommandation." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLC082/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le Web social croît de plus en plus et donne accès à une multitude de ressources très variées, qui proviennent de sites de partage tels que del.icio.us, d’échange de messages comme Twitter, des réseaux sociaux à finalité professionnelle, comme LinkedIn, ou plus généralement à finalité sociale, comme Facebook et LiveJournal. Un même individu peut être inscrit et actif sur différents réseaux sociaux ayant potentiellement des finalités différentes, où il publie des informations diverses et variées, telles que son nom, sa localité, ses communautés, et ses différentes activités. Ces informations (textuelles), au vu de la dimension internationale du Web, sont par nature, d’une part multilingue, et d’autre part, intrinsèquement ambiguë puisqu’elles sont éditées par les individus en langage naturel dans un vocabulaire libre. De même, elles sont une source de données précieuses, notamment pour les applications cherchant à connaître leurs utilisateurs afin de mieux comprendre leurs besoins et leurs intérêts. L’objectif de nos travaux de recherche est d’exploiter, en utilisant essentiellement l’encyclopédie Wikipédia, les ressources textuelles des utilisateurs extraites de leurs différents réseaux sociaux afin de construire un profil élargi les caractérisant et exploitable par des applications telles que les systèmes de recommandation. En particulier, nous avons réalisé une étude afin de caractériser les traits de personnalité des utilisateurs. De nombreuses expérimentations, analyses et évaluations ont été réalisées sur des données réelles collectées à partir de différents réseaux sociaux
The social Web grows more and more and gives through the web, access to a wide variety of resources, like sharing sites such as del.icio.us, exchange messages as Twitter, or social networks with the professional purpose such as LinkedIn, or more generally for social purposes, such as Facebook and LiveJournal. The same individual can be registered and active on different social networks (potentially having different purposes), in which it publishes various information, which are constantly growing, such as its name, locality, communities, various activities. The information (textual), given the international dimension of the Web, is inherently multilingual and intrinsically ambiguous, since it is published in natural language in a free vocabulary by individuals from different origin. They are also important, specially for applications seeking to know their users in order to better understand their needs, activities and interests. The objective of our research is to exploit using essentially the Wikpédia encyclopedia, the textual resources extracted from the different social networks of the same individual in order to construct his characterizing profile, which can be exploited in particular by applications seeking to understand their users, such as recommendation systems. In particular, we conducted a study to characterize the personality traits of users. Many experiments, analyzes and evaluations were carried out on real data collected from different social networks
36

Jerbi, Houssem. "Personnalisation d'analyses décisionnelles sur des données multidimensionnelles." Phd thesis, Toulouse 1, 2012. http://tel.archives-ouvertes.fr/tel-00695371.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le travail présenté dans cette thèse aborde la problématique de la personnalisation des analyses OLAP au sein des bases de données multidimensionnelles. Une analyse OLAP est modélisée par un graphe dont les noeuds représentent les contextes d'analyse et les arcs traduisent les opérations de l'utilisateur. Le contexte d'analyse regroupe la requête et le résultat. Il est décrit par un arbre spécifique qui est indépendant des structures de visualisation des données et des langages de requête. Par ailleurs, nous proposons un modèle de préférences utilisateur exprimées sur le schéma multidimensionnel et sur les valeurs. Chaque préférence est associée à un contexte d'analyse particulier. En nous basant sur ces modèles, nous proposons un cadre générique comportant deux mécanismes de personnalisation. Le premier mécanisme est la personnalisation de requête. Il permet d'enrichir la requête utilisateur à l'aide des préférences correspondantes afin de générer un résultat qui satisfait au mieux aux besoins de l'usager. Le deuxième mécanisme de personnalisation est la recommandation de requêtes qui permet d'assister l'utilisateur tout au long de son exploration des données OLAP. Trois scénarios de recommandation sont définis : l'assistance à la formulation de requête, la proposition de la prochaine requête et la suggestion de requêtes alternatives. Ces recommandations sont construites progressivement à l'aide des préférences de l'utilisateur. Afin valider nos différentes contributions, nous avons développé un prototype qui intègre les mécanismes de personnalisation et de recommandation de requête proposés. Nous présentons les résultats d'expérimentations montrant la performance et l'efficacité de nos approches. Mots-clés: OLAP, analyse décisionnelle, personnalisation de requête, système de recommandation, préférence utilisateur, contexte d'analyse, appariement d'arbres de contexte.
37

Feuilloy, Mathieu. "Étude d'algorithmes d'apprentissage artificiel pour la prédiction de la syncope chez l'homme." Phd thesis, Université d'Angers, 2009. http://tel.archives-ouvertes.fr/tel-00465008.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La syncope, dont l'origine peut ne pas être clairement définie, est considérée comme une pathologie fréquente. Dans ce cas et lorsque les épisodes sont répétés, le patient peut être amené à réaliser le test de la table d'inclinaison. Cet examen appelé tilt-test, est une méthode reconnue pour recréer les conditions dans lesquelles le patient ressent les symptômes de la syncope. Cependant, le principal problème de ce test est sa durée, qui peut atteindre une heure. Dès lors, pour des raisons de coût et de bien-être des patients, il paraît important de pouvoir réduire sa durée. C'est dans cet objectif que s'inscrivent les travaux réalisés dans le cadre de cette thèse, qui tentent de prédire l'apparition des symptômes liés à la syncope, et ce, le plus tôt possible. Durant nos recherches, deux axes sont ressortis naturellement : la fouille de données et le dé- veloppement de modèles capables de prédire le résultat du tilt-test. Ces deux axes partagent des méthodes issues de l'apprentissage articiel, qui permettent d'acquérir et d'extraire des connaissances à partir d'un ensemble d'observations signicatif. La littérature propose tout un ensemble de méthodes, qui nous ont permis de mettre en évidence certaines caractéristiques pertinentes, de manière à construire des modèles parcimonieux et robustes. Ces derniers ont permis d'obtenir des résultats intéressants pour la prédiction du résultat du tilt-test au terme notamment, des dix premières minutes de l'examen. Ces performances ont pu être considérablement améliorées par le développement de nouvelles techniques de fouille de données, permettant d'extraire très e- cacement de la connaissance. Les méthodes mises en place s'articulent autour de la sélection de variables et de l'interprétation de projections non linéaires. Ces méthodes, bien que développées autour de notre thématique, se sont montrées reproductibles lors de tests sur d'autres ensembles de données.
38

Tadlaoui, Mohammed. "Système de recommandation de ressources pédagogiques fondé sur les liens sociaux : Formalisation et évaluation." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEI053/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Avec la quantité croissante du contenu pédagogique produit chaque jour par les utilisateurs, il devient très difficile pour les apprenants de trouver les ressources les plus adaptées à leurs besoins. Les systèmes de recommandation sont utilisés dans les plateformes éducatives pour résoudre le problème de surcharge d'information. Ils sont conçus pour fournir des ressources pertinentes à un apprenant en utilisant certaines informations sur les utilisateurs et les ressources. Le présent travail s'inscrit dans le contexte des systèmes de recommandation des ressources pédagogiques, en particulier les systèmes qui utilisent des informations sociales. Nous avons défini une approche de recommandation de ressources éducatives en se basant sur les résultats de recherche dans le domaine des systèmes de recommandation, des réseaux sociaux et des environnements informatiques pour l’apprentissage humain. Nous nous appuyons sur les relations sociales entre apprenants pour améliorer la précision des recommandations. Notre proposition est basée sur des modèles formels qui calculent la similarité entre les utilisateurs d'un environnement d'apprentissage pour générer trois types de recommandation, à savoir la recommandation des 1) ressources populaires, 2) ressources utiles et 3) ressources récemment consultées. Nous avons développé une plateforme d'apprentissage, appelée Icraa, qui intègre nos modèles de recommandation. La plateforme Icraa est un environnement d’apprentissage social qui permet aux apprenants de télécharger, de visualiser et d’évaluer les ressources éducatives. Dans cette thèse, nous présentons les résultats d'une expérimentation menée pendant deux ans qui a impliqué un groupe de 372 apprenants d'Icraa dans un contexte éducatif réel. L'objectif de cette expérimentation est de mesurer la pertinence, la qualité et l'utilité des ressources recommandées. Cette étude nous a permis d'analyser les retours des utilisateurs concernant les trois types de recommandations. Cette analyse a été basée sur les traces des utilisateurs enregistrées avec Icraa et sur un questionnaire. Nous avons également effectué une analyse hors ligne en utilisant un jeu de données afin de comparer notre approche avec quatre algorithmes de référence
With the increasing amount of educational content produced daily by users, it becomes very difficult for learners to find the resources that are best suited to their needs. Recommendation systems are used in educational platforms to solve the problem of information overload. They are designed to provide relevant resources to a learner using some information about users and resources. The present work fits in the context of recommender systems for educational resources, especially systems that use social information. We have defined an educational resource recommendation approach based on research findings in the area of recommender systems, social networks, and Technology-Enhanced Learning. We rely on social relations between learners to improve the accuracy of recommendations. Our proposal is based on formal models that calculate the similarity between users of a learning environment to generate three types of recommendation, namely the recommendation of 1) popular resources; 2) useful resources; and 3) resources recently consulted. We have developed a learning platform, called Icraa, which integrates our recommendation models. The Icraa platform is a social learning environment that allows learners to download, view and evaluate educational resources. In this thesis, we present the results of an experiment conducted for almost two years on a group of 372 learners of Icraa in a real educational context. The objective of this experiment is to measure the relevance, quality and usefulness of the recommended resources. This study allowed us to analyze the user’s feedback on the three types of recommendations. This analysis is based on the users’ traces which was saved with Icraa and on a questionnaire. We have also performed an offline analysis using a dataset to compare our approach with four base line algorithms
39

Nurbakova, Diana. "Recommendation of activity sequences during distributed events." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEI115/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les événements distribués, se déroulant sur plusieurs jours et/ou sur plusieurs lieux, tels que les conventions, festivals ou croisières, sont de plus en plus populaires ces dernières années et attirant des milliers de participants. Les programmes de ces événements sont généralement très denses, avec un grand nombre d'activités se déroulant en parallèle. Ainsi, choisir les activités à entreprendre est devenu un véritable défi pour les participants. Les systèmes de recommandation peuvent constituer une solution privilégiée dans ce genre d'environnement. De nombreux travaux en recommandation se sont concentrés sur la recommandation personnalisée d'objets spatiaux (points d'intérêts immuables dans le temps ou événements éphémères) indépendants les uns des autres. Récemment, la communauté scientifique s'est intéressée à la recommandation de séquences de points d'intérêts, exploitant des motifs comportementaux des utilisateurs et incorporant des contraintes spatio-temporelles pour recommander un itinéraire de points d'intérêts. Néanmoins, très peu de travaux se sont intéressés à la problématique de la recommandation de séquence d'activités, problème plus difficile du fait du caractère éphémère des objets à recommander. Dans cette thèse, nous proposons tout d'abord une formalisation du problème de la recommandation de séquences d'activités. Dans ce cadre, nous proposons et discutons une classification des types d'influences pouvant avoir un impact sur l'estimation de l'intérêt des utilisateurs dans les activités. Ensuite, nous proposons ANASTASIA, une approche de recommandation personnalisée de séquences d'activités lors des événements distribués. Notre approche est basée sur trois composants clés : (1) l'estimation de l'intérêt d'un utilisateur pour une activité, prenant en compte différentes influences, (2) l'intégration de motifs comportementaux d'utilisateurs basés sur leurs historiques d'activités et (3) la construction d'un planning ou séquence d'activités prenant en compte les contraintes spatio-temporelles de l'utilisateur et des activités. Nous explorons ainsi des méthodes issus de l'apprentissage de séquences et de l'optimisation discrète pour résoudre le problème. Enfin, nous démontrons le manque de jeu de données librement accessibles pour l'évaluation des algorithmes de recommandation d'événements et de séquences d'événements. Nous pallions à ce problème en proposant deux jeux de données, librement accessibles, que nous avons construits au cours de la thèse: Fantasy_db et DEvIR. Fantasy_db comporte des données de participation à des événements lors d'une croisière, recueillies lors d'une étude utilisateur, tandis que DEvIR réunit des données de participation au Comic Con de San Diego, convention majeure dans le domaine
Multi-day events such as conventions, festivals, cruise trips, to which we refer to as distributed events, have become very popular in recent years, attracting hundreds or thousands of participants. Their programs are usually very dense, making it challenging for the attendees to make a decision which events to join. Recommender systems appear as a common solution in such an environment. While many existing solutions deal with personalised recommendation of single items, recent research focuses on the recommendation of consecutive items that exploits user's behavioural patterns and relations between entities, and handles geographical and temporal constraints. In this thesis, we first formulate the problem of recommendation of activity sequences, classify and discuss the types of influence that have an impact on the estimation of the user's interest in items. Second, we propose an approach (ANASTASIA) to solve this problem, which aims at providing an integrated support for users to create a personalised itinerary of activities. ANASTASIA brings together three components, namely: (1) estimation of the user’s interest in single items, (2) use of sequential influence on activity performance, and (3) building of an itinerary that takes into account spatio-temporal constraints. Thus, the proposed solution makes use of the methods based on sequence learning and discrete optimisation. Moreover, stating the lack of publicly available datasets that could be used for the evaluation of event and itinerary recommendation algorithms, we have created two datasets, namely: (1) event attendance on board of a cruise (Fantasy_db) based on a conducted user study, and (2) event attendance at a major comic book convention (DEvIR). This allows to perform evaluation of recommendation methods, and contributes to the reproducibility of results
40

Guàrdia, Sebaoun Elie. "Accès personnalisé à l'information : prise en compte de la dynamique utilisateur." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066519/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L’enjeu majeur de cette thèse réside dans l’amélioration de l’adéquation entre l’information retournée et les attentes des utilisateurs à l’aide de profils riches et efficaces. Il s’agit donc d’exploiter au maximum les retours utilisateur (qu’ils soient donnés sous la forme de clics, de notes ou encore d’avis écrits) et le contexte. En parallèle la forte croissance des appareils nomades (smartphones, tablettes) et par conséquent de l’informatique ubiquitaire nous oblige à repenser le rôle des systèmes d’accès à l’information. C’est pourquoi nous ne nous sommes pas seulement intéressés à la performance à proprement parler mais aussi à l’accompagnement de l’utilisateur dans son accès à l’information. Durant ces travaux de thèse, nous avons choisi d’exploiter les textes écrit par les utilisateurs pour affiner leurs profils et contextualiser la recommandation. À cette fin, nous avons utilisé les avis postés sur les sites spécialisés (IMDb, RateBeer, BeerAdvocate) et les boutiques en ligne (Amazon) ainsi que les messages postés sur Twitter.Dans un second temps, nous nous sommes intéressés aux problématiques de modélisation de la dynamique des utilisateurs. En plus d’aider à l’amélioration des performances du système, elle permet d’apporter une forme d’explication quant aux items proposés. Ainsi, nous proposons d’accompagner l’utilisateur dans son accès à l’information au lieu de le contraindre à un ensemble d’items que le système juge pertinents
The main goal of this thesis resides in using rich and efficient profiling to improve the adequation between the retrieved information and the user's expectations. We focus on exploiting as much feedback as we can (being clicks, ratings or written reviews) as well as context. In the meantime, the tremendous growth of ubiquitous computing forces us to rethink the role of information access platforms. Therefore, we took interest not solely in performances but also in accompanying users through their access to the information. Through this thesis, we focus on users dynamics modeling. Not only it improves the system performances but it also brings some kind of explicativity to the recommendation. Thus, we propose to accompany the user through his experience accessing information instead of constraining him to a given set of items the systems finds fitting
41

Bouzayane, Sarra. "Méthode de classification multicritère, incrémentale et périodique appliquée à la recommandation pour l'aide au transfert des savoirs dans les MOOCs." Thesis, Amiens, 2017. http://www.theses.fr/2017AMIE0029/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La thèse aborde la problématique de transfert de connaissances dans les environnements médiatisés à l'ère de la massification de données. Nous proposons une méthode d'aide à la décision multicritère MAI2P (Multicriteria Approach for the Incremental Periodic Prediction) pour la prédiction périodique et incrémentale de la classe de décision à laquelle une action est susceptible d'appartenir. La méthode MAI2P repose sur trois phases. La première phase est composée de trois étapes : la construction d'une famille de critères pour la caractérisation des actions ; la construction d'un ensemble des “Actions de référence” représentatif pour chacune des classes de décision ; et la construction d'une table de décision. La deuxième phase s'appuie sur l'algorithme DRSA-Incremental que nous proposons pour l'inférence et la mise à jour de l'ensemble de règles de décision suite à l'incrémentation séquentielle de l'ensemble des “actions de référence”. La troisième phase permet de classer les “Actions potentielles” dans l'une des classes de décision en utilisant l'ensemble de règles de décision inféré. La méthode MAI2P est validée sur un contexte des MOOCs (Massive Open Online Courses) qui sont des formations en ligne caractérisées par une masse importante de données échangées entre un nombre massif d’apprenants. Elle a permis la prédiction hebdomadaire des trois classes de décision : Cl1 des “Apprenants en risque” d'abandonner le MOOC; Cl2 des “Apprenants en difficulté” mais n'ayant pas l'intention d'abandon ; et Cl3 des “Apprenants leaders” susceptibles de soutenir les deux autres classes d'apprenants en leur transmettant l'information dont ils ont besoin. La prédiction est basée sur les données de toutes les semaines précédentes du MOOC afin de prédire le profil de l'apprenant pour la semaine suivante. Un système de recommandation KTI-MOOC (Recommender system for the Knowledge Transfer Improvement within a MOOC) est développé pour recommander à chaque “Apprenant en risque” ou “Apprenant en difficulté” une liste personnalisée des “Apprenants leaders”. Le système KTI-MOOC est basé sur la technique de filtrage démographique et a l'objectif de favoriser l'appropriation individuelle, des informations échangées, auprès de chaque apprenant
The thesis deals with the problem of knowledge transfer in mediated environments in the era of massive data. We propose a Multicriteria Approach for the Incremental Periodic Prediction (MAI2P) of the decision class to which an action is likely to belong. The MAI2P method is based on three phases. The first consists of three steps : the construction of a family of criteria for the characterization of actions ; the construction of a representative set of “Reference actions” for each of the decision classes ; and the construction of a decision table. The second phase is based on the DRSA-Incremental algorithm that we propose for the inference and the updating of the set of decision rules following the sequential increment of the “Reference actions” set. The third phase is meant to classify the “Potential Actions” in one of the predefined decision classes using the set of inferred decision rules. The MAI2P method is validated especially in the context of the Massive Open Online Courses (MOOCs), which are e-courses characterized by a huge amount of data exchanged between a massive number of learners. It allows the weekly prediction of the three decision classes : Cl1 of the “At risk learners”, those who intend to give up the MOOC; Cl2 of the “Struggling learners”, those who have pedagogical difficulties but have no plan to abandon it ; and Cl3 of the “Leader learners”, those who can support the other two classes of learners by providing them with all the information they need. The prediction is based on data from all the previous weeks of the MOOC in order to predict the learner profile for the following week. A recommender system KTI-MOOC (Recommender system for Knowledge Transfer Improvement within a MOOC) is developed to recommend to each “At risk learner” or “Struggling learner” a personalized list of “Leader learners”. This system is based on the demographic filtering technique and aims to promote the individual appropriation, of the exchanged information, for each learner
42

Rajaonarivo, Hiary Landy. "Approche co-évolutive humain-système pour l'exploration de bases de données." Thesis, Brest, 2018. http://www.theses.fr/2018BRES0114/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ces travaux de recherche portent sur l'aide à l'exploration de bases de données.La particularité de l'approche proposée repose sur un principe de co-évolution de l'utilisateur et d'une interface intelligente. Cette dernière devant permettre d'apporter une aide à la compréhension du domaine représenté par les données. Pour cela, une métaphore de musée virtuel vivant a été adoptée. Ce musée évolue de façon incrémentale au fil des interactions de l'utilisateur. Il incarne non seulement les données mais également des informations sémantiques explicitées par un modèle de connaissances spécifique au domaine exploré.A travers l'organisation topologique et l'évolution incrémentale, le musée personnalise en ligne le parcours de l'utilisateur. L'approche est assurée par trois mécanismes principaux : l'évaluation du profil de l'utilisateur modélisé par une pondération dynamique d'informations sémantiques, l'utilisation de ce profil dynamique pour établir une recommandation ainsi que l'incarnation des données dans le musée.L'approche est appliquée au domaine du patrimoine dans le cadre du projet ANTIMOINE, financé par l'Agence Nationale de la Recherche (ANR). La généricité de cette dernière a été démontrée à travers son application à une base de données de publications mais également à travers l'utilisation de types d'interfaces variés (site web, réalité virtuelle).Des expérimentations ont permis de valider l'hypothèse que notre système s'adapte aux évolutions des comportements de l'utilisateur et qu'il est capable, en retour, d'influencer ce dernier. Elles ont également permis de comparer une interface 2D avec une interface 3D en termes de qualité de perception, de guidage, de préférence et d'efficacité
This thesis focus on a proposition that helps humans during the exploration of database. The particularity of this proposition relies on a co-evolution principle between the user and an intelligent interface. It provides a support to the understanding of the domain represented by the data. A metaphor of living virtual museum is adopted. This museum evolves incrementally according to the user's interactions. It incarnates both the data and the semantic information which are expressed by a knowledge model specific to the domain of the data. Through the topological organization and the incremental evolution, the museum personalizes online the user's exploration. The approach is insured by three main mechanisms: the evaluation of the user profile modelled by a dynamical weighting of the semantic information, the use of this dynamic profile to establish a recommendation as well as the incarnation of the data in the living museum. The approach has been applied to the heritage domain as part of the ANTIMOINE project, funded by the National Research Agency (ANR). The genericity of the latter has been demonstrated through its application to a database of publications but also using various types of interfaces (website, virtual reality).Experiments have validated the hypothesis that our system adapts itself to the user behavior and that it is able, in turn, to influence him.They also showed the comparison between a 2D interface and a 3D interface in terms of quality of perception, guidance, preference and efficiency
43

Dupas, Rémy. "Apport des méthodes d'apprentissage symbolique automatique pour l'aide à la maintenance industrielle." Valenciennes, 1990. https://ged.uphf.fr/nuxeo/site/esupversions/7ab53b01-cdfb-4932-ba60-cb5332e3925a.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse est consacrée à l'étude des méthodes d'apprentissages symbolique automatique en vue de leurs applications dans le domaine de la maintenance industrielle. Plus précisément, l'apport des méthodes d'apprentissage inductives basées sur la recherche de similarités entre exemples est envisagé à deux niveaux distincts. Le premier niveau concerne le domaine de la maintenance corrective. L'approche présentée aborde le développement et la mise en œuvre d'un module d'acquisition automatique de connaissance de surface pour le système expert de diagnostic technique Sediag. Ce module basé sur l'utilisation du système inductif Charade, engendre un système de règles à partir des informations mémorisées au cours des sessions de diagnostic antérieures. Le second niveau d'aide, relatif à la maintenance préventive aborde la conception d'un système à base de connaissance dédié à l'exploitation de la base de données des historiques de maintenance. Cette approche repose sur l'association de deux types de connaissances. Le premier est la connaissance induite par le module d'apprentissage à partir de la base de données. La connaissance générale d'experts en maintenance préventive constitue le second type de connaissance utilisé. Le système ainsi réalisé permet d'automatiser l'exploitation des historiques de maintenance et de fournir des conseils de prévention dont l'objectif est d'accroitre l'efficacité de cette maintenance. Enfin, est proposée une architecture intégrée de système à base de connaissance utilisant des méthodes d'apprentissage symbolique automatique pour l'aide à la maintenance corrective et préventive.
44

Peoples, Bruce E. "Méthodologie d'analyse du centre de gravité de normes internationales publiées : une démarche innovante de recommandation." Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080023.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
.../
“Standards make a positive contribution to the world we live in. They facilitate trade, spreadknowledge, disseminate innovative advances in technology, and share good management andconformity assessment practices”7. There are a multitude of standard and standard consortiaorganizations producing market relevant standards, specifications, and technical reports in thedomain of Information Communication Technology (ICT). With the number of ICT relatedstandards and specifications numbering in the thousands, it is not readily apparent to users howthese standards inter-relate to form the basis of technical interoperability. There is a need todevelop and document a process to identify how standards inter-relate to form a basis ofinteroperability in multiple contexts; at a general horizontal technology level that covers alldomains, and within specific vertical technology domains and sub-domains. By analyzing whichstandards inter-relate through normative referencing, key standards can be identified as technicalcenters of gravity, allowing identification of specific standards that are required for thesuccessful implementation of standards that normatively reference them, and form a basis forinteroperability across horizontal and vertical technology domains. This Thesis focuses on defining a methodology to analyze ICT standards to identifynormatively referenced standards that form technical centers of gravity utilizing Data Mining(DM) and Social Network Analysis (SNA) graph technologies as a basis of analysis. As a proofof concept, the methodology focuses on the published International Standards (IS) published bythe International Organization of Standards/International Electrotechnical Committee; JointTechnical Committee 1, Sub-committee 36 Learning Education, and Training (ISO/IEC JTC1 SC36). The process is designed to be scalable for larger document sets within ISO/IEC JTC1 that covers all JTC1 Sub-Committees, and possibly other Standard Development Organizations(SDOs).Chapter 1 provides a review of literature of previous standard analysis projects and analysisof components used in this Thesis, such as data mining and graph theory. Identification of adataset for testing the developed methodology containing published International Standardsneeded for analysis and form specific technology domains and sub-domains is the focus ofChapter 2. Chapter 3 describes the specific methodology developed to analyze publishedInternational Standards documents, and to create and analyze the graphs to identify technicalcenters of gravity. Chapter 4 presents analysis of data which identifies technical center of gravitystandards for ICT learning, education, and training standards produced in ISO/IEC JTC1 SC 36.Conclusions of the analysis are contained in Chapter 5. Recommendations for further researchusing the output of the developed methodology are contained in Chapter 6
45

Baro, Johanna. "Modélisation multi-échelles de la morphologie urbaine à partir de données carroyées de population et de bâti." Thesis, Paris Est, 2015. http://www.theses.fr/2015PEST1004/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La question des liens entre forme urbaine et transport se trouve depuis une vingtaine d'années au cœur des réflexions sur la mise en place de politiques d'aménagement durable. L'essor de la diffusion de données sur grille régulière constitue dans ce cadre une nouvelle perspective pour la modélisation de structures urbaines à partir de mesures de densités affranchies de toutes les contraintes des maillages administratifs. A partir de données de densité de population et de surface bâtie disponibles à l'échelle de la France sur des grilles à mailles de 200 mètres de côté, nous proposons deux types de classifications adaptées à l'étude des pratiques de déplacement et du développement urbain : des classifications des tissus urbains et des classifications des morphotypes de développement urbain. La construction de telles images classées se base sur une démarche de modélisation théorique et expérimentale soulevant de forts enjeux méthodologiques quant à la classification d'espaces urbains statistiquement variés. Pour nous adapter au traitement exhaustif de ces espaces, nous avons proposé une méthode de classification des tissus urbains par transfert d'apprentissage supervisé. Cette méthode utilise le formalisme des champs de Markov cachés pour prendre en compte les dépendances présentes dans ces données spatialisées. Les classifications en morphotypes sont ensuite obtenus par un enrichissement de ces premières images classées, formalisé à partir de modèles chorématiques et mis à œuvre par raisonnement spatial qualitatif. L'analyse de ces images classées par des méthodes de raisonnement spatial quantitatif et d'analyses factorielles nous a permis de révéler la diversité morphologique de 50 aires urbaines françaises. Elle nous a permis de mettre en avant la pertinence de ces classifications pour caractériser les espaces urbains en accord avec différents enjeux d'aménagement relatifs à la densité ou à la multipolarité
Since a couple of decades the relationships between urban form and travel patterns are central to reflection on sustainable urban planning and transport policy. The increasing distribution of regular grid data is in this context a new perspective for modeling urban structures from measurements of density freed from the constraints of administrative division. Population density data are now available on 200 meters grids covering France. We complete these data with built area densities in order to propose two types of classified images adapted to the study of travel patterns and urban development: classifications of urban fabrics and classifications of morphotypes of urban development. The construction of such classified images is based on theoretical and experimental which raise methodological issues regarding the classification of a statistically various urban spaces. To proceed exhaustively those spaces, we proposed a per-pixel classification method of urban fabrics by supervised transfer learning. Hidden Markov random fields are used to take into account the dependencies in the spatial data. The classifications of morphotypes are then obtained by broadening the knowledge of urban fabrics. These classifications are formalized from chorematique theoretical models and implemented by qualitative spatial reasoning. The analysis of these classifications by methods of quantitative spatial reasoning and factor analysis allowed us to reveal the morphological diversity of 50 metropolitan areas. It highlights the relevance of these classifications to characterize urban areas in accordance with various development issues related to the density or multipolar development
46

Moreau, Aurélien. "How fuzzy set theory can help make database systems more cooperative." Thesis, Rennes 1, 2018. http://www.theses.fr/2018REN1S043/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans ces travaux de thèse nous proposons de tirer parti de la théorie des ensembles flous afin d'améliorer les interactions entre les systèmes de bases de données et les utilisateurs. Les mécanismes coopératifs visent à aider les utilisateurs à mieux interagir avec les SGBD. Ces mécanismes doivent faire preuve de robustesse : ils doivent toujours pouvoir proposer des réponses à l'utilisateur. Empty set (0,00 sec) est un exemple typique de réponse qu'il serait désirable d'éradiquer. Le caractère informatif des explications de réponses est parfois plus important que les réponses elles-mêmes : ce peut être le cas avec les réponses vides et pléthoriques par exemple, d'où l'intérêt de mécanismes coopératifs robustes, capables à la fois de contribuer à l'explication ainsi qu'à l'amélioration des résultats. Par ailleurs, l'utilisation de termes de la langue naturelle pour décrire les données permet de garantir l'interprétabilité des explications fournies. Permettre à l'utilisateur d'utiliser des mots de son propre vocabulaire contribue à la personnalisation des explications et améliore l'interprétabilité. Nous proposons de nous intéresser aux explications dans le contexte des réponses coopératives sous trois angles : 1) dans le cas d'un ensemble pléthorique de résultats ; 2) dans le contexte des systèmes de recommandation ; 3) dans le cas d'une recherche à partir d'exemples. Ces axes définissent des approches coopératives où l'intérêt des explications est de permettre à l'utilisateur de comprendre comment sont calculés les résultats proposés dans un effort de transparence. Le caractère informatif des explications apporte une valeur ajoutée aux résultats bruts, et forme une réponse coopérative
In this thesis, we are interested in how we can leverage fuzzy logic to improve the interactions between relational database systems and humans. Cooperative answering techniques aim to help users harness the potential of DBMSs. These techniques are expected to be robust and always provide answer to users. Empty set (0,00 sec) is a typical example of answer that one may wish to never obtain. The informative nature of explanations is higher than that of actual answers in several cases, e.g. empty answer sets and plethoric answer sets, hence the interest of robust cooperative answering techniques capable of both explaining and improving an answer set. Using terms from natural language to describe data --- with labels from fuzzy vocabularies --- contributes to the interpretability of explanations. Offering to define and refine vocabulary terms increases the personalization experience and improves the interpretability by using the user's own words. We propose to investigate the use of explanations in a cooperative answering setting using three research axes: 1) in the presence of a plethoric set of answers; 2) in the context of recommendations; 3) in the context of a query/answering problem. These axes define cooperative techniques where the interest of explanations is to enable users to understand how results are computed in an effort of transparency. The informativeness of the explanations brings an added value to the direct results, and that in itself represents a cooperative answer
47

Ngo, Duy Hoa. "Amélioration de l'alignement d'ontologies par les techniques d'apprentissage automatique, d'appariement de graphes et de recherche d'information." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2012. http://tel.archives-ouvertes.fr/tel-00767318.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ces dernières années, les ontologies ont suscité de nombreux travaux dans le domaine du web sémantique. Elles sont utilisées pour fournir le vocabulaire sémantique permettant de rendre la connaissance du domaine disponible pour l'échange et l'interprétation au travers des systèmes d'information. Toutefois, en raison de la nature décentralisée du web sémantique, les ontologies sont très hétérogènes. Cette hétérogénéité provoque le problème de la variation de sens ou ambiguïté dans l'interprétation des entités et, par conséquent, elle empêche le partage des connaissances du domaine. L'alignement d'ontologies, qui a pour but la découverte des correspondances sémantiques entre des ontologies, devient une tâche cruciale pour résoudre ce problème d'hétérogénéité dans les applications du web sémantique. Les principaux défis dans le domaine de l'alignement d'ontologies ont été décrits dans des études récentes. Parmi eux, la sélection de mesures de similarité appropriées ainsi que le réglage de la configuration de leur combinaison sont connus pour être des problèmes fondamentaux que la communauté doit traiter. En outre, la vérification de la cohérence sémantique des correspondances est connue pour être une tâche importante. Par ailleurs, la difficulté du problème augmente avec la taille des ontologies. Pour faire face à ces défis, nous proposons dans cette thèse une nouvelle approche, qui combine différentes techniques issues des domaines de l'apprentissage automatique, d'appariement de graphes et de recherche d'information en vue d'améliorer la qualité de l'alignement d'ontologies. En effet, nous utilisons des techniques de recherche d'information pour concevoir de nouvelles mesures de similarité efficaces afin de comparer les étiquettes et les profils d'entités de contexte au niveau des entités. Nous appliquons également une méthode d'appariement de graphes appelée propagation de similarité au niveau de la structure qui découvre effectivement des correspondances en exploitant des informations structurelles des entités. Pour combiner les mesures de similarité au niveau des entités, nous transformons la tâche de l'alignement d'ontologie en une tâche de classification de l'apprentissage automatique. Par ailleurs, nous proposons une méthode dynamique de la somme pondérée pour combiner automatiquement les correspondances obtenues au niveau des entités et celles obtenues au niveau de la structure. Afin d'écarter les correspondances incohérentes, nous avons conçu une nouvelle méthode de filtrage sémantique. Enfin, pour traiter le problème de l'alignement d'ontologies à large échelle, nous proposons deux méthodes de sélection des candidats pour réduire l'espace de calcul. Toutes ces contributions ont été mises en œuvre dans un prototype nommé YAM++. Pour évaluer notre approche, nous avons utilisé des données du banc d'essai de la compétition OAEI : Benchmark, Conference, Multifarm, Anatomy, Library and Large Biomedical Ontologies. Les résultats expérimentaux montrent que les méthodes proposées sont très efficaces. De plus, en comparaison avec les autres participants à la compétition OAEI, YAM++ a montré sa compétitivité et a acquis une position de haut rang.
48

Sakout, Andaloussi Kenza, and Andaloussi Kenza Sakout. "Amélioration de l'expérience d'apprentissage dans un système hypermédia adaptatif éducatif grâce aux données extraites et inférées à partir des réseaux sociaux." Doctoral thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/37918.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Avec l'émergence des formations en ligne accessibles pour tous, la personnalisation de l'apprentissage devient de plus en plus cruciale et présente de nouveaux défis aux chercheurs du domaine. Il est actuellement nécessaire de tenir compte de l'hétérogénéité du public cible et lui présenter des contenus éducatifs adaptés à ses besoins et sa façon d'apprendre afin de lui permettre de profiter au maximum de ces formations et éviter le décrochage. Ce travail de recherche s'inscrit dans le cadre des travaux sur la personnalisation de l'apprentissage à travers les systèmes hypermédias adaptatifs utilisés en éducation (SHAE). Ces systèmes ont la vocation de personnaliser le processus d'apprentissage selon des critères bien spécifiques, tels que les pré-requis ou plus souvent les styles d'apprentissage, en générant un chemin d'apprentissage adéquat. Les SHAE se basent généralement sur trois modèles principaux à savoir le modèle apprenant, le modèle du domaine et le modèle d'adaptation. Bien que la personnalisation du processus d'apprentissage offerte par les SHAE actuels soit avantageuse pour les apprenants, elle présente encore certaines limites. D'un côté, juste le fait de personnaliser l'apprentissage augmente les chances que le contenu présenté à l'apprenant lui soit utile et sera ainsi mieux compris. Mais d'un autre côté, la personnalisation dans les SHAE existants se contente des critères niveau de connaissances et style d'apprentissage, et elle s'applique seulement à certains aspects qui n'ont pas évolué depuis leur création, à savoir le contenu, la présentation et la navigation. Ceci remet en question la pertinence des objets d'apprentissage attribués aux apprenants et la motivation de ces derniers à faire usage des SHAE sachant que ceux-ci se basent essentiellement sur les questionnaires pour la constitution de leur modèle apprenant. Suite à une étude empirique d'une cinquantaine de SHAE existants, révélant leurs atouts et limites, certains objectifs de recherche ont été identifiés afin d'améliorer l'expérience d'apprentissage à travers ces systèmes. Ces objectifs visent à établir un modèle de SHAE capable de (i) déterminer les données du modèle apprenant de façon implicite à partir des réseaux sociaux tout en répondant aux standards associés à ce modèle afin de construire le modèle apprenant; (ii) favoriser la collaboration entre les différents apprenants qui seraient mieux motivés à apprendre en collaborant; (iii) personnaliser, de façon automatique, de nouveaux aspects à savoir l'approche pédagogique, la collaboration et le feedback selon les traits de personnalité de l'apprenant en plus des trois volets existants. Un modèle de SHAE a été proposé pour répondre à ces objectifs. Ce modèle permet d’extraire les données personnelles de l'utilisateur à partir de ses réseaux sociaux et de prédire ses traits de personnalité selon son interaction avec ces réseaux. Par la suite, il est possible d'adapter les objets d'apprentissage, sur la base d'un système de recommandation, à ces traits de personnalité en plus du style d'apprentissage et du niveau de connaissances des apprenants. L'adaptation aux traits de personnalité de l'apprenant selon le modèle Big Five a permis de personnaliser de nouveaux aspects tels l'approche pédagogique, le type de collaboration et le feedback. Un prototype, "ColadaptLearn", conçu à partir de ce modèle et expérimenté avec un ensemble d'étudiants a permis de valider les choix du prototype pour les objets d'apprentissage, selon les règles préétablies, en les confrontant aux choix faits par les étudiants. Ces données ont été utilisées pour développer un réseau bayésien permettant de prédire les objets d'apprentissage adéquats aux futurs apprenants. Les résultats de l’expérimentation ont montré qu'il y a une bonne concordance entre les choix du prototype et ceux des apprenants, en plus d'une satisfaction de ces derniers par rapport aux feedbacks reçus, ce qui appuie le rajout des nouveaux aspects proposés. Comme suite à cette thèse, il est envisageable d'appliquer le modèle proposé dans des environnements d'apprentissage plus larges de types cours en ligne ouverts et massifs, jeu sérieux ou même des formations mobiles, ce qui contribuerait à mieux valider les propos amenés. Il est aussi possible d’utiliser des techniques d'apprentissage automatique autres que les réseaux bayésiens pour la prédiction des objets d'apprentissage adaptés. Finalement, il serait intéressant d'explorer d'autres sources de données qui pourraient fournir plus d'informations sur l'apprenant de façon implicite tels ses centres d'intérêt ou ses émotions auxquels un SHAE pourrait s'adapter.
Avec l'émergence des formations en ligne accessibles pour tous, la personnalisation de l'apprentissage devient de plus en plus cruciale et présente de nouveaux défis aux chercheurs du domaine. Il est actuellement nécessaire de tenir compte de l'hétérogénéité du public cible et lui présenter des contenus éducatifs adaptés à ses besoins et sa façon d'apprendre afin de lui permettre de profiter au maximum de ces formations et éviter le décrochage. Ce travail de recherche s'inscrit dans le cadre des travaux sur la personnalisation de l'apprentissage à travers les systèmes hypermédias adaptatifs utilisés en éducation (SHAE). Ces systèmes ont la vocation de personnaliser le processus d'apprentissage selon des critères bien spécifiques, tels que les pré-requis ou plus souvent les styles d'apprentissage, en générant un chemin d'apprentissage adéquat. Les SHAE se basent généralement sur trois modèles principaux à savoir le modèle apprenant, le modèle du domaine et le modèle d'adaptation. Bien que la personnalisation du processus d'apprentissage offerte par les SHAE actuels soit avantageuse pour les apprenants, elle présente encore certaines limites. D'un côté, juste le fait de personnaliser l'apprentissage augmente les chances que le contenu présenté à l'apprenant lui soit utile et sera ainsi mieux compris. Mais d'un autre côté, la personnalisation dans les SHAE existants se contente des critères niveau de connaissances et style d'apprentissage, et elle s'applique seulement à certains aspects qui n'ont pas évolué depuis leur création, à savoir le contenu, la présentation et la navigation. Ceci remet en question la pertinence des objets d'apprentissage attribués aux apprenants et la motivation de ces derniers à faire usage des SHAE sachant que ceux-ci se basent essentiellement sur les questionnaires pour la constitution de leur modèle apprenant. Suite à une étude empirique d'une cinquantaine de SHAE existants, révélant leurs atouts et limites, certains objectifs de recherche ont été identifiés afin d'améliorer l'expérience d'apprentissage à travers ces systèmes. Ces objectifs visent à établir un modèle de SHAE capable de (i) déterminer les données du modèle apprenant de façon implicite à partir des réseaux sociaux tout en répondant aux standards associés à ce modèle afin de construire le modèle apprenant; (ii) favoriser la collaboration entre les différents apprenants qui seraient mieux motivés à apprendre en collaborant; (iii) personnaliser, de façon automatique, de nouveaux aspects à savoir l'approche pédagogique, la collaboration et le feedback selon les traits de personnalité de l'apprenant en plus des trois volets existants. Un modèle de SHAE a été proposé pour répondre à ces objectifs. Ce modèle permet d’extraire les données personnelles de l'utilisateur à partir de ses réseaux sociaux et de prédire ses traits de personnalité selon son interaction avec ces réseaux. Par la suite, il est possible d'adapter les objets d'apprentissage, sur la base d'un système de recommandation, à ces traits de personnalité en plus du style d'apprentissage et du niveau de connaissances des apprenants. L'adaptation aux traits de personnalité de l'apprenant selon le modèle Big Five a permis de personnaliser de nouveaux aspects tels l'approche pédagogique, le type de collaboration et le feedback. Un prototype, "ColadaptLearn", conçu à partir de ce modèle et expérimenté avec un ensemble d'étudiants a permis de valider les choix du prototype pour les objets d'apprentissage, selon les règles préétablies, en les confrontant aux choix faits par les étudiants. Ces données ont été utilisées pour développer un réseau bayésien permettant de prédire les objets d'apprentissage adéquats aux futurs apprenants. Les résultats de l’expérimentation ont montré qu'il y a une bonne concordance entre les choix du prototype et ceux des apprenants, en plus d'une satisfaction de ces derniers par rapport aux feedbacks reçus, ce qui appuie le rajout des nouveaux aspects proposés. Comme suite à cette thèse, il est envisageable d'appliquer le modèle proposé dans des environnements d'apprentissage plus larges de types cours en ligne ouverts et massifs, jeu sérieux ou même des formations mobiles, ce qui contribuerait à mieux valider les propos amenés. Il est aussi possible d’utiliser des techniques d'apprentissage automatique autres que les réseaux bayésiens pour la prédiction des objets d'apprentissage adaptés. Finalement, il serait intéressant d'explorer d'autres sources de données qui pourraient fournir plus d'informations sur l'apprenant de façon implicite tels ses centres d'intérêt ou ses émotions auxquels un SHAE pourrait s'adapter.
With the growth of online learning accessible to all, learning personalization is becoming increasingly crucial and presents new challenges for researchers. It is currently essential to take into account the heterogeneity of the target audience and adapt educational content to their needs and learning style in such a way that they are able to fully benefit from these learning forms and prevent them from dropping out. This research work addresses learning personalization through adaptive educational hypermedia systems (AEHS). These systems are designed to customize the learning process according to specific criteria, such as prerequisites or, more often, learning styles, by generating a suitable learning path. AEHS are generally based on three main models: the learning model, the domain model and the adaptation model. Although the learning process customization offered by current AEHS is beneficial to learners, it still has some limitations. On one hand, just the fact of personalizing learning increases the likelihood that the content presented to the learner will be useful and thus better understood. But on the other hand, customization in existing AEHS is limited to the criteria knowledge level and learning style and applies only to certain aspects which have not evolved since their creation, namely content, presentation and navigation. This questions the relevance of the learning objects assigned to learners and their motivation to use such AEHS, knowing that they rely essentially on questionnaires to build their learner model. After conducting an empirical study of 50 existing AEHS, revealing their strengths and limitations, some research objectives were identified to improve the learning experience through such systems. These objectives aim to establish an AEHS model which is able to (i) implicitly identify the learning model data on the basis of social networks while meeting the associated standards; (ii) promote collaboration between different learners who would be better motivated to learn while collaborating; (iii) automatically customize new aspects such as the teaching approach, collaboration and feedback according to learners' personality traits in addition to the three existing ones. An AEHS model has been proposed to meet these objectives. This model makes it possible to extract the user's personal data from his social networks and to predict his personality traits depending on his interaction with these networks. Thereafter, it is possible to adapt the learning objects, on the basis of a recommendation system, to these personality traits in addition to the criteria learning style and knowledge level. Adapting to the learner's personality traits according to the Big Five model enabled the customization of new aspects such as the pedagogical approach, the collaboration type and the feedback. A prototype, "ColadaptLearn", based on this model and experimented with a group of students, validated the prototype's choices for learning objects while confronting them to the students' choices. These data were then used to build a Bayesian network to predict the appropriate learning objects for future learners. The experimental results showed that there is a good match between the prototype choices and those of learners, in addition to learners' satisfaction regarding the feedback received, which supports the addition of the proposed new aspects. As a follow-up to this thesis, it is possible to apply the proposed model in a larger learning environment such as massive open online courses (MOOC), serious games or mobile learning, which would help to validate the proposals made. It is also possible to use other automatic learning techniques than Bayesian networks to predict suitable learning objects. Finally, it would be interesting to explore other data sources that could implicitly provide more information about the learner, such as his or her interests or emotions that an SHAE could adapt to.
With the growth of online learning accessible to all, learning personalization is becoming increasingly crucial and presents new challenges for researchers. It is currently essential to take into account the heterogeneity of the target audience and adapt educational content to their needs and learning style in such a way that they are able to fully benefit from these learning forms and prevent them from dropping out. This research work addresses learning personalization through adaptive educational hypermedia systems (AEHS). These systems are designed to customize the learning process according to specific criteria, such as prerequisites or, more often, learning styles, by generating a suitable learning path. AEHS are generally based on three main models: the learning model, the domain model and the adaptation model. Although the learning process customization offered by current AEHS is beneficial to learners, it still has some limitations. On one hand, just the fact of personalizing learning increases the likelihood that the content presented to the learner will be useful and thus better understood. But on the other hand, customization in existing AEHS is limited to the criteria knowledge level and learning style and applies only to certain aspects which have not evolved since their creation, namely content, presentation and navigation. This questions the relevance of the learning objects assigned to learners and their motivation to use such AEHS, knowing that they rely essentially on questionnaires to build their learner model. After conducting an empirical study of 50 existing AEHS, revealing their strengths and limitations, some research objectives were identified to improve the learning experience through such systems. These objectives aim to establish an AEHS model which is able to (i) implicitly identify the learning model data on the basis of social networks while meeting the associated standards; (ii) promote collaboration between different learners who would be better motivated to learn while collaborating; (iii) automatically customize new aspects such as the teaching approach, collaboration and feedback according to learners' personality traits in addition to the three existing ones. An AEHS model has been proposed to meet these objectives. This model makes it possible to extract the user's personal data from his social networks and to predict his personality traits depending on his interaction with these networks. Thereafter, it is possible to adapt the learning objects, on the basis of a recommendation system, to these personality traits in addition to the criteria learning style and knowledge level. Adapting to the learner's personality traits according to the Big Five model enabled the customization of new aspects such as the pedagogical approach, the collaboration type and the feedback. A prototype, "ColadaptLearn", based on this model and experimented with a group of students, validated the prototype's choices for learning objects while confronting them to the students' choices. These data were then used to build a Bayesian network to predict the appropriate learning objects for future learners. The experimental results showed that there is a good match between the prototype choices and those of learners, in addition to learners' satisfaction regarding the feedback received, which supports the addition of the proposed new aspects. As a follow-up to this thesis, it is possible to apply the proposed model in a larger learning environment such as massive open online courses (MOOC), serious games or mobile learning, which would help to validate the proposals made. It is also possible to use other automatic learning techniques than Bayesian networks to predict suitable learning objects. Finally, it would be interesting to explore other data sources that could implicitly provide more information about the learner, such as his or her interests or emotions that an SHAE could adapt to.
49

Bordes, Antoine. "Nouveaux Algorithmes pour l'Apprentissage de Machines à Vecteurs Supports sur de Grandes Masses de Données." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00464007.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Internet ainsi que tous les moyens numériques modernes disponibles pour communiquer, s'informer ou se divertir génèrent des données en quantités de plus en plus importantes. Dans des domaines aussi variés que la recherche d'information, la bio-informatique, la linguistique computationnelle ou la sécurité numérique, des méthodes automatiques capables d'organiser, classifier, ou transformer des téraoctets de données apportent une aide précieuse. L'apprentissage artificiel traite de la conception d'algorithmes qui permettent d'entraîner de tels outils à l'aide d'exemples d'apprentissage. Utiliser certaines de ces méthodes pour automatiser le traitement de problèmes complexes, en particulier quand les quantités de données en jeu sont insurmontables pour des opérateurs humains, paraît inévitable. Malheureusement, la plupart des algorithmes d'apprentissage actuels, bien qu'efficaces sur de petites bases de données, présentent une complexité importante qui les rend inutilisables sur de trop grandes masses de données. Ainsi, il existe un besoin certain dans la communauté de l'apprentissage artificiel pour des méthodes capables d'être entraînées sur des ensembles d'apprentissage de grande échelle, et pouvant ainsi gérer les quantités colossales d'informations générées quotidiennement. Nous développons ces enjeux et défis dans le Chapitre 1. Dans ce manuscrit, nous proposons des solutions pour réduire le temps d'entraînement et les besoins en mémoire d'algorithmes d'apprentissage sans pour autant dégrader leur précision. Nous nous intéressons en particulier aux Machines à Vecteurs Supports (SVMs), des méthodes populaires utilisées en général pour des tâches de classification automatique mais qui peuvent être adaptées à d'autres applications. Nous décrivons les SVMs en détail dans le Chapitre 2. Ensuite, dans le Chapitre 3, nous étudions le processus d'apprentissage par descente de gradient stochastique pour les SVMs linéaires. Cela nous amène à définir et étudier le nouvel algorithme, SGD-QN. Après cela, nous introduisons une nouvelle procédure d'apprentissage : le principe du “Process/Reprocess”. Nous déclinons alors trois algorithmes qui l'utilisent. Le Huller et LaSVM sont présentés dans le Chapitre 4. Ils servent à apprendre des SVMs destinés à traiter des problèmes de classification binaire (décision entre deux classes). Pour la tˆache plus complexe de prédiction de sorties structurées, nous modifions par la suite en profondeur l'algorithme LaSVM, ce qui conduit à l'algorithme LaRank présenté dans le Chapitre 5. Notre dernière contribution concerne le problème récent de l'apprentissage avec une supervision ambigüe pour lequel nous proposons un nouveau cadre théorique (et un algorithme associé) dans le Chapitre 6. Nous l'appliquons alors au problème de l'étiquetage sémantique du langage naturel. Tous les algorithmes introduits dans cette thèse atteignent les performances de l'état-de-l'art, en particulier en ce qui concerne les vitesses d'entraînement. La plupart d'entre eux ont été publiés dans des journaux ou actes de conférences internationaux. Des implantations efficaces de chaque méthode ont également été rendues disponibles. Dans la mesure du possible, nous décrivons nos nouveaux algorithmes de la manière la plus générale possible afin de faciliter leur application à des tâches nouvelles. Nous esquissons certaines d'entre elles dans le Chapitre 7.
50

Hussain, Syed Fawad. "Une Nouvelle Mesure de Co-Similarité : Applications aux Données Textuelles et Génomique." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00525366.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La classification de données (ou apprentissage non-supervisé) vise à regrouper un ensemble d'observations sous la forme de classes homogènes et contrastées. Lorsque les données sont caractérisées par un grand nombre de variables, il devient nécessaire d'adapter les méthodes classiques, notamment au niveau des métriques, afin de maintenir des classes pertinentes ; ce phénomène est connu sous le nom de "malédiction de la dimension". Dans cette thèse, nous proposons une mesure de co-similarité basée sur la notion de co-occurrences d'ordre supérieur, directement extraites à partir des données. Dans le cas de l'analyse de texte, par exemple, les similarités entre documents sont calculées en prenant en compte les similarités entre mots, qui simultanément prennent en compte les similarités entre documents. Par cette approche " circulaire ", nous parvenons à mettre en correspondance des documents sans mots communs mais ayant juste des mots similaires. Cette approche s'effectue de manière purement numérique sans nécessiter de thesaurus externe. En outre, notre méthode peut également être étendue pour tirer parti de connaissances "a priori" afin de réaliser des tâches de catégorisation de textes : l'étiquette des documents est utilisée pour influencer les mesures de similarité entre les mots afin de classer de nouvelles données. Ainsi, le même cadre conceptuel, exprimable en terme de théorie des graphes, peut être utilisé à la fois pour les tâches de classification et de catégorisation en fonction de la quantité d'information initiale. Nos résultats montrent une amélioration significative de la précision, par rapport à l'état de l'art, à la fois pour le co-clustering et la catégorisation sur les jeux de données qui ont été testés.

До бібліографії