Дисертації з теми "Analyse exploratoire des données"

Щоб переглянути інші типи публікацій з цієї теми, перейдіть за посиланням: Analyse exploratoire des données.

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся з топ-50 дисертацій для дослідження на тему "Analyse exploratoire des données".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Переглядайте дисертації для різних дисциплін та оформлюйте правильно вашу бібліографію.

1

Verbanck, Marie. "Analyse exploratoire de données transcriptomiques : de leur visualisation à l'intégration d’information extérieure." Rennes, Agrocampus Ouest, 2013. http://www.theses.fr/2013NSARG011.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Nous proposons de nouvelles méthodologies statistiques exploratoires dédiées au traitement des données transcriptomiques (puce à ADN). Les données transcriptomiques offrent une image du transcriptome qui lui-même est le résultat des phénomènes d'activation ou d'inhibition de l'expression des gènes. Cependant, cette image du transcriptome est bruitée. C'est pourquoi, nous abordons premièrement la problématique de débruitage des données transcriptomiques. Ainsi, nous proposons une version régularisée de l'analyse en composantes principales. Cette version régularisée permet de mieux reconstituer et visualiser le signal sous-jacent de données bruitées. Par ailleurs, nous pouvons nous demander si la connaissance du seul transcriptome est suffisante pour démêler la complexité des relations entre gènes. Nous proposons donc d'intégrer d'autres sources d'information sur les gènes, de façon active, dans l'analyse des données transcriptomiques. Deux grands mécanismes semblent intervenir dans la régulation de l'expression, les protéines régulatrices et les réseaux de régulation d'une part, la localisation chromosomique et l'architecture du génome d'autre part. Premièrement, nous nous focalisons sur la régulation par l'intermédiaire de protéines régulatrices ; nous proposons un algorithme de classification des gènes basé sur l'intégration de connaissances fonctionnelles sur les gènes, fournies par les annotations Gene Ontology. Cet algorithme fournit des clusters de gènes similaires du point de vue de l'expression et des annotations fonctionnelles et qui sont ainsi de meilleurs candidats à l'interprétation. Enfin, nous proposons de relier l'étude des données transcriptomiques à la localisation chromosomique au sein d'une méthodologie développée en collaboration avec des généticiens
We propose new methodologies of exploratory statistics which are dedicated to the analysis of transcriptomic data (DNA microarray data). Transcriptomic data provide an image of the transcriptome which itself is the result of phenomena of activation or inhibition of gene expression. However, the image of the transcriptome is noisy. That is why, firstly we focus on the issue of transcriptomic data denoising, in a visualisation framework. To do so, we propose a regularised version of principal component analysis. This regularised version allows to better estimate and visualise the underlying signal of noisy data. In addition, we can wonder if the knowledge of only the transcriptome is enough to understand the complexity of relationships between genes. That is why we propose to integrate other sources of information about genes, and in an active way, in the analysis of transcriptomic data. Two major mechanisms seem to be involved in the regulation of gene expression, regulatory proteins (for instance transcription factors) and regulatory networks on the one hand, chromosomal localisation and genome architecture on the other hand. Firstly, we focus on the regulation of gene expression by regulatory proteins; we propose a gene clustering algorithm based on the integration of functional knowledge about genes, which is provided by Gene Ontology annotations. This algorithm provides clusters constituted by genes which have both similar expression profiles and similar functional annotations. The clusters thus constituted are then better candidates for interpretation. Secondly, we propose to link the study of transcriptomic data to chromosomal localisation in a methodology developed in collaboration with geneticists
2

Rigouste, Loïs. "Méthodes probabilistes pour l'analyse exploratoire de données textuelles." Phd thesis, Télécom ParisTech, 2006. http://pastel.archives-ouvertes.fr/pastel-00002424.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double: nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques.
3

Bry, Xavier. "Une méthodologie exploratoire pour l'analyse et la synthèse d'un modèle explicatif : l'Analyse en Composantes Thématiques." Paris 9, 2004. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2004PA090055.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Ghalamallah, Ilhème. "Proposition d'un modèle d'analyse exploratoire multidimensionnelle dans un contexte d'intelligence économique." Toulouse 3, 2009. http://www.theses.fr/2009TOU30293.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La réussite d'une entreprise est souvent conditionnée par sa capacité à identifier, collecter, traiter et diffuser de l'information à des fins stratégiques. Par ailleurs, les technologies de l'information et de la connaissance apportent des contraintes auxquelles les entreprises doivent s'adapter : un flot continu, une circulation beaucoup plus rapide, des techniques toujours plus complexes. Le risque est d'être submergé par cette information et de ne plus pouvoir distinguer l'essentiel du négligeable. En effet, avec l'avènement de la nouvelle économie dominée par le marché, la problématique industrielle et commerciale de l'entreprise est devenue très complexe. Désormais, pour être compétitive, l'entreprise doit savoir gérer son capital immatériel. L'intelligence économique (IE) est une réponse aux bouleversements de l'environnement global des entreprises et plus largement de toute organisation. Dans une économie où tout se complexifie et bouge rapidement, la gestion stratégique de l'information est devenue l'un des moteurs essentiels de la performance globale des entreprises. L'IE est une démarche et un processus organisationnel qui permet d'être plus compétitif, par la surveillance de son environnement et de sa dynamique. Dans ce contexte, nous avons constaté qu'une grande part de l'information à portée stratégique vient du relationnel : liens entre acteurs du domaine, réseaux sémantiques, alliances, fusions, acquisitions, collaborations, cooccurrences de tous ordres. Nos travaux consistent à proposer un modèle d'analyse multidimensionnelle dédiée à l'IE. Cette approche repose sur l'extraction de connaissances par l'analyse de l'évolution des données relationnelles. Nous proposons un modèle permettant de mieux comprendre l'activité des acteurs d'un domaine donné, leurs interactions mais aussi leur évolution et leur stratégie, ceci dans une perspective décisionnelle. Cette démarche repose sur la conception d'un système d'information générique d'analyse en ligne permettant d'homogénéiser et d'organiser les données textuelles sous forme relationnelle et, de là, en extraire des connaissances implicites dont le contenu et la mise en forme sont adaptés à des décideurs non spécialistes du domaine de l'extraction des connaissances
A successful business is often conditioned by its ability to identify, collect, process and disseminate information for strategic purposes. Moreover, information technology and knowledge provide constraints that companies must adapt : a continuous stream, a circulation much faster techniques increasingly complex. The risk of being swamped by this information and no longer able to distinguish the essential from the trivial. Indeed, with the advent of new economy dominated by the market, the problem of industrial and commercial enterprise is become very complex. Now, to be competitive, the company must know how to manage their intangible capital. Competitive Intelligence (CI) is a response to the upheavals of the overall business environment and more broadly to any organization. In an economy where everything moves faster and more complex, management Strategic Information has become a key driver of overall business performance. CI is a process and an organizational process that can be more competitive, by monitoring its environment and its dynamics. In this context, we found that much information has strategic significance to the relationship: links between actors in the field, semantic networks, alliances, mergers, acquisitions, collaborations, co-occurrences of all kinds. Our work consists in proposing a model of multivariate analysis dedicated to the IE. This approach is based on the extraction of knowledge by analyzing the evolution of relational databases. We offer a model for understanding the activity of actors in a given field, but also their interactions their development and strategy, this decision in perspective. This approach is based on the designing a system of generic information online analysis to homogenize and organize text data in relational form, and thence to extract implicit knowledge of the content and formatting are adapted to non-specialist decision makers in the field of knowledge extraction
5

Guigourès, Romain. "Utilisation des modèles de co-clustering pour l'analyse exploratoire des données." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2013. http://tel.archives-ouvertes.fr/tel-00935278.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d'une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l'ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L'approche MODL permet d'obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d'analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d'en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d'analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes. Enfin une application sur des comptes-rendus d'appels de l'opérateur Orange, collectés en Côte d'Ivoire, montre l'intérêt de l'approche et des outils d'analyse exploratoire dans un contexte industriel.
6

Truong, Thérèse Quy Thy. "Le vandalisme de l’information géographique volontaire : analyse exploratoire et proposition d’une méthodologie de détection automatique." Thesis, Paris Est, 2020. http://www.theses.fr/2020PESC2009.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La qualité de l'information géographique volontaire est actuellement un sujet qui questionne autant les consommateurs de données géographiques que les producteurs de données d'autorité voulant exploiter les bienfaits de la démarche collaborative. En effet, si les données cartographiques collaboratives présentent l'intérêt d'être ouvertes, contrairement à certaines bases de données géographiques officielles, celles-ci sont néanmoins sujettes à des erreurs voire à des dégradations volontaires, provoquées par des contributeurs malintentionnés. Dans ce dernier cas, on parle de vandalisme cartographique ou de carto-vandalisme. Ce phénomène est un travers de la démarche collaborative, et bien qu'il ne concerne qu'une faible portion des contributions, il peut constituer un obstacle à l'utilisation des données cartographiques participatives. Dans une démarche de qualification de l'information géographique volontaire, ce travail de thèse a plus précisément pour objectif de détecter le vandalisme dans les données collaboratives cartographiques. Dans un premier temps, il s'agit de formaliser une définition du concept de carto-vandalisme. Puis, en partant du principe que les contributions volontairement dégradées proviennent de contributeurs malveillants, nous cherchons à démontrer que la qualification des contributeurs permettant d'évaluer leurs contributions. Enfin, nos expériences explorent la capacité des méthodes d'apprentissage machine (machine learning) à détecter le carto-vandalisme
The quality of Volunteered Geographic Information (VGI) is currently a topic that question spatial data users as well as authoritative data producers who are willing to exploit the benefits of crowdsourcing. Contrary to most authoritative databases, the advantage of VGI provides open access to spatial data. However, VGI is prone to errors, even to deliberate defacement perpetrated by ill-intended contributors. In the latter case, we may speak of cartographic vandalism of carto-vandalism. This phenomenon is one the main downsides of crowsdsourcing, and despite the small amount of incidents, it may be a barrier to the use of collaborative spatial data. This thesis follows an approach based on VGI quality -- in particular, the objective of this work is to detect vandalism in spatial collaborative data. First, we formalize a definition of the concept of carto-vandalism. Then, assuming that corrupted spatial data come from malicious contributors, we demonstate that qualifying contributors enables to assess the corresponding contributed data. Finally, the experiments explore the ability of learning methods to detect carto-vandalism
7

Guigourès, Romain. "Utilisation des modèles de co-clustering pour l'analyse exploratoire des données." Thesis, Paris 1, 2013. http://www.theses.fr/2013PA010070.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le co-clustering est une technique de classification consistant à réaliser une partition simultanée des lignes et des colonnes d’une matrice de données. Parmi les approches existantes, MODL permet de traiter des données volumineuses et de réaliser une partition de plusieurs variables, continues ou nominales. Nous utilisons cette approche comme référence dans l’ensemble des travaux de la thèse et montrons la diversité des problèmes de data mining pouvant être traités, comme le partitionnement de graphes, de graphes temporels ou encore le clustering de courbes. L’approche MODL permet d’obtenir des résultats fins sur des données volumineuses, ce qui les rend difficilement interprétables. Des outils d’analyse exploratoire sont alors nécessaires pour les exploiter. Afin de guider l'utilisateur dans l'interprétation de tels résultats, nous définissons plusieurs outils consistant à simplifier des résultats fins afin d’en avoir une interprétation globale, à détecter les clusters remarquables, à déterminer les valeurs représentatives de leurs clusters et enfin à visualiser les résultats. Les comportements asymptotiques de ces outils d’analyse exploratoire sont étudiés afin de faire le lien avec les approches existantes.Enfin une application sur des comptes-rendus d’appels de l’opérateur Orange, collectés en Côte d’Ivoire, montre l’intérêt de l’approche et des outils d’analyse exploratoire dans un contexte industriel
Co-clustering is a clustering technique aiming at simultaneously partitioning the rows and the columns of a data matrix. Among the existing approaches, MODL is suitable for processing huge data sets with several continuous or categorical variables. We use it as the baseline approach in this thesis. We discuss the reliability of applying such an approach on data mining problems like graphs partitioning, temporal graphs segmentation or curve clustering.MODL tracks very fine patterns in huge data sets, that makes the results difficult to study. That is why, exploratory analysis tools must be defined in order to explore them. In order to help the user in interpreting the results, we define exploratory analysis tools aiming at simplifying the results in order to make possible an overall interpretation, tracking the most interesting patterns, determining the most representative values of the clusters and visualizing the results. We investigate the asymptotic behavior of these exploratory analysis tools in order to make the connection with the existing approaches.Finally, we highlight the value of MODL and the exploratory analysis tools owing to an application on call detailed records from the telecom operator Orange, collected in Ivory Coast
8

Heymann, Sébastien. "Analyse exploratoire de flots de liens pour la détection d'événements." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00994766.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Un flot de liens représente une trace de l'activité d'un système complexe au cours du temps, où un lien apparaît lorsque deux entités du système entrent en interaction ; l'ensemble des entités et des liens forme un graphe. Ces traces constituent depuis quelques années des jeux de données stratégiques dans l'analyse de l'activité de systèmes complexes à grande échelle, impliquant des millions d'entités : réseaux de téléphone mobiles, réseaux sociaux, ou encore Internet. Cette thèse porte sur l'analyse exploratoire des flots de liens, en particulier sur la caractérisation de leur dynamique et l'identification d'anomalies au cours du temps (événements). Nous proposons un cadre exploratoire sans hypothèse sur les données, faisant appel à l'analyse statistique et à la visualisation. Les événements détectés sont statistiquement significatifs et nous proposons une méthode pour valider leur pertinence. Nous illustrons enfin notre méthodologie sur l'évolution du réseau social en ligne Github, où des centaines de milliers de développeurs collaborent sur des projets de logiciel.
9

Posse, Christian. "Analyse exploratoire de données et discrimination à l'aide de projection pursuit /." [S.l.] : [s.n.], 1993. http://library.epfl.ch/theses/?display=detail&nr=1124.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
10

Moudden, Yassir. "Estimation de paramètres physiques de combustion par modélisation du signal d'ionisation et inversion paramétrique." Paris 11, 2003. http://www.theses.fr/2003PA112004.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse est consacrée à la conception d'un système de mesure indirecte pour l'estimation quantitative de paramètres de combustion pertinents en termes de diagnostics et de contrôle moteur, fondé sur l'observation d'une grandeur aisément accessible, le signal d'ionisation. Nous avons envisagé une approche au sens des problèmes inverses. Il s'agit de construire un modèle paramétrique du signal d'ionisation au moyen des équations de la physique puis d'estimer les paramètres par inversion du modèle dans une boucle d'optimisation. L'extrême complexité des phénomènes participant vraisemblablement à la construction de ce signal ne nous a pas permis d'aboutir et nous nous sommes orientés vers une approche plus expérimentale. Nous avons mené une analyse statistique aveugle des données fournies par RENAULT dans le but d'expliciter une relation entre le signal d'ionisation et les grandeurs à estimer. L'étude statistique de données évoluant dans un espace de grande dimension étant notoirement maladroite, différentes méthodes classiques de réduction de la dimension apparente des données telles que l'Analyse en Composantes Principales, Projection Pursuit, etc. Ont été utilisées avec profit. Nous avons par ailleurs proposé une extension de cette dernière méthode en montrant l'utilité de critères issus de la théorie de l'information tels que l'information mutuelle ou la mesure de dépendance de Hellinger, pour la sélection de projections intéressantes. Nous avons aussi pu profitablement diminuer la dimension des données étudiées en recherchant un ensemble réduit de variables intermédiaires susceptibles de retenir une information relative à la grandeur d'intérêt. Ces analyses nous ont ensuite permis de proposer différents estimateurs de l'angle de pression de chambre maximale dont la précision et la stabilité ont été étudiées sur un sous ensemble des données disponibles correspondant à un domaine assez large de points de fonctionnement du moteur
The work described in this thesis investigates the possibility of constructing an indirect measurement algorithm of relevant combustion parameters based on ionization signal processing. Indeed, automobile manufacturers are in need of low cost combustion diagnoses to enhance engine control. Because of the extreme complexity of the physical phenomena in which the ionization signal originates, the traditional model-based approach appeared unrealistic and did not bring about conclusive results. We hence turned to performing a blind statistical analysis of experimental data acquired on a test engine. The analysis of high dimensional data being notoriously awkward, it is necessary to first reduce the apparent dimension of the signal data, keeping in mind the necessity of preserving the information useful in terms of our estimation problem. The usual techniques such as Principal Component Analysis, Projection Pursuit, etc. Are used to form and detect relevant variables. Further, a procedure for high dimensional data analysis derived as an extension of Exploratory Projection Pursuit, is suggested and shown to be a profitable tool. With this method, we seek interesting projections of high dimensional data by optimizing probabilistic measures of dependence such as Mutual Information, Hellinger divergence, etc. Finally, results are presented that demonstrate the quality and the stability of the low complexity in-cylinder peak pressure position estimators we derived, for a wide range of engine states
11

Pfaender, Fabien. "Spatialisation de l'information." Compiègne, 2009. http://www.theses.fr/2009COMP1813.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L’objectif de ce travail est de proposer une sémiologie à même d’expliquer l’impact des présentations d’informations sur la cognition de façon à pouvoir ensuite les utiliser au mieux pour fouiller des données, synthétiser des informations et explorer des très grands jeux de données hétérogènes. Afin de comprendre comment les informations sont perçues et comment leurs présentations nous affectent et nous transforment, nous nous sommes placés dans une approche énactive où le monde de l’expérience vécue par le sujet se constitue dans le couplage entre l’organisme et son environnement et où la perception émerge du couplage entre ses actions et ses sensations. Nous avons alors proposé que les actions de lecture soient portées par des lignes pour former des gestes perceptifs. Ces gestes sont à la base de structures primaires qui composent toutes les présentations d’informations. Analysées en vertu des contraintes et libertés qu’elles offrent, tant du point de leur lecture globale que des variations locales liées à leur inscription, les structures peuvent ensuite se combiner pour créer des structures secondaires et l’on peut ainsi modéliser la perception et l’effet cognitif de toutes les spatialisations d’information. Cet appareil explicatif permet de proposer une méthode systématique qui met en œuvre les principes sémiologiques découvertes pour explorer des systèmes complexes et en produire des modèles en mettant à jour leur structure. Cette méthode et cette sémiologie ont été testées au sein d’un logiciel d’exploration du Web à base de spatialisations développé pour l’occasion
The goal of this work is to understand how information presentations affect cognition so as to use them efficiently to mine date, synthesize information and explorer large heterogeneous datasets. We chose an enactive approach as a conceptual framework to understand how informations are perceived and how the way they are presented affects and transform us. In enaction, the world as perceived by a subject is the result of a dynamic coupling between the organism and its environment. Perception itself emerges from the coupling between subject’s actions and its sensations. Following these principles, we proposed that lines are a perceptive support for actions of reading that lead to complex perceptive gestures. Those gestures are the basis of what we called primary structures which exist in every presentation of informations. The structures are analyzed in terms of constraints and liberties they offer both for global gesture support and for local gesture variations. The five structures identified are the list, the diagram, the array, the graph of nodes and edges and the map. Primary structures themselves can also be combined into secondary structures. Thus, knowing how primary and secondary structure are perceived, it becomes possible to understand perceptive and cognitive effect of all spatialization of informations. Finally, given the semiological principles we discovered, we were able to come up with a systematic and spatialization-based metho to explore complex systems and reveal their structure. The method and the semiology have been integrated and tested in a web exploration software we developed for the occasion
12

Omidvar, Tehrani Behrooz. "Optimization-based User Group Management : Discovery, Analysis, Recommendation." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM038/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les donn ́ees utilisateurs sont devenue de plus en plus disponibles dans plusieurs do- maines tels que les traces d'usage des smartphones et le Web social. Les donn ́ees util- isateurs, sont un type particulier de donn ́ees qui sont d ́ecrites par des informations socio-d ́emographiques (ex., ˆage, sexe, m ́etier, etc.) et leurs activit ́es (ex., donner un avis sur un restaurant, voter, critiquer un film, etc.). L'analyse des donn ́ees utilisa- teurs int ́eresse beaucoup les scientifiques qui travaillent sur les ́etudes de la population, le marketing en-ligne, les recommandations et l'analyse des donn ́ees `a grande ́echelle. Cependant, les outils d'analyse des donn ́ees utilisateurs sont encore tr`es limit ́es.Dans cette th`ese, nous exploitons cette opportunit ́e et proposons d'analyser les donn ́ees utilisateurs en formant des groupes d'utilisateurs. Cela diff`ere de l'analyse des util- isateurs individuels et aussi des analyses statistiques sur une population enti`ere. Un groupe utilisateur est d ́efini par un ensemble des utilisateurs dont les membres parta- gent des donn ́ees socio-d ́emographiques et ont des activit ́es en commun. L'analyse au niveau d'un groupe a pour objectif de mieux g ́erer les donn ́ees creuses et le bruit dans les donn ́ees. Dans cette th`ese, nous proposons un cadre de gestion de groupes d'utilisateurs qui contient les composantes suivantes: d ́ecouverte de groupes, analyse de groupes, et recommandation aux groupes.La premi`ere composante concerne la d ́ecouverte des groupes d'utilisateurs, c.- `a-d., compte tenu des donn ́ees utilisateurs brutes, obtenir les groupes d'utilisateurs en op- timisantuneouplusieursdimensionsdequalit ́e. Ledeuxi`emecomposant(c.-`a-d., l'analyse) est n ́ecessaire pour aborder le probl`eme de la surcharge de l'information: le r ́esultat d'une ́etape d ́ecouverte des groupes d'utilisateurs peut contenir des millions de groupes. C'est une tache fastidieuse pour un analyste `a ́ecumer tous les groupes trouv ́es. Nous proposons une approche interactive pour faciliter cette analyse. La question finale est comment utiliser les groupes trouv ́es. Dans cette th`ese, nous ́etudions une applica- tion particuli`ere qui est la recommandation aux groupes d'utilisateurs, en consid ́erant les affinit ́es entre les membres du groupe et son ́evolution dans le temps.Toutes nos contributions sont ́evalu ́ees au travers d'un grand nombre d'exp ́erimentations `a la fois pour tester la qualit ́e et la performance (le temps de r ́eponse)
User data is becoming increasingly available in multiple domains ranging from phone usage traces to data on the social Web. User data is a special type of data that is described by user demographics (e.g., age, gender, occupation, etc.) and user activities (e.g., rating, voting, watching a movie, etc.) The analysis of user data is appealing to scientists who work on population studies, online marketing, recommendations, and large-scale data analytics. However, analysis tools for user data is still lacking.In this thesis, we believe there exists a unique opportunity to analyze user data in the form of user groups. This is in contrast with individual user analysis and also statistical analysis on the whole population. A group is defined as set of users whose members have either common demographics or common activities. Group-level analysis reduces the amount of sparsity and noise in data and leads to new insights. In this thesis, we propose a user group management framework consisting of following components: user group discovery, analysis and recommendation.The very first step in our framework is group discovery, i.e., given raw user data, obtain user groups by optimizing one or more quality dimensions. The second component (i.e., analysis) is necessary to tackle the problem of information overload: the output of a user group discovery step often contains millions of user groups. It is a tedious task for an analyst to skim over all produced groups. Thus we need analysis tools to provide valuable insights in this huge space of user groups. The final question in the framework is how to use the found groups. In this thesis, we investigate one of these applications, i.e., user group recommendation, by considering affinities between group members.All our contributions of the proposed framework are evaluated using an extensive set of experiments both for quality and performance
13

Paillé, Pierre. "Les études sur la paix dans les collèges et universités : une analyse des données, des débats et des courants, avec survol exploratoire de la situation au Québec." Mémoire, Université de Sherbrooke, 1988. http://hdl.handle.net/11143/9209.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les termes et les conditions de notre sécurité à tous, de nos rapports sociaux, politiques, économiques et de notre développement doivent être repensés et le temps nous semble compté. Les problèmes qui nous assaillent de toutes parts apparaissent parfois tellement définitifs qu'il ne faut pas s'étonner de voir notre société effectuer un repli narcissique. La tentation est grande, pour celui qui en a les moyens, de couper le contact et de bâtir, ailleurs, potager biologique et microcosme humanisé. Il pourrait d'ailleurs en émerger un modèle de société, à la mesure de l'homme, qui, ultimement, pourrait transformer l'ensemble des rapports humains, sociaux et politiques. Cette utopie, nous devons y travailler, et elle semble devoir passer dès maintenant par le potager biologique et le microcosme humanisé. Mais le problème global, planétaire, demeure entier. D'où l'importance inestimable, aussi, du mouvement pour la paix. Son étendue à travers le monde autorise peut-être à entretenir l'espoir que, pour paraphraser Albert Jacquard, à l'hominisation succédera l’humanisation. Cet espoir est peut-être encore plus fondé depuis que le thème de la paix a gagné les classes et les salles de cours d'un façon explicite et importante. L'enseignement relatif à la paix occupe une place importante au sein des efforts globaux de paix. Cet exposé porte sur les "études sur la paix". Par "études sur la paix", il faut entendre un ensemble de cours collégiaux et universitaires, parfois accompagnés d'activités ou de recherches, visant à explorer académiquement des connaissances, des habiletés et des valeurs pertinentes au problème global de la paix. Il s'agit d'un ensemble de cours spécifiques, mais ceux-ci s'inscrivent aussi dans une démarche globale qui peut pratiquement être assimilée à un "mouvement". La définition qui précède n'est, en fait, qu'exploratoire. L'objet, essentiel de ce mémoire est, justement, de décrire le plus adéquatement possible ce phénomène, ce qui n'est pas du tout évident à première vue. [...]
14

Borderon, Marion. "Entre distance géographique et distance sociale : le risque de paludisme-infection en milieu urbain africain : l'exemple de l'agglomération de Dakar, Sénégal." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM3004/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse défend l’intérêt d’appliquer une démarche d’analyse exploratoire de données spatiales pour examiner un phénomène complexe irréductible, dans un contexte limité en données : le paludisme-infection à Dakar. Chaque partie du système pathogène du paludisme est nécessaire mais non suffisante au fonctionnement du système. Il n’y a paludisme-infection que lorsque les trois composantes sont en contact : le parasite, le vecteur et l’hôte humain. La recherche des lieux où ces contacts peuvent s’opérer facilement est donc primordiale dans la lutte contre le paludisme et l’amélioration des programmes visant à la diminution voire l’élimination de la maladie. L’analyse exploratoire, encore très peu appliquée dans les pays dits du Sud, se définit ainsi comme une démarche de recherche mais aussi comme un moyen d’apporter des réponses aux besoins sanitaires. Elle pousse à l’observation, sous différents angles, des déterminants sociaux qui sont impliqués dans la réalisation du phénomène, tout comme à l’examen des interactions existantes entre eux. Nous avons récolté des informations quantitatives variées, en lien direct et indirect avec l’étude du paludisme. Interprétation d’images satellites, données censitaires, résultats d’enquêtes sociales et sanitaires ont été intégrées dans un système d’information géographique pour décrire la ville et ses habitants. Le croisement de ces sources a permis d’étudier les faces spatiales du risque épidémique palustre. Le recours à des analyses statistiques et géostatistiques, bivariées et multivariées, a permis de souligner que le risque d’infection des populations dépendait fortement d’une distance, que l’on a qualifié de sociale
This thesis applies an Exploratory Spatial Data Analysis (ESDA) approach to study a complex phenomenon in a data scarce environment: malaria infection in Dakar. Each component of the malaria pathogenic system is necessary but not sufficient to result in an infection when acting in isolation. For malaria infection to occur, three components need to interact: the parasite, the vector, and the human host. The identification of areas where these three components can easily interact is therefore essential in the fight against malaria and the improvement of programs for the prevention and control or elimination of the disease. ESDA, still rarely applied in developing countries, is thus defined as a research approach but also as a way to provide answers to global health challenges. It leads to observation, from different angles, on the social and spatial determinants of malaria infection, as well as the examination of existing interactions between its three components. Several streams of quantitative information were collected, both directly and indirectly related to the study of malaria. More specifically, multi-temporal satellite imagery, census data, and results from social and health surveys have been integrated into a Geographic Information System (GIS) to describe the city and its inhabitants. Combining these datasets has enabled to study the spatial variability of the risk of malaria infection
15

Loubier, Eloïse. "Analyse et visualisation de données relationnelles par morphing de graphe prenant en compte la dimension temporelle." Phd thesis, Université Paul Sabatier - Toulouse III, 2009. http://tel.archives-ouvertes.fr/tel-00423655.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Avec la mondialisation, l'entreprise doit faire face aux menaces de plus en plus fortes de la concurrence et à l'accélération des flux d'information. Pour cela, elle est amenée à rester continuellement informée des innovations, des stratégies de la concurrence et de l'état du marché tout en gardant la maîtrise de son environnement. Le développement d'Internet et la globalisation ont à la fois renforcé cette exigence, et fourni les moyens de collecter l'information qui, une fois synthétisée, prend souvent une forme relationnelle. Pour analyser le relationnel, le recours à la visualisation par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s'approprier une forme de connaissance difficile à appréhender autrement.
Nos travaux conduisent à l'élaboration des techniques graphiques permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Nous concevons un outil alliant simplicité d'utilisation et précision d'analyse se basant sur deux types de visualisations complémentaires : statique et dynamique.
L'aspect statique de notre modèle de visualisation repose sur un espace de représentation, dans lequel les préceptes de la théorie des graphes sont appliqués. Le recours à des sémiologies spécifiques telles que le choix de formes de représentation, de granularité, de couleurs significatives permet une visualisation plus juste et plus précise de l'ensemble des données. L'utilisateur étant au cœur de nos préoccupations, notre contribution repose sur l'apport de fonctionnalités spécifiques, qui favorisent l'identification et l'analyse détaillée de structures de graphes. Nous proposons des algorithmes qui permettent de cibler le rôle des données au sein de la structure, d'analyser leur voisinage, tels que le filtrage, le k-core, la transitivité, de retourner aux documents sources, de partitionner le graphe ou de se focaliser sur ses spécificités structurelles.
Une caractéristique majeure des données stratégiques est leur forte évolutivité. Or l'analyse statistique ne permet pas toujours d'étudier cette composante, d'anticiper les risques encourus, d'identifier l'origine d'une tendance, d'observer les acteurs ou termes ayant un rôle décisif au cœur de structures évolutives.
Le point majeur de notre contribution pour les graphes dynamiques représentant des données à la fois relationnelles et temporelles, est le morphing de graphe. L'objectif est de faire ressortir les tendances significatives en se basant sur la représentation, dans un premier temps, d'un graphe global toutes périodes confondues puis en réalisant une animation entre les visualisations successives des graphes attachés à chaque période. Ce procédé permet d'identifier des structures ou des événements, de les situer temporellement et d'en faire une lecture prédictive.
Ainsi notre contribution permet la représentation des informations, et plus particulièrement l'identification, l'analyse et la restitution des structures stratégiques sous jacentes qui relient entre eux et à des moments donnés les acteurs d'un domaine, les mots-clés et concepts qu'ils utilisent.
16

Mahmoudysepehr, Mehdi. "Modélisation du comportement du tunnelier et impact sur son environnement." Thesis, Centrale Lille Institut, 2020. http://www.theses.fr/2020CLIL0028.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ce travail de recherche de thèse de doctorat consiste à comprendre le comportement du tunnelier en fonction de l’environnement rencontré afin de proposer des solutions sûres, durables et de quqlité pour le creusement du tunnel.Le principal objectif de ce travail de thèse de doctorat est de mieux comprendre le comportement du tunnelier en fonction de son environnement. Ainsi, on explorera comment le tunnelier réagit en fonction des différents types de terrain et comment il agit sur les différents éléments de structure du tunnel (voussoirs). Cela permettra de proposer un dimensionnement intelligent et optimal des voussoirs et des consignes de pilotages adaptées
This PhD thesis research work consists in understanding the behavior of the TBM according to the environment encountered in order to propose safe, durable and quality solutions for the digging of the tunnel.The main objective of this doctoral thesis work is to better understand the behavior of the TBM according to its environment. Thus, we will explore how the TBM reacts according to the different types of terrain and how it acts on the various elements of tunnel structure (voussoirs). This will make it possible to propose an intelligent and optimal dimensioning of the voussoirs and instructions of adapted piloting
17

Loubier, Éloïse. "Analyse et visualisation de données relationnelles par morphing de graphe prenant en compte la dimension temporelle." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/2264/.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Avec la mondialisation, l'entreprise doit faire face aux menaces de plus en plus fortes de la concurrence et à l'accélération des flux d'information. Pour cela, elle est amenée à rester continuellement informée des innovations, des stratégies de la concurrence et de l'état du marché tout en gardant la maîtrise de son environnement. Le développement d'Internet et la globalisation ont à la fois renforcé cette exigence, et fourni les moyens de collecter l'information qui, une fois synthétisée, prend souvent une forme relationnelle. Pour analyser le relationnel, le recours à la visualisation par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s'approprier une forme de connaissance difficile à appréhender autrement. Nos travaux conduisent à l'élaboration des techniques graphiques permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Nous concevons un outil alliant simplicité d'utilisation et précision d'analyse se basant sur deux types de visualisations complémentaires : statique et dynamique. L'aspect statique de notre modèle de visualisation repose sur un espace de représentation, dans lequel les préceptes de la théorie des graphes sont appliqués. Le recours à des sémiologies spécifiques telles que le choix de formes de représentation, de granularité, de couleurs significatives permet une visualisation plus juste et plus précise de l'ensemble des données. L'utilisateur étant au cœur de nos préoccupations, notre contribution repose sur l'apport de fonctionnalités spécifiques, qui favorisent l'identification et l'analyse détaillée de structures de graphes. Nous proposons des algorithmes qui permettent de cibler le rôle des données au sein de la structure, d'analyser leur voisinage, tels que le filtrage, le k-core, la transitivité, de retourner aux documents sources, de partitionner le graphe ou de se focaliser sur ses spécificités structurelles. Une caractéristique majeure des données stratégiques est leur forte évolutivité. Or l'analyse statistique ne permet pas toujours d'étudier cette composante, d'anticiper les risques encourus, d'identifier l'origine d'une tendance, d'observer les acteurs ou termes ayant un rôle décisif au cœur de structures évolutives. Le point majeur de notre contribution pour les graphes dynamiques représentant des données à la fois relationnelles et temporelles, est le morphing de graphe. L'objectif est de faire ressortir les tendances significatives en se basant sur la représentation, dans un premier temps, d'un graphe global toutes périodes confondues puis en réalisant une animation entre les visualisations successives des graphes attachés à chaque période. Ce procédé permet d'identifier des structures ou des événements, de les situer temporellement et d'en faire une lecture prédictive. Ainsi notre contribution permet la représentation des informations, et plus particulièrement l'identification, l'analyse et la restitution des structures stratégiques sous jacentes qui relient entre eux et à des moments donnés les acteurs d'un domaine, les mots-clés et concepts qu'ils utilisent
With word wide exchanges, companies must face increasingly strong competition and masses of information flows. They have to remain continuously informed about innovations, competition strategies and markets and at the same time they have to keep the control of their environment. The Internet development and globalization reinforced this requirement and on the other hand provided means to collect information. Once summarized and synthesized, information generally is under a relational form. To analyze such a data, graph visualization brings a relevant mean to users to interpret a form of knowledge which would have been difficult to understand otherwise. The research we have carried out results in designing graphical techniques that allow understanding human activities, their interactions but also their evolution, from the decisional point of view. We also designed a tool that combines ease of use and analysis precision. It is based on two types of complementary visualizations: statics and dynamics. The static aspect of our visualization model rests on a representation space in which the precepts of the graph theory are applied. Specific semiologies such as the choice of representation forms, granularity, and significant colors allow better and precise visualizations of the data set. The user being a core component of our model, our work rests on the specification of new types of functionalities, which support the detection and the analysis of graph structures. We propose algorithms which make it possible to target the role of the data within the structure, to analyze their environment, such as the filtering tool, the k-core, and the transitivity, to go back to the documents, and to give focus on the structural specificities. One of the main characteristics of strategic data is their strong evolution. However the statistical analysis does not make it possible to study this component, to anticipate the incurred risks, to identify the origin of a trend, and to observe the actors or terms having a decisive role in the evolution structures. With regard to dynamic graphs, our major contribution is to represent relational and temporal data at the same time; which is called graph morphing. The objective is to emphasize the significant tendencies considering the representation of a graph that includes all the periods and then by carrying out an animation between successive visualizations of the graphs attached to each period. This process makes it possible to identify structures or events, to locate them temporally, and to make a predictive reading of it. Thus our contribution allows the representation of advanced information and more precisely the identification, the analysis, and the restitution of the underlying strategic structures which connect the actors of a domain, the key words, and the concepts they use; this considering the evolution feature
18

Irichabeau, Gabrielle. "Évaluation économique de la dépendance d'une activité au milieu naturel. L'exemple de l'ostréiculture arcachonnaise." Phd thesis, Université Montesquieu - Bordeaux IV, 2011. http://tel.archives-ouvertes.fr/tel-00662006.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les activités économiques présentent des formes et des degrés de dépendance variables à l'environnement. L'environnement peut intervenir comme un facteur de production, comme une contrainte à l'usage de certains intrants, comme une contrainte pour certains facteurs de production. La dépendance peut être reliée à la disponibilité ou à la qualité de certaines ressources environnementales, à leur dimension de bien collectif. Il s'agira d'explorer les implications des différentes formes de dépendances bio-physico-chimiques mais aussi juridiques. Dans le cas de l'ostréiculture arcachonnaise, on examinera les formes de dépendance et leur mesure économique, à travers les impacts économiques liés à la disponibilité variable des ressources biologiques marines mais aussi à la productivité naturelle du milieu. L'analyse des caractéristiques socio-économiques des entreprises ostréicoles arcachonnaises permettra de dresser une typologie de ces dernières et ainsi caractériser l'activité. Une approche par la fonction de production sera utilisée pour mettre en évidence les degrés divers de sensibilité à une variation des conditions environnementales de production tandis que l'évaluation par la méthode des prix hédoniques permettra de déterminer le prix implicite des composantes environnementales des indemnités de substitution en tenant compte par ailleurs de la localisation géographique des concessions ostréicoles.
19

Béranger, Boris. "Modélisation de la structure de dépendance d'extrêmes multivariés et spatiaux." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066004/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La prédiction de futurs évènements extrêmes est d’un grand intérêt dans de nombreux domaines tels que l’environnement ou la gestion des risques. Alors que la théorie des valeurs extrêmes univariées est bien connue, la complexité s’accroît lorsque l’on s’intéresse au comportement joint d’extrêmes de plusieurs variables. Un intérêt particulier est porté aux évènements de nature spatiale, définissant le cadre d’un nombre infini de dimensions. Sous l’hypothèse que ces évènements soient marginalement extrêmes, nous focalisons sur la structure de dépendance qui les lie. Dans un premier temps, nous faisons une revue des modèles paramétriques de dépendance dans le cadre multivarié et présentons différentes méthodes d’estimation. Les processus maxstables permettent l’extension au contexte spatial. Nous dérivons la loi en dimension finie du célèbre modèle de Brown- Resnick, permettant de faire de l’inférence par des méthodes de vraisemblance ou de vraisemblance composée. Nous utilisons ensuite des lois asymétriques afin de définir la représentation spectrale d’un modèle plus large : le modèle Extremal Skew-t, généralisant la plupart des modèles présents dans la littérature. Ce modèle a l’agréable propriété d’être asymétrique et non-stationnaire, deux notions présentées par les évènements environnementaux spatiaux. Ce dernier permet un large spectre de structures de dépendance. Les indicateurs de dépendance sont obtenus en utilisant la loi en dimension finie.Enfin, nous présentons une méthode d’estimation non-paramétrique par noyau pour les queues de distributions et l’appliquons à la sélection de modèles. Nous illustrons notre méthode à partir de l’exemple de modèles climatiques
Projection of future extreme events is a major issue in a large number of areas including the environment and risk management. Although univariate extreme value theory is well understood, there is an increase in complexity when trying to understand the joint extreme behavior between two or more variables. Particular interest is given to events that are spatial by nature and which define the context of infinite dimensions. Under the assumption that events correspond marginally to univariate extremes, the main focus is then on the dependence structure that links them. First, we provide a review of parametric dependence models in the multivariate framework and illustrate different estimation strategies. The spatial extension of multivariate extremes is introduced through max-stable processes. We derive the finite-dimensional distribution of the widely used Brown-Resnick model which permits inference via full and composite likelihood methods. We then use Skew-symmetric distributions to develop a spectral representation of a wider max-stable model: the extremal Skew-t model from which most models available in the literature can be recovered. This model has the nice advantages of exhibiting skewness and nonstationarity, two properties often held by environmental spatial events. The latter enables a larger spectrum of dependence structures. Indicators of extremal dependence can be calculated using its finite-dimensional distribution. Finally, we introduce a kernel based non-parametric estimation procedure for univariate and multivariate tail density and apply it for model selection. Our method is illustrated by the example of selection of physical climate models
20

Irichabeau, Gabrielle. "Evaluation économique de la dépendance d’une activité au milieu naturel : l'exemple de l'ostréiculrure arcachonnaise." Thesis, Bordeaux 4, 2011. http://www.theses.fr/2011BOR40035/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les activités économiques présentent des formes et des degrés de dépendance variables à l’environnement. L’environnement peut intervenir comme un facteur de production, comme une contrainte à l’usage de certains intrants, comme une contrainte pour certains facteurs de production. La dépendance peut être reliée à la disponibilité ou à la qualité de certaines ressources environnementales, à leur dimension de bien collectif. Il s’agira d’explorer les implications des différentes formes de dépendances bio-physico-chimiques mais aussi juridiques. Dans le cas de l’ostréiculture arcachonnaise, on examinera les formes de dépendance et leur mesure économique, à travers les impacts économiques liés à la disponibilité variable des ressources biologiques marines mais aussi à la productivité naturelle du milieu. L’analyse des caractéristiques socio-économiques des entreprises ostréicoles arcachonnaises permettra de dresser une typologie de ces dernières et ainsi caractériser l’activité. Une approche par la fonction de production sera utilisée pour mettre en évidence les degrés divers de sensibilité à une variation des conditions environnementales de production tandis que l’évaluation par la méthode des prix hédoniques permettra de déterminer le prix implicite des composantes environnementales des indemnités de substitution en tenant compte par ailleurs de la localisation géographique des concessions ostréicoles
Economic activities have forms and degrees of dependency variables to the environment. The environment can act as a factor of production as a constraint to the use of certain inputs, such as a constraint for some inputs. Dependence may be related to the availability or quality of certain environmental resources. It will explore the implications of different forms of dependencies bio-physico-chemical as well as legal. In the case of the Arcachon Bay oyster-farming will examine the forms of dependence and economic measure, through the economic impacts associated with the variable availability of living marine resources but also to the natural productivity of the environment. The analysis of socio-economic characteristics of Arcachon Bay oyster-farms will develop a typology of the latter and thus characterize the activity. A production function approach will be used to highlight the varying degrees of sensitivity to changes in environmental conditions of production while the evaluation by the hedonic price method will determine the implicit price of environmental components of the oyster leases value taking into account also the geographical location of oyster leases
21

Marie, Nicolas. "Recherche exploratoire basée sur des données liées." Thesis, Nice, 2014. http://www.theses.fr/2014NICE4129/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s’intéresse à l’exploitation de la sémantique de données pour la recherche exploratoire. La recherche exploratoire se réfère à des tâches de recherche qui sont très ouvertes, avec de multiples facettes, et itératives. Les données sémantiques et les données liées en particulier, offrent de nouvelles possibilités pour répondre à des requêtes de recherche et des besoins d’information complexes. Dans ce contexte, le nuage de données ouvertes liées (LOD) joue un rôle important en permettant des traitements de données avancés et des interactions innovantes. Nous détaillons un état de l’art de la recherche exploratoire sur les données liées. Puis nous proposons un algorithme de recherche exploratoire à base de données liées basé sur une recherche associative. A partir d’un algorithme de propagation d’activation nous proposons une nouvelle formule de diffusion optimisée pour les graphes typés. Nous proposons ensuite des formalisations supplémentaires de plusieurs modes d’interrogation avancée. Nous présentons également une architecture logicielle innovante basée sur deux choix de conception paradigmatiques. D’abord, les résultats doivent être calculés à la demande. Deuxièmement, les données sont consommées à distance à partir de services SPARQL distribués. Cela nous permet d’atteindre un niveau élevé de flexibilité en termes d’interrogation et de sélection des données. L’application Discovery Hub implémente ces résultats et les présente dans une interface optimisée pour l’exploration. Nous évaluons notre approche grâce à plusieurs campagnes avec des utilisateurs et nous ouvrons le débat sur de nouvelles façons d’évaluer les moteurs de recherche exploratoires
The general topic of the thesis is web search. It focused on how to leverage the data semantics for exploratory search. Exploratory search refers to cognitive consuming search tasks that are open-ended, multi-faceted, and iterative like learning or topic investigation. Semantic data and linked data in particular offer new possibilities to solve complex search queries and information needs including exploratory search ones. In this context the linked open data cloud plays an important role by allowing advanced data processing and innovative interactions model elaboration. First, we detail a state-of-the-art review of linked data based exploratory search approaches and systems. Then we propose a linked data based exploratory search solution which is mainly based on an associative retrieval algorithm. We started from a spreading activation algorithm and proposed new diffusion formula optimized for typed graph. Starting from this formalization we proposed additional formalizations of several advanced querying modes in order to solve complex exploratory search needs. We also propose an innovative software architecture based on two paradigmatic design choices. First the results have to be computed at query-time. Second the data are consumed remotely from distant SPARQL endpoints. This allows us to reach a high level of flexibility in terms of querying and data selection. We specified, designed and evaluated the Discovery Hub web application that retrieves the results and present them in an interface optimized for exploration. We evaluate our approach thanks to several human evaluations and we open the discussion about new ways to evaluate exploratory search engines
22

El, Moussawi Adnan. "Clustering exploratoire pour la segmentation de données clients." Thesis, Tours, 2018. http://www.theses.fr/2018TOUR4010/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les travaux de cette thèse s’intéressent à l’exploration de la multiplicité des solutions de clustering. Le but est de proposer aux experts marketing un outil interactif d’exploration des données clients qui considère les préférences des experts sur l’espace des attributs. Nous donnons d’abord la définition d’un système de clustering exploratoire. Nous proposons ensuite une nouvelle méthode de clustering semi-supervisée qui considère des préférences quantitatives de l’utilisateur sur les attributs d’analyse et qui gère la sensibilité à ces préférences. Notre méthode tire profit de l’apprentissage de métrique pour trouver une solution de compromis entre la structure des données et les préférences de l’expert. Enfin, nous proposons un prototype de clustering exploratoire pour la segmentation des données de la relation client intégrant la nouvelle méthode de clustering proposée, mais aussi des fonctionnalités de visualisation et d’aide à l’interprétation de résultats permettant de réaliser un processus complet de clustering exploratoire
The research work presented in this thesis focuses on the exploration of the multiplicity of clustering solutions. The goal is to provide to marketing experts an interactive tool for exploring customer data that considers expert preferences on the space of attributes. We first give the definition of an exploratory clustering system. Then, we propose a new semi-supervised clustering method that considers user’s quantitative preferences on the analysis attributes and manages the sensitivity to these preferences. Our method takes advantage of metric learning to find a compromise solution that is both well adapted to the data structure and consistent with the expert’s preferences. Finally, we propose a prototype of exploratory clustering for customer relationship data segmentation that integrates the proposed method. The prototype also integrates visual and interaction components essential for the implementation of the exploratory clustering process
23

Pimentel, Cachapuz Rocha Eduardo. "Analyse exploratoire des génomes bactériens." Versailles-St Quentin en Yvelines, 2000. http://www.theses.fr/2000VERSA001.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse porte sur l'analyse exploratoire in silico des génomes bactériens et plus particulièrement sur plusieurs aspects de l'organisation et de l'évolution des chromosomes bactériens. Le mémoire est divisé en quatre parties. La première vise à réaliser un état de l'art des récents développements de la génomique et de l'apport de la bio informatique à la recherche en microbiologie. La deuxième partie concerne notre travail sur la structure des chromosomes bactériens. Nous avons établi plusieurs règles concernant l'organisation des chromosomes bactériens, et plus particulièrement la distribution et la disposition relative des gènes au long du chromosome. Nous y décrivons également les biais associés à la traduction chez bacillus subtilis, en relation avec l'usage du code, l'usage des oligonucleotides et des aminoacides et la stabilité de la structure du messager. Nous avons également étudié les biais associés à la réplication dans plusieurs génomes et nous sommes arrivés à la conclusion que ces biais sont qualitativement ubiquistes dans le monde bactérien. La troisième partie de cette thèse concerne l'étude de l'évolution des chromosomes bactériens. Nous commençons par décrire la distribution de longues répétitions dans les chromosomes bactériens et leur rôle possible dans la dynamique des génomes. A la suite de ce travail nous proposons un modèle de transfert horizontal de l'ADN (sans homologie) pour les bactéries compétentes. Enfin, nous décrivons une étude de la distribution des sites de restriction dans plusieurs génomes de phages et de bactéries. Cette étude nous a amené à soutenir l'hypothèse parasitaire pour les systèmes de restriction par opposition à l'hypothèse de défense communément admise. Enfin, le mémoire se termine par la description des méthodologies mathématiques et informatiques les plus importantes mises en oeuvre dans l'ensemble de ces travaux, notamment l'identification de mots biaisés, l'identification de répétitions longues et l'analyse discriminante linéaire.
24

Dumouchel, Bernard. "Analyse exploratoire des effets de l'internationalisation des universités." Paris 8, 2001. http://www.theses.fr/2001PA082006.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Question de recherche suivante : "Quels sont les effets de l'internationalisation des universités notamment sur les représentations et les pratiques professionnelles ?". Quatre réseaux notionnels permettent d'approfondir la notion d'internationalisation de l'université. Le premier met en rapport l'université avec l'universalité de la science, de la culture et des valeurs incluant les droits de l'homme. Le second, constitué des termes de la série local-régional-national-international, ramène à l'avant-scène les rapports découlant de l'inscription de l'université dans sa dynamique géopolitique. Le troisième réseau met en lumière les rapports entre l'université et la mondialisation-globalisation-planétarisation du marché. Finalement, de la médiatisation des technologies de l'information et des communications qui traversent l'université émergent de nouveaux espaces de médiation de formation et de recherche allant du "présidentiel" au virtuel. Le contexte demeure le Québec francophone et en particulier trois constituantes de l'Université du Québec (Montréal, Trois-Rivières et Hull), une université publique fondée en 1968. . .
25

Marine, Cadoret. "Analyse factorielle de données de catégorisation. : Application aux données sensorielles." Rennes, Agrocampus Ouest, 2010. http://www.theses.fr/2010NSARG006.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
En analyse sensorielle, les approches holistiques, dans lesquelles les objets sont considérés comme un tout, sont de plus en plus utilisées pour recueillir des données. Leur intérêt vient d'une part du fait qu'elles permettent d'acquérir d'autres types d'informations que celles obtenues par les méthodes de profil classiques et d'autre part du fait qu'elles ne demandent aucune compétence particulière, ce qui les rend réalisable par tous types de sujets. La catégorisation (ou tri libre) dans laquelle la tâche demandée aux sujets est de fournir une partition des objets, fait partie de ces approches. Cette thèse se concentre dans une première partie sur les données de catégorisation. Après avoir vu que cette méthode de recueil de données est pertinente, nous nous intéressons au traitement statistique de ces données à travers la recherche de représentations euclidiennes. La méthodologie proposée qui consiste à utiliser des méthodes factorielles telles que l'Analyse des Correspondances Multiple (ACM) ou l'Analyse Factorielle Multiple (AFM) est également enrichie d'éléments de validité. Cette méthodologie est ensuite illustrée par l'analyse de deux jeux de données obtenus à partir de bières d'une part et de parfums d'autre part. La deuxième partie est consacrée à l'étude de deux modes de recueil de données liés à la catégorisation : le Napping® catégorisé et le tri hiérarchique. Pour ces deux recueils, nous nous intéressons également au traitement des données en adoptant une démarche similaire à celle utilisée pour les données de catégorisation. Enfin, la dernière partie est consacrée à l'implémentation dans le logiciel R de différentes fonctions permettant de traiter les trois types de données que sont les données issues de catégorisation, Napping® catégorisé et tri hiérarchique
In sensory analysis, holistic approaches in which objects are considered as a whole are increasingly used to collect data. Their interest comes on a one hand from their ability to acquire other types of information as the one obtained by traditional profiling methods and on the other hand from the fact they require no special skills, which makes them feasible by all subjects. Categorization (or free sorting), in which subjects are asked to provide a partition of objects, belongs to these approaches. The first part of this work focuses on categorization data. After seeing that this method of data collection is relevant, we focus on the statistical analysis of these data through the research of Euclidean representations. The proposed methodology which consists in using factorial methods such as Multiple Correspondence Analysis (MCA) or Multiple Factor Analysis (MFA) is also enriched with elements of validity. This methodology is then illustrated by the analysis of two data sets obtained from beers on a one hand and perfumes on the other hand. The second part is devoted to the study of two data collection methods related to categorization: sorted Napping® and hierarchical sorting. For both data collections, we are also interested in statistical analysis by adopting an approach similar to the one used for categorization data. The last part is devoted to the implementation in the R software of functions to analyze the three kinds of data that are categorization data, hierarchical sorting data and sorted Napping® data
26

Derquenne, Christian. "Traitements statistiques de données catégorielles : recherche exploratoire de structures et modélisation de phénomènes." Paris 9, 2006. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2006PA090002.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse a pour objectif de présenter dix années (1995-2005) de travaux de recherche en méthodes statistiques traitant des données catégorielles, avec deux approches : la recherche de structures à l'aide de l'analyse exploratoire des données et la modélisation de phénomènes en statistique décisionnelle. La première approche introduit de nouveaux concepts en classification de variables de nature différente numérique et/ou catégorielles. Dans la seconde approche, de nombreux outils statistiques nouveaux sont mis en œuvre : un modèle logit hétéroscédastique, des statistiques de test sur l'apport marginal et la hiérarchisation des variables " explicatives ", la modélisation conjointe de plusieurs variables catégorielles à expliquer (régression Partial Maximum Likelihood) et des modèles à relations structurelles sur données de nature différente (approche Partial Maximum Likelihood). Ces méthodes sont enrichies au travers de nombreuses applications sur des cas réels
The goal of this thesis is to present research works on ten years (1995-2005) in statistical methods concerning categorical data, with two approaches: discover of structures by exploratory data analysis and phenomena modeling by inferential statistics. The first one introduces new concepts in clustering mixture variables (numeric and/or categorical). In the second approach, many new statistical tools are developed: an heteroskedastic logit model, statistical tests on marginal and hierarchy contribution of explanatory variables, multivariate modeling of several response categorical variables (Partial Maximum Likelihood Regression) and path modeling on mixture variables (Partial Maximum Likelihood Approach). These methods have been applied on many real cases
27

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web." Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.
28

Gomes, da Silva Alzennyr. "Analyse des données évolutives : Application aux données d'usage du Web." Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090047.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme, commerce électronique et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée
Nowadays, more and more organizations are becoming reliant on the Internet. The Web has become one of the most widespread platforms for information change and retrieval. The growing number of traces left behind user transactions (e. G. : customer purchases, user sessions, etc. ) automatically increases the importance of usage data analysis. Indeed, the way in which a web site is visited can change over time. These changes can be related to some temporal factors (day of the week, seasonality, periods of special offer, etc. ). By consequence, the usage models must be continuously updated in order to reflect the current behaviour of the visitors. Such a task remains difficult when the temporal dimension is ignored or simply introduced into the data description as a numeric attribute. It is precisely on this challenge that the present thesis is focused. In order to deal with the problem of acquisition of real usage data, we propose a methodology for the automatic generation of artificial usage data over which one can control the occurrence of changes and thus, analyse the efficiency of a change detection system. Guided by tracks born of some exploratory analyzes, we propose a tilted window approach for detecting and following-up changes on evolving usage data. In order measure the level of changes, this approach applies two external evaluation indices based on the clustering extension. The proposed approach also characterizes the changes undergone by the usage groups (e. G. Appearance, disappearance, fusion and split) at each timestamp. Moreover, the refereed approach is totally independent of the clustering method used and is able to manage different kinds of data other than usage data. The effectiveness of this approach is evaluated on artificial data sets of different degrees of complexity and also on real data sets from different domains (academic, tourism, e-business and marketing)
29

Périnel, Emmanuel. "Segmentation en analyse de données symboliques : le cas de données probabilistes." Paris 9, 1996. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1996PA090079.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les méthodes de segmentation, ou d'arbre de décision, sont des techniques permettant d'expliquer une partition à priori d'une population d'objets décrite par des variables explicatives. Elles ont connu ces dernières années un net regain d'intérêt, aussi bien dans le domaine de la statistique que dans celui de l'apprentissage automatique en intelligence artificielle. Toutefois, ces méthodes sont souvent reconnues sensibles à une information dite imparfaite telle que, des erreurs de mesures, des imprécisions ou incertitudes, des jugements experts, ce phénomène résulte principalement du manque de flexibilité des langages de représentations employés pour décrire les objets étudiés, d'une part, et de la rigidité même du processus d'apprentissage (partitionnement récursif), d'autre part. Dans ce travail, nous proposons une méthodologie générale de construction d'arbre de décision appliquée à des données de nature probabiliste. Celles-ci sont représentées par des assertions probabilistes dans le contexte de l'analyse des données symboliques. Son langage de description, en offrant une représentation plus riche et complexe des objets étudiés, nous permet d'introduire plus de flexibilité dans le processus de segmentation. Le développement de l'arbre repose sur un critère de découpage basé sur la notion générale d'information ou de vraisemblance. La nature imprécise ou incertaine des données conduit, de façon naturelle, à la notion d'appartenance probabiliste des objets aux différents nœuds de l'arbre. La construction de l'arbre se présente alors sous la forme d'une succession de problèmes de mélange de lois de probabilité que l'on résout à l'aide d'un algorithme de type EM (espérance / maximisation). Nous faisons également le lien, dans un cadre probabiliste, entre la notion d'appartenance probabiliste précédente et celle consécutive à l'emploi d'une coupure souple ou floue. L'approche est illustrée sur un jeu de données médicales relatives à l'utilisation de marqueurs biologiques sur des types cellulaires, et dans l'objectif de caractériser le concept de système neuroendocrinien.
30

Sibony, Eric. "Analyse mustirésolution de données de classements." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications
31

Trudeau-Malo, Jennifer. "Analyse exploratoire de quatre Centres de la petite enfance au Nunavik." Master's thesis, Université Laval, 2016. http://hdl.handle.net/20.500.11794/27177.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette étude exploratoire décrit le processus d'instauration de plusieurs Centres de la petite enfance (CPE) en lien avec le contexte socioéconomique de quatre villages au Nunavik en 2011. L'objet de ce mémoire est d'analyser les conditions communautaires, telles que l'emploi, la santé, les services de garde à l'enfance et l'éducation, qui ont engendré la demande des services de CPE, ainsi que d'examiner l'influence qu'ont ces services sur la vie communautaire. Le développement de ces services dérive d'une collaboration entre l'Administration régionale Kativik (ARK) et les membres des communautés nordiques. Ainsi, nous examinons la part de l'ARK dans son soutien des services de garde à l'enfance dans le Nord. À ce jour, il existe peu de recherches scientifiques effectuées sur ces services au Nunavik et nous avons travaillé en partenariat avec l'ARK afin de réaliser ce projet.
This exploratory research, conducted in 2011, describes the implementation of several childcare centres within a socioeconomic context in four communities in Nunavik. The main objectives of this project are to analyze community conditions such as employement possibilities, health issues, childcare services and education, that engendered a demand for childcare centres, as well as to examine the impact of such services on community life. The development of childcare centres derives from a collaboration between the Kativik Regional Government (KRG) and Northern community members. Hence, we also explore the role KRG played in the developement and maintance of such services in the North. To this day, there exists few scientific studies dealing with childcare centres in Nunavik and so, we worked in collaboration with KRG to conduct this project.
32

Aaron, Catherine. "Connexité et analyse des données non linéaires." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2005. http://tel.archives-ouvertes.fr/tel-00308495.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
On s'intéresse dans cette thèse, à la mise en évidence des propriétés de connexité dans les données à analyser. Dans le cas de l'analyse des données ”classique” (i.e. linéaire), comme les surfaces de séparation des classes sont des hyperplans (des droites en dimension 2), la notion topologique sous-jacente est presque toujours la convexité. Au contraire dans tout ce qui suit, on cherche en priorité à segmenter les données en sous-ensembles (classes) connexes.
33

Darlay, Julien. "Analyse combinatoire de données : structures et optimisation." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00683651.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse porte sur des problèmes d'exploration de données avec le point de vue de la recherche opérationnelle. L'exploration de données consiste en l'apprentissage de nouvelles connaissances à partir d'observations contenues dans une base de données. La nature des problèmes rencontrés dans ce domaine est proche de celle des problèmes de la recherche opérationnelle: grandes instances, objectifs complexes et difficulté algorithmique. L'exploration de données peut aussi se modéliser comme un problème d'optimisation avec un objectif partiellement connu. Cette thèse se divise en deux parties. La première est une introduction à l'exploration de données. Elle présente l'Analyse Combinatoire de Données (ACD), une méthode d'exploration de données issue de l'optimisation discrète. Cette méthode est appliquée à des données médicales originales et une extension aux problèmes d'analyse de temps de survie est proposée. L'analyse de temps de survie consiste à modéliser le temps avant un événement (typiquement un décès ou une rechute). Les heuristiques proposées utilisent des techniques classiques de recherche opérationnelle telles que la programmation linéaire en nombres entiers, la décomposition de problème, des algorithmes gloutons. La seconde partie est plus théorique et s'intéresse à deux problèmes combinatoires rencontrés dans le domaine de l'exploration de données. Le premier est un problème de partitionnement de graphes en sous-graphes denses pour l'apprentissage non supervisé. Nous montrons la complexité algorithmique de ce problème et nous proposons un algorithme polynomial basé sur la programmation dynamique lorsque le graphe est un arbre. Cet algorithme repose sur des résultats de la théorie des couplages. Le second problème est une généralisation des problèmes de couverture par les tests pour la sélection d'attributs. Les lignes d'une matrice sont coloriées en deux couleurs. L'objectif est de trouver un sous-ensemble minimum de colonnes tel que toute paire de lignes avec des couleurs différentes restent distinctes lorsque la matrice est restreinte au sous-ensemble de colonnes. Nous montrons des résultats de complexité ainsi que des bornes serrées sur la taille des solutions optimales pour différentes structures de matrices.
34

Operto, Grégory. "Analyse structurelle surfacique de données fonctionnelles cétrébrales." Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30060.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les images fonctionnelles par résonance magnétique contiennent une mesure de l'activité cérébrale en chaque point du cerveau. Si de nombreuses méthodes existent, l'analyse automatique de ces données reste un problème ouvert. Notamment, la très grande majorité des méthodes considère ces données de façon volumique, dans le domaine 3D d'acquisition. Pourtant, l'essentiel de l'activité a lieu dans le cortex, qui peut être considéré comme une surface. Considérer les données sur la surface corticale présente beaucoup d'avantages : d'une part sa géométrie peut être prise en compte dans toutes les étapes de traitement, d'autre part la prise en compte de l'ensemble du volume réduit le pouvoir de détection des tests statistiques généralement employés. Cette thèse propose ainsi une extension du champ d'application des méthodes volumiques vers le domaine surfacique en abordant la projection des données sur la surface, l'analyse multi-sujets ainsi que l'estimation de la validité des résultats
Functional data acquired by magnetic resonance contain a measure of the activity in every location of the brain. If many methods exist, the automatic analysis of these data remains an open problem. In particular, the huge majority of these methods consider these data in a volume-based fashion, in the 3D acquisition space. However, most of the activity is generated within the cortex, which can be considered as a surface. Considering the data on the cortical surface has many advantages : on one hand, its geometry can be taken into account in every processing step, on the other hand considering the whole volume reduces the detection power of usually employed statistical tests. This thesis hence proposes an extension of the application field of volume-based methods to the surface-based domain by adressing problems such as projecting data onto the surface, performing surface-based multi-subjects analysis, and estimating results validity
35

Le, Béchec Antony. "Gestion, analyse et intégration des données transcriptomiques." Rennes 1, 2007. http://www.theses.fr/2007REN1S051.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Dans le cadre de l'étude des mécanismes moléculaires impliqués dans les processus biologiques liés aux pathologies, la transcriptomique permet d’étudier l’expression de plusieurs milliers de gènes en une seule expérience. Les standards internationaux permettent actuellement de gérer la grande quantité de données générées par cette technologie et de nombreux algorithmes permettent le traitement et l’analyse des données d’expression. Le grand défi d’aujourd’hui réside dans l’interprétation des données, notamment par l’intégration de connaissances biologiques supplémentaires permettant la création d’un contexte d’étude aidant à la compréhension des mécanismes biologiques. Afin de répondre aux besoins liés à l’exploitation de ces données transcriptomiques, un environnement complet et évolutif a été développé, M@IA (Micro@rray Integrated Application), permettant de gérer les expériences de puces à ADN mais également traiter et analyser les données d’expression. Une méthode de biologie intégrative combinant de multiples sources de données a été conçue pour exploiter des listes de gènes différentiellement exprimés par l’interprétation de réseaux de gènes représentés sous forme de graphes d’interaction. Egalement, une méthode de méta-analyse de données d’expression de gènes issues de la bibliographie a permis de sélectionner et combiner des études similaires associées à la progression tumorale du foie. En conclusion, ces travaux s’intègrent totalement à l’actuel développement de la biologie intégrative, indispensable à la résolution des mécanismes physiopathologiques
Aiming at a better understanding of diseases, transcriptomic approaches allow the analysis of several thousands of genes in a single experiment. To date, international standard initiatives have allowed the utilization of large quantity of data generated using transcriptomic approaches by the whole scientific community, and a large number of algorithms are available to process and analyze the data sets. However, the major challenge remaining to tackle is now to provide biological interpretations to these large sets of data. In particular, their integration with additional biological knowledge would certainly lead to an improved understanding of complex biological mechanisms. In my thesis work, I have developed a novel and evolutive environment for the management and analysis of transcriptomic data. Micro@rray Integrated Application (M@IA) allows for management, processing and analysis of large scale expression data sets. In addition, I elaborated a computational method to combine multiple data sources and represent differentially expressed gene networks as interaction graphs. Finally, I used a meta-analysis of gene expression data extracted from the literature to select and combine similar studies associated with the progression of liver cancer. In conclusion, this work provides a novel tool and original analytical methodologies thus contributing to the emerging field of integrative biology and indispensable for a better understanding of complex pathophysiological processes
36

Abdali, Abdelkebir. "Systèmes experts et analyse de données industrielles." Lyon, INSA, 1992. http://www.theses.fr/1992ISAL0032.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'analyse du fonctionnement des Systèmes de Production Industrielle s'appuie sur des informations de natures diverses. Une bonne partie d'entre elles se présentant sous forme numérisée, on leur applique des méthodes d'analyse des données dont les résultats doivent être confrontés, puis interprétés à l'aide des autres connaissances. Notre travail s'insère dans le cadre de l'application des techniques de l'Intelligence Artificielle à la Statistique. Il vise en particulier à étudier la faisabilité et le développement d'un Système Expert Statistique dans le domaine des Systèmes de Production Industrielle. Nous avons élaboré ALADIN (Aide Logicielle pour l'Analyse de Données Industrielles), un système destiné à aider un utilisateur non-spécialiste à analyser des données recueillies sur des procédés industriels. L'architecture de ce système est flexible et allie aspect qualitatif (connaissances sur les procédés industriels et connaissances sur les méthodes statistiques et d'analyse de données) et aspect quantitatif (collection de programmes d'analyse). Pour l'instant, nous nous sommes limités aux problèmes d'Analyse en Composantes Principales. Outre l'aspect industriel, ALADIN présente l'avantage de fournir une assistance au niveau de chacun des nombreux maillons de la conduite d'une analyse de données et particulièrement en amont de l'analyse proprement dite i. E. Lors de la phase de prétraitement et de préparation des données: cette étape, toujours nécessaire compte tenu de la nature des mesures, est en effet généralement longue et fastidieuse
To analyses industrial process behavio, many kinds of information are needed. As tye ar mostly numerical, statistical and data analysis methods are well-suited to this activity. Their results must be interpreted with other knowledge about analysis prcess. Our work falls within the framework of the application of the techniques of the Artificial Intelligence to the Statistics. Its aim is to study the feasibility and the development of statistical expert systems in an industrial process field. The prototype ALADIN is a knowledge-base system designed to be an intelligent assistant to help a non-specialist user analyze data collected on industrial processes, written in Turbo-Prolong, it is coupled with the statistical package MODULAD. The architecture of this system is flexible and combing knowledge with general plants, the studied process and statistical methods. Its validation is performed on continuous manufacturing processes (cement and cast iron processes). At present time, we have limited to principal Components analysis problems
37

David, Claire. "Analyse de XML avec données non-bornées." Paris 7, 2009. http://www.theses.fr/2009PA077107.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse est motivée par la spécification et l'analyse de schémas XML, en se focalisant sur données présentes dans les documents. On s'intéresse à des structure de mots et d'arbres dont chaque position ou noeud est étiqueté à la fois par une lettre provenant d'un alphabet fini et par une donnée provenant d'un domaine potentiellement infini muni d'une relation d'égalité. Le travail de cette thèse a été de proposer et étudier des formalismes permettant de spécifier des langages de mots/d'arbres de données et dont le problème de satisfaisabilité soit décidable. Toute la difficulté est de trouver un compromis entre expressivité, décidabilité (et complexité). Une première approche consiste à étendre la logique du premier ordre à l'aide d'un prédicat binaire testant l'égalité de données. On étudie la frontière de décidabilité ainsi que la complexité du problème de satisfaisabilité pour différents fragments/extensions de cette logique et on fait le lien avec la spécification de schémas. Cette approche est élégante et générique, malheureusement les complexités obtenues extrêmement élevées. Afin d'obtenir des résultats de complexité plus raisonnables, on étudie un formalisme basé sur des combinaisons booléennes d'objets appelés "patterns". On s'intéresse encore une fois à la frontière de décidabilité et la complexité du problème de satisfaisabilité, au problème de model-checking. Les complexités obtenues sont plus encourageantes. En terme d'expressivité, ce formalisme est incomparable au précédent, on explicite les liens par rapport aux schémas XML
The motivation of the work is the specification and static analysis of schema for XML documents paying special attention to data values. We consider words and trees whose positions are labeled both by a letter from a finite alphabet and a data value from an infinite domain. Our goal is to find formalisms which offer good trade-offs between expressibility, decidability and complexity (for the satisfiability problem). We first study an extension of first-order logic with a binary predicate representing data equality. We obtain interesting some interesting results when we consider the two variable fragment. This appraoch is elegant but the complexity results are not encouraging. We proposed another formalism based data patterns which can be desired, forbidden or any boolean combination thereof. We drw precisely the decidability frontier for various fragments on this model. The complexity results that we get, while still high, seems more amenable. In terms of expressivity theses two approaches are orthogonal, the two variable fragment of the extension of FO can expressed unary key and unary foreign key while the boolean combination of data pattern can express arbitrary key but can not express foreign key
38

Bobin, Jérôme. "Diversité morphologique et analyse de données multivaluées." Paris 11, 2008. http://www.theses.fr/2008PA112121.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
39

Carvalho, Francisco de. "Méthodes descriptives en analyse de données symboliques." Paris 9, 1992. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1992PA090025.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
L'analyse des données symboliques se propose d'étendre la problématique, les méthodes et les algorithmes de l'analyse des données au traitement de connaissances souvent complexes, représentées par les objets symboliques. Dans ce cadre, nous étendons des outils de description couramment utilisés en analyse des données, tels que des histogrammes et des indices de proximité, à la description d'une base de connaissances d'objets symboliques. A partir de l'étude du potentiel de description d'un objet symbolique, nous avons étendu la notion d'histogramme aux variables choisies pour décrire une base de connaissances d'objets symboliques. Nous avons constaté l'importance de certains types de dépendance logique entre les variables sur les résultats obtenus. Nous avons également étudié l'interprétation de ces histogrammes. Pour mesurer la proximité entre les objets symboliques nous avons pu, sous l'angle du potentiel de description, adapter à ces objets les indices de proximité conçus pour les variables binaires, ainsi que l'indice de Minkowski. Cette approche nous a permis d'utiliser la même mesure de proximité indépendamment du type de variable. Nous avons étudié quelques propriétés des indices proposés et nous avons pu établir l'équivalence entre quelques-uns de ces indices. Ces indices tiennent compte des dépendances logiques entre variables. Enfin, nous avons adapté l'algorithme général de classification ascendante hiérarchique pour obtenir une classification d'objets symboliques. Par rapport aux méthodes usuelles de l'analyse des données, nous obtenons une description immédiate de chaque palier par un objet symbolique, nous avons un indice d'agrégation qui est le même aussi bien pour les singletons que pour les paliers, et nous employons un indicage basé sur le potentiel de description de l'objet symbolique décrivant le palier. Nous fournissons aussi une aide à l'interprétation de l'arbre de classification basée sur la re-description des fils de chaque nœud de l'arbre par les variables qui les discriminent
40

Royer, Jean-Jacques. "Analyse multivariable et filtrage des données régionalisées." Vandoeuvre-les-Nancy, INPL, 1988. http://www.theses.fr/1988NAN10312.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Ce travail est consacré à l'analyse multivariable et au filtrage des données régionalisées. On définit un indice de proximité entre échantillons. Une technique de filtrage basée sur l'analyse structurale, la déconvolution géostatistique, a été utilisée pour estimer la fonction de transfert ou identifier le signal de sortie. Le principe de la méthode repose sur le calcul au préalable des fonctions de covariance des signaux d'entrée et de sortie. Par ailleurs une relation théorique reliant la matrice de covariance des erreurs à la granulométrie du milieu étudié est démontrée
41

Faye, Papa Abdoulaye. "Planification et analyse de données spatio-temporelles." Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22638/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La Modélisation spatio-temporelle permet la prédiction d’une variable régionalisée à des sites non observés du domaine d’étude, basée sur l’observation de cette variable en quelques sites du domaine à différents temps t donnés. Dans cette thèse, l’approche que nous avons proposé consiste à coupler des modèles numériques et statistiques. En effet en privilégiant l’approche bayésienne nous avons combiné les différentes sources d’information : l’information spatiale apportée par les observations, l’information temporelle apportée par la boîte noire ainsi que l’information a priori connue du phénomène. Ce qui permet une meilleure prédiction et une bonne quantification de l’incertitude sur la prédiction. Nous avons aussi proposé un nouveau critère d’optimalité de plans d’expérience incorporant d’une part le contrôle de l’incertitude en chaque point du domaine et d’autre part la valeur espérée du phénomène
Spatio-temporal modeling allows to make the prediction of a regionalized variable at unobserved points of a given field, based on the observations of this variable at some points of field at different times. In this thesis, we proposed a approach which combine numerical and statistical models. Indeed by using the Bayesian methods we combined the different sources of information : spatial information provided by the observations, temporal information provided by the black-box and the prior information on the phenomenon of interest. This approach allowed us to have a good prediction of the variable of interest and a good quantification of incertitude on this prediction. We also proposed a new method to construct experimental design by establishing a optimality criterion based on the uncertainty and the expected value of the phenomenon
42

Jamal, Sara. "Analyse spectrale des données du sondage Euclid." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0263.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les futurs sondages à grande échelle, comme la mission Euclid, produiront un large set de données qui nécessitera la mise en place de chaînes de traitement complètement automatisées pour analyser les données, extraire l'information et s'assurer que l'ensemble des exigences est respecté. À partir des données collectées, le redshift est une quantité essentielle à mesurer. Des méthodes distinctes pour l'estimation de redshift existent dans la littérature, mais il n'y a pas à l'heure actuelle une définition d'un critère de qualité automatisé pour juger de la fiabilité d'une mesure de redshift spectroscopique. Dans ce travail, nous avons présenté les techniques usuelles de l'analyse spectrale, comme le filtrage et l'extraction du continu, qui peuvent être réalisées en amont de l'estimation du redshift. Puis, nous nous sommes en grande partie intéressés à la problématique de prise de décision quant à l'évaluation de la fiabilité d'une mesure de redshift en développant une nouvelle méthodologie qui exploite les algorithmes de Machine Learning (ML) et les caractéristiques de la fonction de densité en probabilité du redshift (zPDF) définie dans un cadre bayésien.Notre idée consiste à quantifier, via le ML et des descripteurs des zPDFs, la fiabilité d'une mesure de redshift au sein de partitions distinctes qui décrivent différents niveaux de confiance. Par ex. une estimation de redshift obtenue à partir d'une zPDF multimodale ne dépeint pas le même niveau de confiance que celle obtenue à partir d'une zPDF unimodale. Nous estimons que cette nouvelle méthodologie pourra être exploitée dans le cadre de futurs sondages spectroscopiques à grande échelle comme Euclid
Large-scale surveys, as Euclid, will produce a large set of data that will require the development of fully automated data-processing pipelines to analyze the data, extract crucial information and ensure that all requirements are met. From a survey, the redshift is an essential quantity to measure. Distinct methods to estimate redshifts exist in the literature but there is no fully-automated definition of a reliability criterion for redshift measurements. In this work, we first explored common techniques of spectral analysis, as filtering and continuum extraction, that could be used as preprocessing to improve the accuracy of spectral features measurements, then focused on developing a new methodology to automate the reliability assessment of spectroscopic redshift measurements by exploiting Machine Learning (ML) algorithms and features of the posterior redshift probability distribution function (PDF). Our idea consists in quantifying, through ML and zPDFs descriptors, the reliability of a redshift measurement into distinct partitions that describe different levels of confidence. For example, a multimodal zPDF refers to multiple (plausible) redshift solutions possibly with similar probabilities, while a strong unimodal zPDF with a low dispersion and a unique and prominent peak depicts of a more "reliable" redshift estimate. We assess that this new methodology could be very promising for next-generation large spectroscopic surveys on the ground and space such as Euclid and WFIRST
43

Lambert, Thierry. "Réalisation d'un logiciel d'analyse de données." Paris 11, 1986. http://www.theses.fr/1986PA112274.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
44

Richer, Gaëlle. "Passage à l'échelle pour la visualisation interactive exploratoire de données : approches par abstraction et par déformation spatiale." Thesis, Bordeaux, 2019. http://www.theses.fr/2019BORD0264/document.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La visualisation interactive est un outil essentiel pour l'exploration, la compréhension et l'analyse de données. L'exploration interactive efficace de jeux de données grands ou complexes présente cependant deux difficultés fondamentales. La première est visuelle et concerne les limitations de la perception et cognition humaine, ainsi que celles des écrans. La seconde est computationnelle et concerne les limitations de capacité mémoire ou de traitement des machines standards. Dans cette thèse, nous nous intéressons aux techniques de passage à l'échelle relativement à ces deux difficultés, pour plusieurs contextes d'application.Pour le passage à l'échelle visuelle, nous présentons une approche versatile de mise en évidence de sous-ensembles d'éléments par déformation spatiale appliquée aux vues multiples et une représentation abstraite et multi-/échelle de coordonnées parallèles. Sur les vues multiples, la déformation spatiale vise à remédier à la diminution de l'efficacité de la surbrillance lorsque les éléments graphiques sont de taille réduite. Sur les coordonnées parallèles, l'abstraction multi-échelle consiste à simplifier la représentation tout en permettant d'accéder interactivement au détail des données, en les pré-agrégeant à plusieurs niveaux de détail.Pour le passage à l'échelle computationnelle, nous étudions des approches de pré-calcul et de calcul à la volée sur des infrastructures distribuées permettant l'exploration de jeux de données de plus d'un milliard d'éléments en temps interactif. Nous présentons un système pour l'exploration de données multi-dimensionnelles dont les interactions et l'abstraction respectent un budget en nombre d'éléments graphiques qui, en retour, fournit une borne théorique sur les latences d'interactions dues au transfert réseau entre client et serveur. Avec le même objectif, nous comparons des stratégies de réduction de données géométrique pour la reconstruction de cartes de densité d'ensembles de points
Interactive visualization is helpful for exploring, understanding, and analyzing data. However, increasingly large and complex data challenges the efficiency of visualization systems, both visually and computationally. The visual challenge stems from human perceptual and cognitive limitations as well as screen space limitations while the computational challenge stems from the processing and memory limitations of standard computers.In this thesis, we present techniques addressing the two scalability issues for several interactive visualization applications.To address visual scalability requirements, we present a versatile spatial-distortion approach for linked emphasis on multiple views and an abstract and multi-scale representation based on parallel coordinates. Spatial distortion aims at alleviating the weakened emphasis effect of highlighting when applied to small-sized visual elements. Multiscale abstraction simplifies the representation while providing detail on demand by pre-aggregating data at several levels of detail.To address computational scalability requirements and scale data processing to billions of items in interactive times, we use pre-computation and real-time computation on a remote distributed infrastructure. We present a system for multi-/dimensional data exploration in which the interactions and abstract representation comply with a visual item budget and in return provides a guarantee on network-related interaction latencies. With the same goal, we compared several geometric reduction strategies for the reconstruction of density maps of large-scale point sets
45

Fraisse, Bernard. "Automatisation, traitement du signal et recueil de données en diffraction x et analyse thermique : Exploitation, analyse et représentation des données." Montpellier 2, 1995. http://www.theses.fr/1995MON20152.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La recherche en chimie du solide necessite l'utilisation et la maitrise de techniques indispensables telles que la diffraction des rayons x et l'analyse thermique. Tout en ameliorant leurs performances, l'automatisation des appareils classiques permet a un grand nombre de laboratoires d'acceder a ces techniques pour un cout modeste. Cette derniere n'a pu etre envisagee qu'apres le developpement d'outils informatiques, en particulier les bibliotheques de communication entre le micro-ordinateur et les differents peripheriques. Les logiciels d'acquisition, d'exploitation, de representation tridimensionnelle et de comparaison des diffractogrammes de rayons x avec ceux contenus dans un fichier de references, ont ete concus et ecrits au laboratoire. De plus, la realisation de chambres de mesures autorise l'enregistrement des diffractogrammes en fonction de la temperature. L'experience acquise a pu etre appliquee a l'analyse thermique: les logiciels ecrits permettent respectivement l'acquisition et l'exploitation des diagrammes d'analyse thermique, directe et differentielle
46

Kezouit, Omar Abdelaziz. "Bases de données relationnelles et analyse de données : conception et réalisation d'un système intégré." Paris 11, 1987. http://www.theses.fr/1987PA112130.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les utilisateurs de bases de données relationnelles ont de plus en plus souvent tendance à attendre des Systèmes de Gestion de Bases de Données (SGBD) des fonctionnalités qui aillent plus loin que l'organisation le stockage et la restitution d'un ensemble de données. D'un autre côté, les utilisateurs de l'analyse statistique multidimensionnelle, qui traitent des tableaux de données rectangulaires, ont de gros problèmes de gestion de leurs données et les outils dont ils disposaient jusqu'à présent manquaient souvent de souplesse, voire de possibilités. Pour répondre à cette préoccupation, cette thèse propose de rapprocher bases de données relationnelles et analyse statistique multidimensionnelle à travers la réalisation d'un système intégrant un SGBD relationnel et un système d'analyse de données, et de montrer par là même tout le bénéfice qui peut en être tiré du point de vue de l'interrogation des données. La première partie se propose de présenter les problèmes généraux naissant de l'intégration. Après une présentation des deux domaines et de certains travaux en bases de données statistiques, nous proposons une synthèse des notions de l'analyse statistique multidimensionnelle et des bases de données relationnelles. Ceci permettra de déboucher sur les spécifications d'un outil intégré de gestion et d'analyse des données et également de mettre en évidence un problème de cohérence particulier. Outre l'apport provenant de chaque part (gestion des données plus performante grâce au SGBD, interrogation statistique grâce au système d'analyse des données), des possibilités nouvelles naissent de l'intégration. Il s'agit principalement de la capacité d'effectuer des requêtes approximatives, que nous défroissons à cette occasion, sur une base de données et de la résolution dans certains cas du problème des données manquantes. La seconde partie est consacrée à la présentation d'une réalisation particulière. Nous avons pour cela intégré le SGBD relationnel PEPIN et le Système de classification automatique SICLA. Le prototype opérationnel permet ainsi de gérer une base de données relationnelle et de l'interroger statistiquement. Un exemple d'utilisation pour le traitement d'une enquête est donné.
47

Gonzalez, Ignacio. "Analyse canonique régularisée pour des données fortement multidimensionnelles." Toulouse 3, 2007. http://thesesups.ups-tlse.fr/99/.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Motivé par la mise en évidence des relations entre l'expression de gènes et d'autres variables biologiques, notre travail consiste à présenter et développer une méthodologie répondant à ce problème. Parmi les méthodes statistiques abordant ce sujet, l'Analyse Canonique (AC) semblait bien appropriée, mais la haute dimensionalité est actuellement l'un des obstacles majeurs pour les techniques statistiques d'analyse de données issues de biopuces. Naturellement l'axe de ce travail a été la recherche de solutions tenant compte de cet aspect crucial dans la mise en oeuvre de l'AC. Parmi les approches envisagées pour contourner ce problème, nous nous sommes intéressés à des méthodes de régularisation. Ainsi, la méthode développée ici, appelée Analyse Canonique Régularisée (ACR), est basée sur le principe de régularisation ridge introduit initialement en régression linéaire multiple. L'ACR nécessitant le choix de deux paramètres de réglage pour sa mise en oeuvre, nous avons proposé la méthode de validation croisée par sous-groupes pour traiter ce problème. Nous avons présenté en détail des applications de l'ACR à des données fortement multidimensionnelles provenant d'études génomiques ainsi qu'à des données provenant d'autres domaines. Sur ce point on s'est intéressé à une visualisation des données aidant à l'interprétation des résultats obtenus. À cet effet, nous avons proposé un certaine nombre de méthodes graphiques : représentations des variables (graphiques des corrélations), représentations des individus ainsi que des représentations alternatives comme les graphiques de réseaux et les cartes de double classification (heatmaps). Pour la mise en oeuvre de l'AC, nous avons développé le package CCA (disponible en ligne sur le site cran. R-project. Org). Ce package permet le traitement de données avec plus de variables que d'unités expérimentales par l'ACR, la manipulation des valeurs manquantes et la réalisation des graphiques aidant à l'interprétation des résultats. .
Motivated by the study of relationships between gene expressions and other biological variables, our work consists in presenting and developing a methodology answering this problem. Among the statistical methods treating this subject, Canonical Analysis (CA) seemed well adapted, but the high dimension is at present one of the major obstacles for the statistical techniques of analysis data coming from microarrays. Typically the axis of this work was the research of solutions taking into account this crucial aspect in the implementation of the CA. Among the approaches considered to handle this problem, we were interested in the methods of regularization. The method developed here, called Regularised Canonical Analysis (RCA), is based on the principle of ridge regularization initially introduced in multiple linear regression. RCA needing the choice of two parameters of regulation for its implementation, we proposed the method of M-fold cross-validation to handle this problem. We presented in detail RCA applications to high multidimensional data coming from genomic studies as well as to data coming from other domains. Among other we were interested in a visualization of the data in order to facilitate the interpretation of the results. For that purpose, we proposed some graphical methods: representations of variables (correlations graphs), representations of individuals as well as alternative representations as networks and heatmaps. .
48

Bazin, Gurvan. "Analyse différée des données du SuperNova Legacy Survey." Paris 7, 2008. http://www.theses.fr/2008PA077135.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Le SuperNova Legacy Survey (SNLS) a observé les supernovae de type ia (SNeHa) pendant 5 ans afin de contraindre les paramètres cosmologiques. Sa procédure de sélection en temps réel repose sur l'identification spectroscopique de chaque supernova. Ce recourt systématique à la spectroscopie nécessite un niveau suffisament élevé de signal sur bruit. Il peut donc engendrer des biais de sélection et ne sera plus possible sur les futurs relevés qui observeront des millions de SNeHa. Cette thèse présente une méthode de réduction des données complémentaire reposant sur une sélection purement photométrique. Cette analyse, plus efficace sur la sélection des événements les plus faibles, double approximativement ainsi l'échantillon de SNeHa du SNLS. Cette méthode met en évidence un net biais de sélection spectroscopique. Les SNeHa les plus brillantes sont systématiquement sélectionnées au delà d'un redshift de 0. 7. En revanche, aucun impact important sur la cosmologie n'a été trouvé. Cela prouve que les corrections tenant compte de la variabilité en luminosité des SNeHa sont robustes. De plus, ces travaux constituent une première étude de faisabilité d'une analyse cosmologique complètement photométrique. La méthode utilisée est prometteuse pour les futurs grands projets
The SuperNova Legacy Survey (SNLS) experiment observed type la supemovae (SNeHa) during 5 years. Its aim is the contraint cosmological parameters. The online reduction pipeline is based on spectroscopic identification for each supernova. Systematically using spectroscopy requires a sufficient signal to noise level. Thus, it could lead to selection biases and would not be possible for future surveys The PhD thesis report a complementary method for data reduction based on a completely photometric selection. This analysis, more efficient to select faint events, approximately double the SNeHa sample of the SNLS. This method show a clear bias in the spectroscopic selection. Brighter SNeHa are systematically selected beyond a redshift of 0. 7. On the other hand, no important impact on cosmology was found. So, corrections on intrinsic variability of SNeHa luminosity are robust. In addition, this work is a first step to study the feasibility of such a purely photometric analysis for cosmology. This is a promising method for future projects
49

Hapdey, Sébastien. "Analyse de données multi-isotopiques en imagerie monophotonique." Paris 11, 2002. http://www.theses.fr/2002PA11TO35.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
50

Feydy, Jean. "Analyse de données géométriques, au delà des convolutions." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASN017.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Analyse de données géométriques, au delà des convolutionsPour modéliser des interactions entre points, une méthode simple est de se reposer sur des sommes pondérées communément appelées "convolutions". Au cours de la dernière décennie, cette opération est devenue la brique de construction essentielle à la révolution du "deep learning". Le produit de convolution est, toutefois, loin d'être l'alpha et l'oméga des mathématiques appliquées.Pour permettre aux chercheurs d'explorer de nouvelles directions, nous présentons des implémentations robustes et efficaces de trois opérations souvent sous-estimées:1. Les manipulations de tenseurs semi-symboliques, comme les matrices de distances ou de noyaux.2. Le transport optimal, qui généralise la notion de "tri" aux espaces de dimension D > 1.3. Le tir géodésique sur une variété Riemannienne, qui se substitue à l'interpolation linéaire sur des espaces de données où aucune structure vectorielle ne peut être correctement définie.Nos routines PyTorch/NumPy sont compatibles avec la différentiation automatique, et s'exécutent en quelques secondes sur des nuages de plusieurs millions de points. Elle sont de 10 à 1,000 fois plus performantes que des implémentations GPU standards et conservent une empreinte mémoire linéaire. Ces nouveaux outils sont empaquetés dans les bibliothèques "KeOps" et "GeomLoss", avec des applications qui vont de l'apprentissage automatique à l'imagerie médicale. Notre documentation est accessible aux adresses www.kernel-operations.io/keops et /geomloss
Geometric data analysis, beyond convolutionsTo model interactions between points, a simple option is to rely on weighted sums known as convolutions. Over the last decade, this operation has become a building block for deep learning architectures with an impact on many applied fields. We should not forget, however, that the convolution product is far from being the be-all and end-all of computational mathematics.To let researchers explore new directions, we present robust, efficient and principled implementations of three underrated operations: 1. Generic manipulations of distance-like matrices, including kernel matrix-vector products and nearest-neighbor searches.2. Optimal transport, which generalizes sorting to spaces of dimension D > 1.3. Hamiltonian geodesic shooting, which replaces linear interpolation when no relevant algebraic structure can be defined on a metric space of features.Our PyTorch/NumPy routines fully support automatic differentiation and scale up to millions of samples in seconds. They generally outperform baseline GPU implementations with x10 to x1,000 speed-ups and keep linear instead of quadratic memory footprints. These new tools are packaged in the KeOps (kernel methods) and GeomLoss (optimal transport) libraries, with applications that range from machine learning to medical imaging. Documentation is available at: www.kernel-operations.io/keops and /geomloss

До бібліографії