Log in

Relevant bibliographies by topics / Modèle probabiliste génératifs

Academic literature on the topic 'Modèle probabiliste génératifs'

Author: Grafiati

Published: 2 December 2022

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Modèle probabiliste génératifs.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Contents

Journal articles
Dissertations / Theses

Journal articles on the topic "Modèle probabiliste génératifs":

1

Li, Nan. "Using the probabilistic fertility table to test the statistical significance of fertility trends." Canadian Studies in Population 43, no. 3-4 (December 20, 2016): 203. http://dx.doi.org/10.25336/p6fp4f.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

At below replacement level, fertility changes are subtle and complex; distinguishing statistically significant trends from random shifts is becoming a relevant issue. The probabilistic fertility table describes the uncertainty of the childbearing process, and provides a significance test for the annual changes of various fertility measures, which is essential for distinguishing a statistically significant change from a random fluctuation. This paper provides an analytical model for the total fertility of the probabilistic fertility table, and extends the significance test to period trends that include multiple annual changes. The extended significance test indicates that complex annual changes could accumulate to become a significant trend. Applying the analytical model and extended test to the total fertility of Canada, it indicates that the 2002–11 increase trend is statistically significant and, therefore, supports project future increases of total fertility.En-dessous du seuil de remplacement des générations, les changements à la fertilité sont subtils et complexes. Aussi, il est devenu pertinent de pouvoir distinguer les tendances significatives au plan statistique des écarts aléatoires. Le tableau probabiliste de fertilité décrit l’incertitude liée au processus de reproduction et fournit un critère de signification des changements annuels dans les diverses mesures de fertilité, élément essentiel pour distinguer un changement important au plan statistique des fluctuations aléatoires. Cet article fournit un modèle analytique pour l’ensemble du tableau probabiliste de fertilité et élargit la portée de cette mesure aux tendances dans le temps incluant les multiples changements annuels. Ce critère élargi indique que les changements complexes annuels peuvent représenter une tendance significative. En appliquant le modèle analytique et le critère au tableau de fertilité du Canada, on constate que la tendance à la hausse de 2002–11 est importante au plan statistique et, par conséquent, augure des hausses futures dans la fertilité totale.

2

Arnaud, P., J. Lavabre, and J. M. Masson. "Amélioration des performances d'un modèle stochastique de génération de hyétogrammes horaires: application au pourtour méditerranéen français." Revue des sciences de l'eau 12, no. 2 (April 12, 2005): 251–71. http://dx.doi.org/10.7202/705351ar.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Depuis quelques années, un modèle stochastique de génération de hyétogrammes horaires est développé au groupement d'Aix-en-Provence du Cemagref, pour être couplé à une modélisation de la pluie en débit, fournissant ainsi une multitude de scénarios de crues analysés statistiquement et utilisés en prédétermination des débits de crues. L'extension de la zone d'application du modèle de pluies horaires au-delà de sa zone de conception, a fait apparaître une hétérogénéité dans les résultats. Ce constat a entraîné certaines modifications du modèle comme : la recherche d'une loi de probabilité théorique peu sensible aux problèmes d'échantillonnage pour une variable du modèle (intensité d'une averse), la prise en compte originale de la dépendance observée entre deux variables du modèle (durée et intensité d'une averse), et la modélisation de la persistance des averses au sein d'une même période pluvieuse. Ces différentes modifications apportées au modèle initial ont entraîné une très nette amélioration de ses performances sur la cinquantaine de postes pluviographiques du pourtour méditerranéen français. On obtient ainsi un outil beaucoup plus robuste et validé sur une zone étendue, capable de fournir de multiples formes de hyétogrammes, couvrant toute la gamme des fréquences, permettant ainsi de s'affranchir des pluies de projet uniques. On aborde aussi une nouvelle approche du comportement à l'infini des distributions de fréquences des pluies qui semble parfois supérieur à une tendance strictement exponentielle. De plus, l'étude de plusieurs événements par an dont chacun présente plusieurs réalisations des différentes variables du modèle augmente la taille des échantillons analysés, semblant rendre la méthode plus rapidement fiable qu'une approche statistique classique basée par exemple sur l'ajustement de valeurs maximales annuelles.

Dissertations / Theses on the topic "Modèle probabiliste génératifs":

1

Azeraf, Elie. "Classification avec des modèles probabilistes génératifs et des réseaux de neurones. Applications au traitement des langues naturelles." Thesis, Institut polytechnique de Paris, 2022. https://tel.archives-ouvertes.fr/tel-03880848.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Un nombre important de modèles probabilistes connaissent une grande perte d'intérêt pour la classification avec apprentissage supervisé depuis un certain nombre d'années, tels que le Naive Bayes ou la chaîne de Markov cachée. Ces modèles, qualifiés de génératifs, sont critiqués car leur classificateur induit doit prendre en compte la loi des observations, qui peut s'avérer très complexe à apprendre quand le nombre de features de ces derniers est élevé. C'est notamment le cas en Traitement des Langues Naturelles, où les récents algorithmes convertissent des mots en vecteurs numériques de grande taille pour atteindre de meilleures performances.Au cours de cette thèse, nous montrons que tout modèle génératif peut définir son classificateur sans prendre en compte la loi des observations. Cette proposition remet en question la catégorisation connue des modèles probabilistes et leurs classificateurs induits - en classes générative et discriminante - et ouvre la voie à un grand nombre d'applications possibles. Ainsi, la chaîne de Markov cachée peut être appliquée sans contraintes à la décomposition syntaxique de textes, ou encore le Naive Bayes à l'analyse de sentiments.Nous allons plus loin, puisque cette proposition permet de calculer le classificateur d'un modèle probabiliste génératif avec des réseaux de neurones. Par conséquent, nous « neuralisons » les modèles cités plus haut ainsi qu'un grand nombre de leurs extensions. Les modèles ainsi obtenus permettant d'atteindre des scores pertinents pour diverses tâches de Traitement des Langues Naturelles tout en étant interprétable, nécessitant peu de données d'entraînement, et étant simple à mettre en production
Many probabilistic models have been neglected for classification tasks with supervised learning for several years, as the Naive Bayes or the Hidden Markov Chain. These models, called generative, are criticized because the induced classifier must learn the observations' law. This problem is too complex when the number of observations' features is too large. It is especially the case with Natural Language Processing tasks, as the recent embedding algorithms convert words in large numerical vectors to achieve better scores.This thesis shows that every generative model can define its induced classifier without using the observations' law. This proposition questions the usual categorization of the probabilistic models and classifiers and allows many new applications. Therefore, Hidden Markov Chain can be efficiently applied to Chunking and Naive Bayes to sentiment analysis.We go further, as this proposition allows to define the classifier induced from a generative model with neural network functions. We "neuralize" the models mentioned above and many of their extensions. Models so obtained allow to achieve relevant scores for many Natural Language Processing tasks while being interpretable, able to require little training data, and easy to serve

2

Ferdjoukh, Adel. "Une approche déclarative pour la génération de modèles." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT325/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Disposer de données dans le but de valider ou tester une approche ou un concept est d'une importance primordiale dans beaucoup de domaines différents. Malheureusement, ces données ne sont pas toujours disponibles, sont coûteuses à obtenir, ou bien ne répondent pas à certaines exigences de qualité ce qui les rend inutiles dans certains cas de figure.Un générateur automatique de données est un bon moyen pour obtenir facilement et rapidement des données valides, de différentes tailles, pertinentes et diversifiées. Dans cette thèse, nous proposons une nouvelle approche complète, dirigée par les modèles et basée sur la programmation par contraintes pour la génération de données
Owning data is useful in many different fields. Data can be used to test and to validate approaches, algorithms and concepts. Unfortunately, data is rarely available, is cost to obtain, or is not adapted to most of cases due to a lack of quality.An automated data generator is a good way to generate quickly and easily data that are valid, in different sizes, likelihood and diverse.In this thesis, we propose a novel and complete model driven approach, based on constraint programming for automated data generation

3

De, Félice Sven. "Automates codéterministes et automates acycliques : analyse d'algorithmes et génération aléatoire." Thesis, Paris Est, 2014. http://www.theses.fr/2014PEST1111/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le cadre générale de cette thèse est l'analyse quantitative des objets issus de la théorie des langages rationnels. On adapte des techniques d'analyse d'algorithmes (complexité en moyenne, complexité générique, génération aléatoire, ...) à des objets et à des algorithmes qui font intervenir des classes particulières d'automates. Dans une première partie nous étudions la complexité de l'algorithme de minimisation de Brzozowski. Bien qu'ayant une mauvaise complexité dans le pire des cas, cet algorithme a la réputation d'être efficace en pratique. En utilisant les propriétés typiques des applications et des permutations aléatoires, nous montrons que la complexité générique de l'algorithme de Brzozowski appliqué à un automate déterministe croît plus vite que tout polynôme en n, où n est le nombre d'états de l'automate. Dans une seconde partie nous nous intéressons à la génération aléatoire d'automates acycliques. Ces automates sont ceux qui reconnaissent les ensembles finis de mots et sont de ce fait utilisés dans de nombreuses applications, notamment en traitement automatique des langues. Nous proposons deux générateurs aléatoires. Le premier utilise le modèle des chaînes de Markov, et le second utilise la "méthode récursive", qui tire partie des décompositions combinatoires des objets pour faire de la génération. La première méthode est souple mais difficile à calibrer, la seconde s'avère plutôt efficace. Une fois implantée, cette dernière nous a notamment permis d'observer les propriétés typiques des grands automates acycliques aléatoires
The general context of this thesis is the quantitative analysis of objects coming from rational language theory. We adapt techniques from the field of analysis of algorithms (average-case complexity, generic complexity, random generation...) to objects and algorithms that involve particular classes of automata. In a first part we study the complexity of Brzozowski's minimisation algorithm. Although the worst-case complexity of this algorithm is bad, it is known to be efficient in practice. Using typical properties of random mappings and random permutations, we show that the generic complexityof Brzozowski's algorithm grows faster than any polynomial in n, where n is the number of states of the automaton. In a second part, we study the random generation of acyclic automata. These automata recognize the finite sets of words, and for this reason they are widely use in applications, especially in natural language processing. We present two random generators, one using a model of Markov chain, the other a ``recursive method", based on a cominatorics decomposition of structures. The first method can be applied in many situations cases but is very difficult to calibrate, the second method is more efficient. Once implemented, this second method allows to observe typical properties of acyclic automata of large size

4

Cordier, Nicolas. "Approches multi-atlas fondées sur l'appariement de blocs de voxels pour la segmentation et la synthèse d'images par résonance magnétique de tumeurs cérébrales." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4111/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse au développement de méthodes automatiques pour la segmentation et la synthèse d'images par résonance magnétique de tumeurs cérébrales. La principale perspective clinique de la segmentation des gliomes est le suivi de la vitesse d'expansion diamétrique dans le but d'adapter les solutions thérapeutiques. A cette fin, la thèse formalise au moyen de modèles graphiques probabilistes des approches de segmentation multi-atlas fondées sur l'appariement de blocs de voxels. Un premier modèle probabiliste prolonge à la segmentation automatique de régions cérébrales pathologiques les approches multi-atlas classiques de segmentation de structures anatomiques. Une approximation de l'étape de marginalisation remplace la notion de fenêtre de recherche locale par un tamisage par atlas et par étiquette. Un modèle de détection de gliomes fondé sur un a priori spatial et des critères de pré-sélection de blocs de voxels permettent d'obtenir des temps de calcul compétitifs malgré un appariement non local. Ce travail est validé et comparé à l'état de l'art sur des bases de données publiques. Un second modèle probabiliste, symétrique au modèle de segmentation, simule des images par résonance magnétique de cas pathologiques, à partir d'une unique segmentation. Une heuristique permet d'estimer le maximum a posteriori et l'incertitude du modèle de synthèse d'image. Un appariement itératif des blocs de voxels renforce la cohérence spatiale des images simulées. Le réalisme des images simulées est évalué avec de vraies IRM et des simulations de l'état de l'art. Le raccordement d'un modèle de croissance de tumeur permet de créer des bases d'images annotées synthétiques
This thesis focuses on the development of automatic methods for the segmentation and synthesis of brain tumor Magnetic Resonance images. The main clinical perspective of glioma segmentation is growth velocity monitoring for patient therapy management. To this end, the thesis builds on the formalization of multi-atlas patch-based segmentation with probabilistic graphical models. A probabilistic model first extends classical multi-atlas approaches used for the segmentation of healthy brains structures to the automatic segmentation of pathological cerebral regions. An approximation of the marginalization step replaces the concept of local search windows with a stratification with respect to both atlases and labels. A glioma detection model based on a spatially-varying prior and patch pre-selection criteria are introduced to obtain competitive running times despite patch matching being non local. This work is validated and compared to state-of-the-art algorithms on publicly available datasets. A second probabilistic model mirrors the segmentation model in order to synthesize realistic MRI of pathological cases, based on a single label map. A heuristic method allows to solve for the maximum a posteriori and to estimate uncertainty of the image synthesis model. Iterating patch matching reinforces the spatial coherence of synthetic images. The realism of our synthetic images is assessed against real MRI, and against outputs of the state-of-the-art method. The junction of a tumor growth model to the proposed synthesis approach allows to generate databases of annotated synthetic cases

5

Mihoub, Alaeddine. "Apprentissage statistique de modèles de comportement multimodal pour les agents conversationnels interactifs." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAT079/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'interaction face-à-face représente une des formes les plus fondamentales de la communication humaine. C'est un système dynamique multimodal et couplé – impliquant non seulement la parole mais de nombreux segments du corps dont le regard, l'orientation de la tête, du buste et du corps, les gestes faciaux et brachio-manuels, etc – d'une grande complexité. La compréhension et la modélisation de ce type de communication est une étape cruciale dans le processus de la conception des agents interactifs capables d'engager des conversations crédibles avec des partenaires humains. Concrètement, un modèle de comportement multimodal destiné aux agents sociaux interactifs fait face à la tâche complexe de générer un comportement multimodal étant donné une analyse de la scène et une estimation incrémentale des objectifs conjoints visés au cours de la conversation. L'objectif de cette thèse est de développer des modèles de comportement multimodal pour permettre aux agents artificiels de mener une communication co-verbale pertinente avec un partenaire humain. Alors que l'immense majorité des travaux dans le domaine de l'interaction humain-agent repose essentiellement sur des modèles à base de règles, notre approche se base sur la modélisation statistique des interactions sociales à partir de traces collectées lors d'interactions exemplaires, démontrées par des tuteurs humains. Dans ce cadre, nous introduisons des modèles de comportement dits "sensori-moteurs", qui permettent à la fois la reconnaissance des états cognitifs conjoints et la génération des signaux sociaux d'une manière incrémentale. En particulier, les modèles de comportement proposés ont pour objectif d'estimer l'unité d'interaction (IU) dans laquelle sont engagés de manière conjointe les interlocuteurs et de générer le comportement co-verbal du tuteur humain étant donné le comportement observé de son/ses interlocuteur(s). Les modèles proposés sont principalement des modèles probabilistes graphiques qui se basent sur les chaînes de markov cachés (HMM) et les réseaux bayésiens dynamiques (DBN). Les modèles ont été appris et évalués – notamment comparés à des classifieurs classiques – sur des jeux de données collectés lors de deux différentes interactions face-à-face. Les deux interactions ont été soigneusement conçues de manière à collecter, en un minimum de temps, un nombre suffisant d'exemplaires de gestion de l'attention mutuelle et de deixis multimodale d'objets et de lieux. Nos contributions sont complétées par des méthodes originales d'interprétation et d'évaluation des propriétés des modèles proposés. En comparant tous les modèles avec les vraies traces d'interactions, les résultats montrent que le modèle HMM, grâce à ses propriétés de modélisation séquentielle, dépasse les simples classifieurs en terme de performances. Les modèles semi-markoviens (HSMM) ont été également testé et ont abouti à un meilleur bouclage sensori-moteur grâce à leurs propriétés de modélisation des durées des états. Enfin, grâce à une structure de dépendances riche apprise à partir des données, le modèle DBN a les performances les plus probantes et démontre en outre la coordination multimodale la plus fidèle aux évènements multimodaux originaux
Face to face interaction is one of the most fundamental forms of human communication. It is a complex multimodal and coupled dynamic system involving not only speech but of numerous segments of the body among which gaze, the orientation of the head, the chest and the body, the facial and brachiomanual movements, etc. The understanding and the modeling of this type of communication is a crucial stage for designing interactive agents capable of committing (hiring) credible conversations with human partners. Concretely, a model of multimodal behavior for interactive social agents faces with the complex task of generating gestural scores given an analysis of the scene and an incremental estimation of the joint objectives aimed during the conversation. The objective of this thesis is to develop models of multimodal behavior that allow artificial agents to engage into a relevant co-verbal communication with a human partner. While the immense majority of the works in the field of human-agent interaction (HAI) is scripted using ruled-based models, our approach relies on the training of statistical models from tracks collected during exemplary interactions, demonstrated by human trainers. In this context, we introduce "sensorimotor" models of behavior, which perform at the same time the recognition of joint cognitive states and the generation of the social signals in an incremental way. In particular, the proposed models of behavior have to estimate the current unit of interaction ( IU) in which the interlocutors are jointly committed and to predict the co-verbal behavior of its human trainer given the behavior of the interlocutor(s). The proposed models are all graphical models, i.e. Hidden Markov Models (HMM) and Dynamic Bayesian Networks (DBN). The models were trained and evaluated - in particular compared with classic classifiers - using datasets collected during two different interactions. Both interactions were carefully designed so as to collect, in a minimum amount of time, a sufficient number of exemplars of mutual attention and multimodal deixis of objects and places. Our contributions are completed by original methods for the interpretation and comparative evaluation of the properties of the proposed models. By comparing the output of the models with the original scores, we show that the HMM, thanks to its properties of sequential modeling, outperforms the simple classifiers in term of performances. The semi-Markovian models (HSMM) further improves the estimation of sensorimotor states thanks to duration modeling. Finally, thanks to a rich structure of dependency between variables learnt from the data, the DBN has the most convincing performances and demonstrates both the best performance and the most faithful multimodal coordination to the original multimodal events

6

Villéger, Emmanuel. "Constance de largeur et désocclusion dans les images digitales." Phd thesis, Université de Nice Sophia-Antipolis, 2005. http://tel.archives-ouvertes.fr/tel-00011229.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'école Gestaltiste s'intéresse à la vision, leur point de vue est que
nous regroupons des points lumineux et/ou des objets selon certaines
règles pour former des objets plus gros, des Gestalts.

La première partie de cette thèse est consacrée à la constance de
largeur. La Gestalt constance de largeur regroupe des points situés
entre deux bords qui restent parallèles. Nous cherchons donc dans les
images des courbes ``parallèles.'' Nous voulons faire une détection
a contrario, nous proposons donc une quantification du ``non
parallélisme'' de deux courbes par trois méthodes. La première méthode
utilise un modèle de génération de courbes régulières et nous
calculons une probabilité. La deuxième méthode est une méthode de
simulation de type Monte-Carlo pour estimer cette probabilité. Enfin
la troisième méthode correspond à un développement limité de la
première en faisant tendre un paramètre vers 0 sous certaines
contraintes. Ceci conduit à une équation aux dérivées partielles
(EDP). Parmi ces trois méthodes la méthode de type Monte-Carlo est
plus robuste et plus rapide.

L'EDP obtenue est très similaire à celles utilisées pour la
désocclusion d'images. C'est pourquoi dans la deuxième partie de cette
thèse nous nous intéressons au problème de la désocclusion. Nous
présentons les méthodes existantes puis une nouvelle méthode basée sur
un système de deux EDPs dont l'une est inspirée de celle de la
première partie. Nous introduisons la probabilité de l'orientation du
gradient de l'image. Nous prenons ainsi en compte l'incertitude sur
l'orientation calculée du gradient de l'image. Cette incertitude est
quantifiée en relation avec la norme du gradient.

Avec la quantification du non parallélisme de deux courbes, l'étape
suivante est la détection de la constance de largeur dans
les images. Il faut alors définir un seuil pour sélectionner les
bonnes réponses du détecteur et surtout parmi les réponses définir
des réponses ``maximales.'' Le système d'EDPs pour
la désocclusion dépend de beaucoup de paramètres, il faut trouver une
méthode de calibration des paramètres pour obtenir de bons résultats
adaptés à chaque image.

7

Almahairi, Amjad. "Advances in deep learning with limited supervision and computational resources." Thèse, 2018. http://hdl.handle.net/1866/23434.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les réseaux de neurones profonds sont la pierre angulaire des systèmes à la fine pointe de la technologie pour une vaste gamme de tâches, comme la reconnaissance d'objets, la modélisation du langage et la traduction automatique. Mis à part le progrès important établi dans les architectures et les procédures de formation des réseaux de neurones profonds, deux facteurs ont été la clé du succès remarquable de l'apprentissage profond : la disponibilité de grandes quantités de données étiquetées et la puissance de calcul massive. Cette thèse par articles apporte plusieurs contributions à l'avancement de l'apprentissage profond, en particulier dans les problèmes avec très peu ou pas de données étiquetées, ou avec des ressources informatiques limitées. Le premier article aborde la question de la rareté des données dans les systèmes de recommandation, en apprenant les représentations distribuées des produits à partir des commentaires d'évaluation de produits en langage naturel. Plus précisément, nous proposons un cadre d'apprentissage multitâches dans lequel nous utilisons des méthodes basées sur les réseaux de neurones pour apprendre les représentations de produits à partir de textes de critiques de produits et de données d'évaluation. Nous démontrons que la méthode proposée peut améliorer la généralisation dans les systèmes de recommandation et atteindre une performance de pointe sur l'ensemble de données Amazon Reviews. Le deuxième article s'attaque aux défis computationnels qui existent dans l'entraînement des réseaux de neurones profonds à grande échelle. Nous proposons une nouvelle architecture de réseaux de neurones conditionnels permettant d'attribuer la capacité du réseau de façon adaptative, et donc des calculs, dans les différentes régions des entrées. Nous démontrons l'efficacité de notre modèle sur les tâches de reconnaissance visuelle où les objets d'intérêt sont localisés à la couche d'entrée, tout en maintenant une surcharge de calcul beaucoup plus faible que les architectures standards des réseaux de neurones. Le troisième article contribue au domaine de l'apprentissage non supervisé, avec l'aide du paradigme des réseaux antagoniste génératifs. Nous introduisons un cadre fléxible pour l'entraînement des réseaux antagonistes génératifs, qui non seulement assure que le générateur estime la véritable distribution des données, mais permet également au discriminateur de conserver l'information sur la densité des données à l'optimum global. Nous validons notre cadre empiriquement en montrant que le discriminateur est capable de récupérer l'énergie de la distribution des données et d'obtenir une qualité d'échantillons à la fine pointe de la technologie. Enfin, dans le quatrième article, nous nous attaquons au problème de l'apprentissage non supervisé à travers différents domaines. Nous proposons un modèle qui permet d'apprendre des transformations plusieurs à plusieurs à travers deux domaines, et ce, à partir des données non appariées. Nous validons notre approche sur plusieurs ensembles de données se rapportant à l'imagerie, et nous montrons que notre méthode peut être appliquée efficacement dans des situations d'apprentissage semi-supervisé.
Deep neural networks are the cornerstone of state-of-the-art systems for a wide range of tasks, including object recognition, language modelling and machine translation. In the last decade, research in the field of deep learning has led to numerous key advances in designing novel architectures and training algorithms for neural networks. However, most success stories in deep learning heavily relied on two main factors: the availability of large amounts of labelled data and massive computational resources. This thesis by articles makes several contributions to advancing deep learning, specifically in problems with limited or no labelled data, or with constrained computational resources. The first article addresses sparsity of labelled data that emerges in the application field of recommender systems. We propose a multi-task learning framework that leverages natural language reviews in improving recommendation. Specifically, we apply neural-network-based methods for learning representations of products from review text, while learning from rating data. We demonstrate that the proposed method can achieve state-of-the-art performance on the Amazon Reviews dataset. The second article tackles computational challenges in training large-scale deep neural networks. We propose a conditional computation network architecture which can adaptively assign its capacity, and hence computations, across different regions of the input. We demonstrate the effectiveness of our model on visual recognition tasks where objects are spatially localized within the input, while maintaining much lower computational overhead than standard network architectures. The third article contributes to the domain of unsupervised learning with the generative adversarial networks paradigm. We introduce a flexible adversarial training framework, in which not only the generator converges to the true data distribution, but also the discriminator recovers the relative density of the data at the optimum. We validate our framework empirically by showing that the discriminator is able to accurately estimate the true energy of data while obtaining state-of-the-art quality of samples. Finally, in the fourth article, we address the problem of unsupervised domain translation. We propose a model which can learn flexible, many-to-many mappings across domains from unpaired data. We validate our approach on several image datasets, and we show that it can be effectively applied in semi-supervised learning settings.

8

Dinh, Laurent. "Reparametrization in deep learning." Thèse, 2018. http://hdl.handle.net/1866/21139.

Full text

APA, Harvard, Vancouver, ISO, and other styles

9

Tan, Shawn. "Latent variable language models." Thèse, 2018. http://hdl.handle.net/1866/22131.

Full text

APA, Harvard, Vancouver, ISO, and other styles