Teses / dissertações sobre o tema "Clasificación automática"
Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos
Veja os 30 melhores trabalhos (teses / dissertações) para estudos sobre o assunto "Clasificación automática".
Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.
Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.
Veja as teses / dissertações das mais diversas áreas científicas e compile uma bibliografia correta.
Peña, Pachamango Denis Bryan. "Sistema mecatrónico para la clasificación automática de cubiertos". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2014. http://tesis.pucp.edu.pe/repositorio/handle/123456789/5760.
Texto completo da fonteTesis
Brown, Manrique Kevin. "Caracterización y clasificación automática de ríos en imágenes satelitales". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2017. http://tesis.pucp.edu.pe/repositorio/handle/123456789/8806.
Texto completo da fonteTesis
Delgado, Valverde Lizbeth Alejandra. "Identificación Automática de hojas Utilizando un Clasificador Bayesiano". Tesis de Licenciatura, Universidad Autónoma del Estado de México, 2017. http://hdl.handle.net/20.500.11799/79819.
Texto completo da fonteMartín, Fernández Josep Antoni. "Medidas de diferencia y clasificación automática no paramétrica de datos composicionales". Doctoral thesis, Universitat Politècnica de Catalunya, 2001. http://hdl.handle.net/10803/6704.
Texto completo da fonteLa memoria de la tesis se inicia con un capítulo introductorio donde se presentan los elementos básicos de las técnicas de clasificación automática no paramétrica. Se pone especial énfasis en aquellos elementos susceptibles de ser adaptados para su aplicación en clasificaciones de datos composicionales. En el segundo capítulo se aborda el análisis de los conceptos más importantes en torno a los datos composicionales. En este capítulo, los esfuerzos se han concentrado principalmente en estudiar las medidas de diferencia entre datos composicionales junto con las medidas de tendencia central y de dispersión. Con ello se dispone de las herramientas necesarias para proceder al desarrollo de una metodología apropiada para la clasificación no paramétrica de datos composicionales, consistente en incorporar los elementos anteriores a las técnicas habituales y adaptarlas en la medida de lo necesario. El tercer capítulo se dedica exclusivamente a proponer nuevas medidas de diferencia entre datos composicionales basadas en las medidas de divergencia entre distribuciones de probabilidad. En el cuarto capítulo se incorporan las peculiaridades de los datos composicionales a las técnicas de clasificación y se exponen las pautas a seguir en el uso práctico de estas técnicas. El capítulo se completa con la aplicación de la metodología expuesta a un caso práctico. En el quinto capítulo de esta tesis se aborda el denominado problema de los ceros. Se analizan los inconvenientes de los métodos usuales de substitución y se propone una nueva fórmula de substitución de los ceros por redondeo. El capítulo finaliza con el estudio de un caso práctico. En el epílogo de esta memoria se presentan las conclusiones del trabajo de investigación y se indican la líneas futuras de trabajo. En los apéndices finales de esta memoria se recogen los conjuntos de datos utilizados en los casos prácticos que se han desarrollado en la presente tesis. Esta memoria se completa con la lista de las referencias bibliográficas más relevantes que se han consultado para llevar a cabo este trabajo de investigación.
On March 23, 2001 Josep Antoni Martín-Fernández from the Dept. of Computer Sciences and Applied Mathematics of the University of Girona (Catalonia-Spain), presented his PhD thesis, entitled "Measures of difference and non-parametric cluster analysis for compositional data" at the Technical University of Barcelona. A short resumee follows:
Compositional data are by definition proportions of some whole. Thus, their natural sample space is the open simplex and interest lies in the relative behaviour of the components. Basic operations defined on the simplex induce a vector space structure, which justifies the developement of its algebraic-geometric structure: scalar product, norm, and distance. At the same time, hierarchic methods of classification require to establish in advance some or all of the following measures: difference, central tendency and dispersion, in accordance with the nature of the data. J. A. Martín-Fernández studies the requirements for these measures when the data are compositional in type and presents specific measures to be used with the most usual non-parametric methods of cluster analysis. As a part of his thesis he also introduced the centering operation, which has been shown to be a powerful tool to visualize compositional data sets. Furthermore, he defines a new dissimilarity based on measures of divergence between multinomial probability distributions, which is compatible with the nature of compositional data. Finally, J. A. Martín-Fernández presents in his thesis a new method to attack the "Achilles heel" of any statistical analysis of compositional data: the presence of zero values, based on a multiplicative approach which respects the essential properties of this type of data.
Concepción, Tiza Miguel Angel. "Sistema de gestión y clasificación automática de denuncias ambientales mediante aprendizaje de máquina". Bachelor's thesis, Universidad Peruana de Ciencias Aplicadas (UPC), 2021. http://hdl.handle.net/10757/656797.
Texto completo da fonteSince the last decades, the negative impact generated by human activities has increased the importance of protecting the environment year after year both in the world and in Peru. For this reason, governments worldwide implement mechanisms for environmental protection such as environmental complaints. These allow the population to report possible environmental contamination to the competent authorities for them to take the necessary actions, for this, it is necessary that the complaints be formulated, classified, and derived in a correct and timely manner. However, to perform these tasks correctly requires extensive technical and legal knowledge that few people possess, this means that environmental complaints cannot be dealt with quickly and efficiently, generating discomfort in the affected population. Faced with this problem, a computer solution is proposed that automatically manages the classification and derivation of environmental complaints using machine learning. Considering that most environmental complaints consists of texts, natural language processing techniques are applied that, using multi-label classification algorithms, environmental complaints can be automatically classified, which will improve service times.
Tesis
Kachach, Redouane. "Monitorización visual automática de tráfico rodado". Doctoral thesis, Universidad de Alicante, 2016. http://hdl.handle.net/10045/68987.
Texto completo da fonteURDAÑEZ, CARBAJAL Maria Fernanda. "DETECCIÓN AUTOMÁTICA DE GLAUCOMA Y RETINOPATÍA DIABÉTICA USANDO CARACTERÍSTICAS CROMÁTICAS Y TEXTURALES". Tesis de Licenciatura, Universidad Autónoma del Estado de México, 2020. http://hdl.handle.net/20.500.11799/109919.
Texto completo da fonte4996/2020CIB
Roberto, Rodríguez John Alexander. "Análisis del género discursivo aplicado a la clasificación automática de la polaridad en comentarios sobre productos". Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/393892.
Texto completo da fonteThis thesis is about polarity analysis of reviews, that is, classifying reviews as either positive or negative based on linguistic evidence. I describe a genre-based approach for the polarity analysis of customer reviews. Genre is characterized by a schematic structure of the discourse composed of different types of stages, each one with a goal-oriented function. This approach to polarity analysis, first, distinguishes stages in the genre of reviews and, subsequently, evaluates the usefulness of each type of stage in the determination of the polarity of the entire review. The thesis is broadly divided into two parts. In the first part, I characterize customer reviews as a discursive genre by analyzing both their structure and their linguistic register. Based on these analysis, I postulate that customer reviews are composed of three main types of stages: valorative, narrative and descriptive. In the second part of the thesis, I determine the usefulness of the different type of stages for the classification of positive and negative reviews. The rationale behind our approach is the assumption that within the specific genre of customer reviews, not all parts of a text contribute equally to expressing the underlying sentiment. In order to validate this hypothesis, I evaluate three alternative methods used to automatically detect and determine the usefulness of each type of stage in the detection of the polarity of the entire review. The first method applies lexical and morphosyntactic information to identify the type of stage that best expresses the polarity of the whole review. The second method analyzes the role played by narrative chains in determining the polarity of reviews. The third method is based on the measurement of syntactic complexity to detect and remove descriptive sentences with the opposite polarity to that of the entire document (asymmetric sentences) as a previous step to identify positive and negative reviews. The main conclusion that has been drawn is that there is a relationship between the types of stages and the polarity expressed in the review: users often employ stages differently according to whether its polarity is positive or negative. These differences in use of stages leads me to the conclusion that there are two (sub)genres, rather than one, for the expression of opinions on the Web: the (sub)genre of positive reviews and the (sub)genre of negative reviews.
Martínez, España Raquel. "Metodologías basadas en minería de datos para el diseño y optimización de técnicas de clasificación automática". Doctoral thesis, Universidad de Murcia, 2014. http://hdl.handle.net/10803/286364.
Texto completo da fonteThe motivation for the development of this doctoral thesis is focused on the problem of the shortage of techniques of Intelligent Data Analysis, working directly with imperfect data. This has been caused by the advance of new technologies which have allowed the storage of large volumes of information of different types composed of data that are not always as precise and perfect as desired. The global aims, and therefore partial objectives, are focused on the development of techniques of Intelligent Data Analysis making use of methodologies provided by Softcomputing to work directly with imperfect data (low quality), without a need for previous transformation. Specifically, the thesis is focused on the Intelligent Data Analysis phases of data preprocessing and data mining. On the one hand, in the phase of data mining, the extensions of three techniques have been proposed. Specifically, a fuzzy decision tree, an ensemble of fuzzy decision trees and a technique based on neighborhood. For the extension of the fuzzy decision tree and the ensemble techniques a similarity measure has been defined. This measure is used to calculate the membership degree of a low quality value to each of the descendants of a given node N. For the extension of the technique based on neighborhood (k-NN rule) a set of distance measures to calculate the distance between the examples and their neighbors has been defined, bearing in mind that the examples may contain low quality data. On the other hand, the design and implementation of a set of techniques, that support low quality data, is proposed in the preprocessing phase. In particular, the techniques presented include the processes of discretization of numerical attributes, of attribute selection, of example selection and of missing value imputation. In the discretization of attributes, a hybrid technique has been designed. This technique is composed of a fuzzy decision tree and a genetic algorithm. The attribute selection technique proposed consists of a hybrid algorithm composed of a filtering technique and a wrapper technique. In addition, the imputation technique is based on the design of a new rule for the technique K-NN. For the process of example selection, the basic idea of a condensation technique of examples has been used, in order to select the most representative examples. Also, a software tool has been developed. This tool includes part of the data preprocessing techniques proposed and developed in this doctoral thesis. The aim of this software tool, called "NIP imperfection processor" (NIPip) is to provide a common framework where researchers can perform preprocessing on datasets either to add low quality data to them or to transform this low quality data into other types of data. As a final conclusion, it must be emphasized that the proposed and extended techniques, after performing a set of statistically validated experiments, have shown robust, stable, very satisfactory and optimistic behavior both when working with low quality data and when working with crisp data. Also, the software tool proposed provides a new framework, and greater flexibility and speed in the data preprocessing both low quality and crisp, which is very important for the design of large-scale experiments.
Torres, Rivera Andrés. "Detección y extracción de neologismos semánticos especializados: un acercamiento mediante clasificación automática de documentos y estrategias de aprendizaje profundo". Doctoral thesis, Universitat Pompeu Fabra, 2019. http://hdl.handle.net/10803/667928.
Texto completo da fonteDins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics per a la detecció i extracció de neologismes semàntics amb tècniques com la desambiguació semàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema per a la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòrics necessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposem el desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançant estratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologia que es planteja es basa en el tractament del procés de detecció i extracció com un problema de classificació, que consisteix a analitzar la concordança de temes entre el camp semàntic del significat principal d’una paraula i el text en què es troba aquesta paraula. Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificació automàtica supervisada i tres models per a la generació de representacions vectorials de paraules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismes semàntics de l'àmbit de la informàtica pertanyents a la base de dades de l’Observatori de Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a 2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema: classificació automàtica, extracció de paraules a partir de contextos breus i generació de llistes de paraules similars. Aquesta primera aproximació metodològica busca establir un marc de referència en matèria de detecció i extracció de neologismes semàntics.
Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique, mais il n’existe aucun système complet de détection de néologismes sémantiques. Avec une étude détaillée des hypothèses théoriques nécessaires pour délimiter et décrire les néologismes sémantiques, nous proposons dans cette thèse le développement d’une application qui permet d’identifier et d’extraire ces unités à travers de méthodes statistiques, d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en œuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.
In the field of neology, different methodological approaches for the detection and extraction of semantic neologisms have been developed using strategies such as word sense disambiguation and topic modeling, but there is still not a proposal for a system for the detection of these units. Beginning from a detailed study on the necessary theoretical assumptions required to delimit and describe semantic neologisms, in this thesis, we propose the development of an application to identify and extract said units using statistical, data mining and machine learning strategies. The proposed methodology is based on treating the process of detection and extraction as a classification task, which consists on analyzing the concordance of topics between the semantic field from the main meaning of a word and the text where it is found. To build the architecture of the proposed system, we analyzed five automatic classification methods and three deep learning based word embedding models. Our analysis corpus is composed of the semantic neologisms of the computer science field belonging to the database of the Observatory of Neology of the Pompeu Fabra University, which have been registered from 1989 to 2015. We used this corpus to evaluate the different methods that our system implements: automatic classification, keyword extraction from short contexts, and similarity list generation. This first methodological approach aims to establish a framework of reference in terms of detection and extraction of semantic neologisms.
Córdova, Pérez Claudia Sofía. "Aplicación de aprendizaje profundo para la detección y clasificación automática de insectos agrícolas en trampas pegantes: una revisión de literatura". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/18092.
Texto completo da fonteTrabajo de investigación
Hermosilla, Gómez Txomin. "Detección automática de edificios y clasificación de usos del suelo en entornos urbanos con imágenes de alta resolución y datos LiDAR". Doctoral thesis, Universitat Politècnica de València, 2011. http://hdl.handle.net/10251/11232.
Texto completo da fonteHermosilla Gómez, T. (2011). Detección automática de edificios y clasificación de usos del suelo en entornos urbanos con imágenes de alta resolución y datos LiDAR [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/11232
Palancia
Vicente, Robledo Javier. "Clinical Decision Support Systems for Brain Tumour Diagnosis: Classification and Evaluation Approaches". Doctoral thesis, Editorial Universitat Politècnica de València, 2012. http://hdl.handle.net/10251/17468.
Texto completo da fonteVicente Robledo, J. (2012). Clinical Decision Support Systems for Brain Tumour Diagnosis: Classification and Evaluation Approaches [Tesis doctoral]. Editorial Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/17468
Palancia
Rivas, Romero Deglan Jesús. "Diseño conceptual de un sistema automático para clasificación de palta hass". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/18521.
Texto completo da fonteTrabajo de investigación
Oliver, i. Malagelada Arnau. "Automatic mass segmentation in mammographic images". Doctoral thesis, Universitat de Girona, 2007. http://hdl.handle.net/10803/7739.
Texto completo da fonteThis thesis deals with the detection of masses in mammographic images. As a first step, Regions of Interests (ROIs) are detected in the image using templates containing a probabilistic contour shape obtained from training over an annotated set of masses. Firstly, PCA is performed over the training set, and subsequently the template is formed as an average of the gradient of eigenmasses weighted by the top eigenvalues. The template can be deformed according to each eigenmass coefficient. The matching is formulated in a Bayesian framework, where the prior penalizes the deformation, and the likelihood requires template boundaries to agree with image edges. In the second stage, the detected ROIs are classified into being false positives or true positives using 2DPCA, where the new training set now contains ROIs with masses and ROIs with normal tissue. Mass density is incorporated into the whole process by initially classifying the two training sets according to breast density. Methods for breast density estimation are also analyzed and proposed. The results are obtained using different databases and both FROC and ROC analysis demonstrate a better performance of the approach relative to competing methods.
Silva, Palacios Daniel Andrés. "Clasificación Jerárquica Multiclase". Doctoral thesis, Universitat Politècnica de València, 2021. http://hdl.handle.net/10251/167015.
Texto completo da fonte[CA] La societat moderna s'ha vist afectada pels accelerats avenços de la tecnologia. L'aplicació de la intel·ligència artificial es pot trobar a tot arreu, des de la televisió intel·ligent fins als cotxes autònoms. Una tasca essencial de l'aprenentatge automàtic és la classificació. Tot i la quantitat de tècniques i algoritmes de classificació que existeixen, és un camp que segueix sent rellevant per totes les seves aplicacions. Així, enfront de la classificació tradicional multiclase en la qual a cada instància se li assigna una única etiqueta de classe, s'han proposat altres mètodes com la classificació jeràrquica i la classificació multietiqueta. Aquesta tesi té com a objectiu resoldre la classificació multiclase mitjançant una descomposició jeràrquica. Així mateix, s'exploren diferents mètodes d'estendre l'aproximació definida per a la seva aplicació en contextos canviants. La classificació jeràrquica és una tasca d'aprenentatge automàtic en la qual el problema de classificació original es divideix en petits subproblemes. Aquesta divisió es realitza tenint en compte una estructura jeràrquica que representa les relacions entre les classes objectiu. Com a resultat el classificador jeràrquic és al seu torn una estructura (un arbre o un graf) composta per classificadors de base. Fins ara, en la literatura, la classificació jeràrquica s'ha aplicat a dominis jeràrquics, independentment que l'estructura jeràrquica sigui proporcionada explícitament o s'assumeix implícita (en aquest cas es fa necessari inferir primer aquesta estructura jeràrquica). La classificació jeràrquica ha demostrat un millor rendiment en dominis jeràrquics en comparació amb la classificació plana (que no té en compte l'estructura jeràrquica de l'domini). En aquesta tesi, proposem resoldre els problemes de classificació multiclasse descomponent jeràrquicament d'acord a una jerarquia de classes inferida per un classificador pla. Plantegem dos escenaris depenent de el tipus de classificador usat en la jerarquia de classificadors: classificadors durs (crisp) i classificadors suaus (soft). D'altra banda, un problema de classificació pot patir canvis una vegada els models han estat entrenats. Un canvi freqüent és l'aparició d'una nova classe objectiu. Atès que els classificadors no han estat entrenats amb dades pertanyents a la nova classe, no podran trobar prediccions correctes per a les noves instàncies, el que afectarà negativament en el rendiment dels classificadors. Aquest problema es pot resoldre mitjançant dues alternatives: el reentrenament de tot el model o l'adaptació de el model per respondre a aquesta nova situació. Com a part de l'estudi dels algoritmes de classificació jeràrquica es presenten diversos mètodes per adaptar el model als canvis en les classes objectiu. Els mètodes i aproximacions definides en la tesi s'han avaluat experimentalment amb una àmplia col·lecció de conjunts de dades que presenten diferents característiques, usant diferents tècniques d'aprenentatge per generar els classificadors de base. En general, els resultats mostren que els mètodes proposats poden ser una alternativa a mètodes tradicionals i altres tècniques presentades en la literatura per abordar les situacions específiques plantejades.
[EN] The modern society has been affected by rapid advances in technology. The application of artificial intelligence can be found everywhere, from intelligent television to autonomous cars. An essential task of machine learning is classification. Despite the number of classification techniques and algorithms that exist, it is a field that remains relevant for all its applications. Thus, as opposed to the traditional multiclass classification in which each instance is assigned a single class label, other methods such as hierarchical classification and multi-label classification have been proposed. This thesis aims to solve multiclass classification by means of a hierarchical decomposition. Also, different methods of extending the defined approach are explored for application in changing contexts. Hierarchical classification is an automatic learning task in which the original classification problem is divided into small sub-problems. This division is made taking into account a hierarchical structure that represents the relationships between the target classes. As a result the hierarchical classifier is itself a structure (a tree or a graph) composed of base classifiers. Up to now, in the literature, hierarchical classification has been applied to hierarchical domains, regardless of whether the hierarchical structure is explicitly provided or assumed to be implicit (in which case it becomes necessary to first infer the hierarchical structure). Hierarchical classification has demonstrated better performance in hierarchical domains compared to flat classification (which does not take into account the hierarchical structure of the domain). In this thesis, we propose to solve the problems of multiclass classification by breaking it down hierarchically according to a class hierarchy inferred by a plane classifier. We propose two scenarios depending on the type of classifier used in the classifier hierarchy: hard classifiers (crisp) and soft classifiers (soft). On the other hand, a classification problem may change once the models have been trained. A frequent change is the appearance of a new target class. Since the existing classifiers have not been trained with data belonging to the new class, they will not be able to find correct predictions for the new instances, which will negatively affect the performance of the classifiers. This problem can be solved by two alternatives: retraining the entire model or adapting the model to respond to this new situation. As part of the study of hierarchical classification algorithms, several methods are presented to adapt the model to changes in target classes. The methods and approaches defined in the thesis have been evaluated experimentally with a large collection of data sets that have different characteristics, using different learning techniques to generate the base classifiers. In general, the results show that the proposed methods can be an alternative to traditional methods and other techniques presented in the literature to address the specific situations raised.
Silva Palacios, DA. (2021). Clasificación Jerárquica Multiclase [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/167015
TESIS
Tomás, David. "Sistemas de clasificación de preguntas basados en corpus para la búsqueda de respuestas". Doctoral thesis, Universidad de Alicante, 2009. http://hdl.handle.net/10045/13880.
Texto completo da fonteRuiz, Rico Fernando. "Selección y ponderación de características para la clasificación de textos y su aplicación en el diagnóstico médico". Doctoral thesis, Universidad de Alicante, 2013. http://hdl.handle.net/10045/36215.
Texto completo da fonteTenorio, Ku Luiggi Gianpiere. "Exploración de métodos de clasificación de proteínas repetidas basado en su información estructural utilizando aprendizaje de máquina". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/16991.
Texto completo da fonteTrabajo de investigación
Romeo, Lauren Michele. "The Structure of the lexicon in the task of the automatic acquisition of lexical information". Doctoral thesis, Universitat Pompeu Fabra, 2015. http://hdl.handle.net/10803/325420.
Texto completo da fonteLa información de clase semántica de los nombres es fundamental para una amplia variedad de tareas del procesamiento del lenguaje natural (PLN), como la traducción automática, la discriminación de referentes en tareas como la detección y el seguimiento de eventos, la búsqueda de respuestas, el reconocimiento y la clasificación de nombres de entidades, la construcción y ampliación automática de ontologías, la inferencia textual, etc. Una aproximación para resolver la construcción y el mantenimiento de los léxicos de gran cobertura que alimentan los sistemas de PNL, una tarea muy costosa y lenta, es la adquisición automática de información léxica, que consiste en la inducción de una clase semántica relacionada con una palabra en concreto a partir de datos de su distribución obtenidos de un corpus. Precisamente, por esta razón, se espera que la investigación actual sobre los métodos para la producción automática de léxicos de alta calidad, con gran cantidad de información y con anotación de clase como el trabajo que aquí presentamos, tenga un gran impacto en el rendimiento de la mayoría de las aplicaciones de PNL. En esta tesis, tratamos la adquisición automática de información léxica como un problema de clasificación. Con este propósito, adoptamos métodos de aprendizaje automático para generar un modelo que represente los datos de distribución vectorial que, basados en ejemplos conocidos, permitan hacer predicciones de otras palabras desconocidas. Las principales preguntas de investigación que planteamos en esta tesis son: (i) si los datos de corpus proporcionan suficiente información para construir representaciones de palabras de forma eficiente y que resulten en decisiones de clasificación precisas y sólidas, y (ii) si la adquisición automática puede gestionar, también, los nombres polisémicos. Para hacer frente a estos problemas, realizamos una serie de validaciones empíricas sobre nombres en inglés. Nuestros resultados confirman que la información obtenida a partir de la distribución de los datos de corpus es suficiente para adquirir automáticamente clases semánticas, como lo demuestra un valor-F global promedio de 0,80 aproximadamente utilizando varios modelos de recuento de contextos y en datos de corpus de distintos tamaños. No obstante, tanto el estado de la cuestión como los experimentos que realizamos destacaron una serie de retos para este tipo de modelos, que son reducir la escasez de datos del vector y dar cuenta de la polisemia nominal en las representaciones distribucionales de las palabras. En este contexto, los modelos de word embedding (WE) mantienen la “semántica” subyacente en las ocurrencias de un nombre en los datos de corpus asignándole un vector. Con esta elección, hemos sido capaces de superar el problema de la escasez de datos, como lo demuestra un valor-F general promedio de 0,91 para las clases semánticas de nombres de sentido único, a través de una combinación de la reducción de la dimensionalidad y de números reales. Además, las representaciones de WE obtuvieron un rendimiento superior en la gestión de las ocurrencias asimétricas de cada sentido de los nombres de tipo complejo polisémicos regulares en datos de corpus. Como resultado, hemos podido clasificar directamente esos nombres en su propia clase semántica con un valor-F global promedio de 0,85. La principal aportación de esta tesis consiste en una validación empírica de diferentes representaciones de distribución utilizadas para la clasificación semántica de nombres junto con una posterior expansión del trabajo anterior, lo que se traduce en recursos léxicos y conjuntos de datos innovadores que están disponibles de forma gratuita para su descarga y uso.
Lexical semantic class information for nouns is critical for a broad variety of Natural Language Processing (NLP) tasks including, but not limited to, machine translation, discrimination of referents in tasks such as event detection and tracking, question answering, named entity recognition and classification, automatic construction and extension of ontologies, textual inference, etc. One approach to solve the costly and time-consuming manual construction and maintenance of large-coverage lexica to feed NLP systems is the Automatic Acquisition of Lexical Information, which involves the induction of a semantic class related to a particular word from distributional data gathered within a corpus. This is precisely why current research on methods for the automatic production of high- quality information-rich class-annotated lexica, such as the work presented here, is expected to have a high impact on the performance of most NLP applications. In this thesis, we address the automatic acquisition of lexical information as a classification problem. For this reason, we adopt machine learning methods to generate a model representing vectorial distributional data which, grounded on known examples, allows for the predictions of other unknown words. The main research questions we investigate in this thesis are: (i) whether corpus data provides sufficient distributional information to build efficient word representations that result in accurate and robust classification decisions and (ii) whether automatic acquisition can handle also polysemous nouns. To tackle these problems, we conducted a number of empirical validations on English nouns. Our results confirmed that the distributional information obtained from corpus data is indeed sufficient to automatically acquire lexical semantic classes, demonstrated by an average overall F1-Score of almost 0.80 using diverse count-context models and on different sized corpus data. Nonetheless, both the State of the Art and the experiments we conducted highlighted a number of challenges of this type of model such as reducing vector sparsity and accounting for nominal polysemy in distributional word representations. In this context, Word Embeddings (WE) models maintain the “semantics” underlying the occurrences of a noun in corpus data by mapping it to a feature vector. With this choice, we were able to overcome the sparse data problem, demonstrated by an average overall F1-Score of 0.91 for single-sense lexical semantic noun classes, through a combination of reduced dimensionality and “real” numbers. In addition, the WE representations obtained a higher performance in handling the asymmetrical occurrences of each sense of regular polysemous complex-type nouns in corpus data. As a result, we were able to directly classify such nouns into their own lexical-semantic class with an average overall F1-Score of 0.85. The main contribution of this dissertation consists of an empirical validation of different distributional representations used for nominal lexical semantic classification along with a subsequent expansion of previous work, which results in novel lexical resources and data sets that have been made freely available for download and use.
Portocarrero, Rodríguez César Augusto. "Clasificación del territorio peruano de acuerdo con su potencial de agua subterránea utilizando algoritmos de aprendizaje automatizado". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/17705.
Texto completo da fonteMolina, Gómez Nidia Isabel. "Incidencia de la calidad el aire en el desarrollo urbano sostenible. Metodología de pronóstico basado en herramientas de aprendizaje automático". Doctoral thesis, Universitat Politècnica de València, 2021. http://hdl.handle.net/10251/168398.
Texto completo da fonte[CA] La qualitat de l'aire és un determinant de la salut i benestar de les poblacions; la seua millora és part d'algunes metes dels objectius de desenvolupament sostenible (ODS) amb l'Agenda 2030. Sobre aquest tema, s'han definit a nivell mundial protocols, acords, convenis i alineaments de política per a aconseguir avançar en el compliment dels ODS. Existeixen reportes nacionals d'avanç sobre la implementació de metes específiques, segons l'agenda de cada país i en alguns casos en l'àmbit de ciutat, els indicadors de la qual poden integrar-se en les dimensions més conegudes del desenvolupament sostenible: la dimensió ambiental, la social i l'econòmica. Existeix informació sobre el monitoratge de l'estat de la qualitat dels recursos i de les condicions del territori en diversos temes. No obstant això, no en tots els territoris, en les seues diferents escales espacials, es realitza contínua avaluació del seu acompliment sostenible i, a més a més, factors de deterioració ambiental com la contaminació de l'aire, són tractats com a determinants aïllats amb la generació de reportes del seu comportament i el desenvolupament de plans de monitoratge i de mitigació. De la mateixa manera, per als diferents temes que fan part de les dimensions de la sostenibilitat, existeixen eines de modelatge per a avaluar el comportament dels seus indicadors; no obstant això, no es compta amb un instrument que pronostique el nivell d'avanç en el desenvolupament sostenible i a més que identifique la influència de la qualitat de l'aire en el seu comportament. Les eines d'aprenentatge automàtic poden aportar en la resposta a aquesta situació, en ser instruments útils en el pronòstic del comportament d'un conjunt de dades. Per consegüent, l'objectiu central d'aquest treball doctoral és establir la incidència de la qualitat de l'aire sobre el desenvolupament urbà sostenible, en les seues dimensions ambiental, social i econòmica, mitjançant l'ús d'eines d'aprenentatge automàtic, com a suport per a la presa de decisions. Aquest objectiu involucra el disseny i execució d'una metodologia per a identificar la influència d'indicadors en matèria de qualitat de l'aire, sobre el desenvolupament urbà sostenible. Aquest treball doctoral es va desenvolupar com a compendi d'un conjunt de publicacions que inclouen 1) la revisió de l'estat de l'art per a la identificació de les variables i paràmetres que podrien qualificar les dimensions individuals de l'acompliment sostenible, 2) l'avaluació del nivell d'avanç en el desenvolupament sostenible d'una zona urbana i l'anàlisi estadística del seu acompliment sostenible segons les variables analitzades; 3) la identificació, selecció i aplicació de les eines d'aprenentatge automàtic i finalment 4) la identificació del grau d'influència de la qualitat de l'aire en el pronòstic del nivell de sostenibilitat establit. Per a això es va fer ús del programari ArcGIS per a l'anàlisi espacial i del programari d'accés lliure R per a les anàlisis estadístiques i l'aplicació de les eines d'aprenentatge automàtic. Aquesta investigació es va realitzar a partir d'un estudi de cas en una localitat de la ciutat de Bogotà, a Colòmbia que és la capital del país, situada sobre una planícia altitudinal en la serralada oriental i a 2625 metres sobre el nivell de la mar. Bogotà és una de les ciutats més poblades a Amèrica Llatina i és una de les capitals mundials que ha presentat alts nivells de contaminació per material particulat, sent aquest un factor de risc per a la seua població. La metodologia construïda permet avaluar la influència de la qualitat de l'aire en el desenvolupament urbà sostenible mitjançant l'ús d'eines d'aprenentatge automàtic. És aplicable a zones urbanes i orienta el pas a pas per a la determinació dels factors de major rellevància en cadascuna de les dimensions de la sostenibilitat, constituint-se en un instrument de suport per a la presa d
[EN] Air quality is a determinant to the health and well-being of populations; its improvement is part of some of the targets of the Sustainable Development Goals (SDGs) with the 2030 Agenda. In this regard, protocols, agreements, pacts, and policy guidelines have been defined worldwide to progress in the SDGs' achievement. Additionally, there are national progress reports on reaching specific goals, based on each country's agenda. In certain cases, these include city-level reports, whose indicators, both at the national and city levels, can be integrated into the central and best-known dimensions of sustainable development, namely the environmental, social, and economic dimensions. There is information concerning the monitoring of the state of resource quality and territorial conditions in various areas. However, not all territories in their different spatial scales are continuously evaluated for their sustainable performance. Moreover, environmental deterioration factors such as air pollution are handled as isolated determinants with reports generated on their behavior, in addition to developing monitoring and mitigation plans. Likewise, there are modeling tools to evaluate the behavior of different components that are part of the dimensions of sustainability. However, there is no instrument that forecasts the level of progress in sustainable development that also identifies the influence of air quality on its behavior. Machine learning tools can contribute to responding to this situation, as they are able to predict the behavior of a data set. Therefore, the primary objective of this doctoral work is to establish the incidence of air quality on urban sustainable development, in its environmental, social, and economic dimensions, through the use of machine learning tools to support decision-making. This objective entails designing and implementing a methodology to identify the influence of air quality indicators on urban sustainable development. This doctoral thesis was developed as a compendium of a set of publications which include: 1) the review of the state of the art for identifying variables and parameters that could qualify the individual dimensions of sustainable performance; 2) the evaluation of the level of progress of the sustainable development of an urban area, and the statistical analysis of its sustainable performance based on the variables analyzed; 3) the identification, selection, and use of machine learning tools, and lastly 4) the identification of the influence of air quality on the prediction of the established sustainability level. The ArcGIS program was used for the spatial analysis, and the free-access software R for the statistical analysis, and the use of the machine learning tools. This research was performed based on a case study of a locality in the capital of Colombia; Bogotá, which is located on an altitudinal plain in the eastern mountain range at 2625 meters above sea level. Bogotá is one of the most populated cities in Latin America and is one of the world capitals with the highest levels of air pollution from particulate matter, which is a risk factor for its population. The methodology developed enables evaluating the influence of air quality on urban sustainable development with machine learning tools. This methodology is valid in urban areas, and through a step-by-step approach, determines the most relevant factors for each sustainability dimension. It has become a tool to support decision-making regarding the implementation and progress of the SDGs from the micro-territory level.
Molina Gómez, NI. (2021). Incidencia de la calidad el aire en el desarrollo urbano sostenible. Metodología de pronóstico basado en herramientas de aprendizaje automático [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/168398
TESIS
Hernández, Álvarez Myriam. "Concit-Corpus: Context Citation Analysis to learn Function, Polarity and Influence". Doctoral thesis, Universidad de Alicante, 2015. http://hdl.handle.net/10045/50506.
Texto completo da fonteGibert, Llauradó Daniel. "Going Deep into the Cat and the Mouse Game: Deep Learning for Malware Classification". Doctoral thesis, Universitat de Lleida, 2020. http://hdl.handle.net/10803/671776.
Texto completo da fonteLa lucha contra el software malicioso no se ha interrumpido desde los inicios de la era digital, resultando en una carrera armamentística, cíclica e interminable; a medida que los analistas de seguridad y investigadores mejoran sus defensas, los desarrolladores de software malicioso siguen innovando, hallando nuevos vectores de infección y mejorando las técnicas de ofuscación. Recientemente, debido al crecimiento masivo y continuo del malware, se requieren nuevos métodos para complementar los existentes y así poder proteger los sistemas de nuevos ataques y variantes. El objetivo de esta tesis doctoral es el diseño, implementación y evaluación de métodos de aprendizaje automático para la detección y clasificación de software malicioso, debido a su capacidad para manejar grandes volúmenes de datos y su habilidad de generalización. La tesis se ha estructurado en cuatro partes. La primera parte proporciona una descripción completa de los métodos y características empleados para la detección y clasificación de software malicioso. La segunda parte consiste en la automatización del proceso de extracción de características mediante aprendizaje profundo. La tercera parte consiste en la investigación de mecanismos para combinar múltiples modalidades o fuentes de información y así, incrementar la robustez de los modelos de clasificación. La cuarta parte de esta tesis presenta los principales problemas y retos a los que se enfrentan los analistas de seguridad, como el problema de la desigualdad entre el número de muestras por familia, el aprendizaje adverso, entre otros. Asimismo, proporciona una extensa evaluación de los distintos métodos de aprendizaje profundo contra varias técnicas de ofuscación, y analiza la utilidad de estas para aumentar el conjunto de entrenamiento y reducir la desigualdad de muestras por familia.
The fight against malware has never stopped since the dawn of computing. This fight has turned out to be a never-ending and cyclical arms race: as security analysts and researchers improve their defenses, malware developers continue to innovate, and new infection vectors and enhance their obfuscation techniques. Lately, due to the massive growth of malware streams, new methods have to be devised to complement traditional detection approaches and keep pace with new attacks and variants. The aim of this thesis is the design, implementation, and evaluation of machine learning approaches for the task of malware detection and classification, due to its ability to handle large volumes of data and to generalize to never-before-seen malware. This thesis is structured into four main parts. The first part provides a systematic and detailed overview of machine learning techniques to tackle the problem of malware detection and classification. The second part is devoted to automating the feature engineering process through deep learning. The third part of this thesis is devoted to investigating mechanisms to combine multiple modalities of information to increase the robustness of deep learning classifiers. The fourth part of this dissertation discusses the main issues and challenges faced by security researchers such as the availability of public benchmarks for malware research, and the problems of class imbalance, concept drift and adversarial learning. To this end, it provides an extensive evaluation of deep learning approaches for malware classification against common metamorphic techniques, and it explores their usage to augment the training set and reduce class imbalance.
Oramas, Martín Sergio. "Knowledge extraction and representation learning for music recommendation and classification". Doctoral thesis, Universitat Pompeu Fabra, 2017. http://hdl.handle.net/10803/457709.
Texto completo da fonteEn esta tesis, abordamos los problemas de clasificar y recomendar música en grandes colecciones, centrándonos en el enriquecimiento semántico de descripciones (biografías, reseñas, metadatos), y en el aprovechamiento de datos multimodales (textos, audios e imágenes). Primero nos centramos en enlazar textos con bases de conocimiento y en su construcción automatizada. Luego mostramos cómo el modelado de información semántica puede impactar en estudios musicológicos, y contribuye a superar a métodos basados en texto, tanto en similitud como en clasificación y recomendación de música. A continuación, investigamos el aprendizaje de nuevas representaciones de datos a partir de contenidos multimodales utilizando redes neuronales, y lo aplicamos a los problemas de recomendar música nueva y clasificar géneros musicales con múltiples etiquetas, mostrando que el enriquecimiento semántico y la combinación de representaciones aprendidas produce mejores resultados.
Salamon, Justin J. "Melody extraction from polyphonic music signals". Doctoral thesis, Universitat Pompeu Fabra, 2013. http://hdl.handle.net/10803/123777.
Texto completo da fonteLa industria de la música fue una de las primeras en verse completamente reestructurada por los avances de la tecnología digital, y hoy en día tenemos acceso a miles de canciones almacenadas en nuestros dispositivos móviles y a millones más a través de servicios en la nube. Dada esta inmensa cantidad de música al nuestro alcance, necesitamos nuevas maneras de describir, indexar, buscar e interactuar con el contenido musical. Esta tesis se centra en una tecnología que abre las puertas a nuevas aplicaciones en este área: la extracción automática de la melodía a partir de una grabación musical polifónica. Mientras que identificar la melodía de una pieza es algo que los humanos pueden hacer relativamente bien, hacerlo de forma automática presenta mucha complejidad, ya que requiere combinar conocimiento de procesado de señal, acústica, aprendizaje automático y percepción sonora. Esta tarea se conoce en el ámbito de investigación como “extracción de melodía”, y consiste técnicamente en estimar la secuencia de alturas correspondiente a la melodía predominante de una pieza musical a partir del análisis de la señal de audio. Esta tesis presenta un método innovador para la extracción de la melodía basado en el seguimiento y caracterización de contornos tonales. En la tesis, mostramos cómo se pueden explotar las características de contornos en combinación con reglas basadas en la percepción auditiva, para identificar la melodía a partir de todo el contenido tonal de una grabación, tanto de manera heurística como a través de modelos aprendidos automáticamente. A través de una iniciativa internacional de evaluación comparativa de algoritmos, comprobamos además que el método propuesto obtiene resultados punteros. De hecho, logra la precisión más alta de todos los algoritmos que han participado en la iniciativa hasta la fecha. Además, la tesis demuestra la utilidad de nuestro método en diversas aplicaciones tanto de investigación como para usuarios finales, desarrollando una serie de sistemas que aprovechan la melodía extraída para la búsqueda de música por semejanza (identificación de versiones y búsqueda por tarareo), la clasificación del estilo musical, la transcripción o conversión de audio a partitura, y el análisis musical con métodos computacionales. La tesis también incluye un amplio análisis comparativo del estado de la cuestión en extracción de melodía y el primer análisis crítico existente de la metodología de evaluación de algoritmos de este tipo
La indústria musical va ser una de les primeres a veure's completament reestructurada pels avenços de la tecnologia digital, i avui en dia tenim accés a milers de cançons emmagatzemades als nostres dispositius mòbils i a milions més a través de serveis en xarxa. Al tenir aquesta immensa quantitat de música al nostre abast, necessitem noves maneres de descriure, indexar, buscar i interactuar amb el contingut musical. Aquesta tesi es centra en una tecnologia que obre les portes a noves aplicacions en aquesta àrea: l'extracció automàtica de la melodia a partir d'una gravació musical polifònica. Tot i que identificar la melodia d'una peça és quelcom que els humans podem fer relativament fàcilment, fer-ho de forma automàtica presenta una alta complexitat, ja que requereix combinar coneixement de processament del senyal, acústica, aprenentatge automàtic i percepció sonora. Aquesta tasca es coneix dins de l'àmbit d'investigació com a “extracció de melodia”, i consisteix tècnicament a estimar la seqüència de altures tonals corresponents a la melodia predominant d'una peça musical a partir de l'anàlisi del senyal d'àudio. Aquesta tesi presenta un mètode innovador per a l'extracció de la melodia basat en el seguiment i caracterització de contorns tonals. Per a fer-ho, mostrem com es poden explotar les característiques de contorns combinades amb regles basades en la percepció auditiva per a identificar la melodia a partir de tot el contingut tonal d'una gravació, tant de manera heurística com a través de models apresos automàticament. A més d'això, comprovem a través d'una iniciativa internacional d'avaluació comparativa d'algoritmes que el mètode proposat obté resultats punters. De fet, obté la precisió més alta de tots els algoritmes proposats fins la data d'avui. A demés, la tesi demostra la utilitat del mètode en diverses aplicacions tant d'investigació com per a usuaris finals, desenvolupant una sèrie de sistemes que aprofiten la melodia extreta per a la cerca de música per semblança (identificació de versions i cerca per taral•larà), la classificació de l'estil musical, la transcripció o conversió d'àudio a partitura, i l'anàlisi musical amb mètodes computacionals. La tesi també inclou una àmplia anàlisi comparativa de l'estat de l'art en extracció de melodia i la primera anàlisi crítica existent de la metodologia d'avaluació d'algoritmes d'aquesta mena.
"Medidas de diferencia y clasificación automática no paramétrica de datos composicionales". Universitat Politècnica de Catalunya, 2001. http://www.tesisenxarxa.net/TDX-0516101-135345/.
Texto completo da fonteRuscitti, Fernando, e Rodrigo Felice. "Procesamiento de imágenes: paralelización de algoritmos de reconocimiento y clasificación automática de objetos". Tesis, 1997. http://hdl.handle.net/10915/2162.
Texto completo da fonteBustos, Maximiliano David. "Técnicas embedding para clasificación de imágenes en grandes bancos de datos". Bachelor's thesis, 2015. http://hdl.handle.net/11086/2827.
Texto completo da fonteIn this work we consider the problem of large scale image classification using linear embeddings. In an embedding model, a representation of both images (inputs) and classes (outputs) is generated. Then, by comparing these intermediate representations (images and classes) in a common representation space, it is possible to solve problems like classification and image retrieval in a unified manner. Embedding methods are attractive because they allow the projection into spaces of low dimensionality where large scale problems (millions of images and hundreds of thousands of concepts) can be handled efficiently. In particular, we analyze the WSABIE algorithm proposed by [Weston et al., 2011b] which, unlike traditional methods, approaches the learning problem through the optimization of an objective function that considers not only whether the sample was correctly classified, but also the rank of the true label with respect to the k best predictions in a sorted list of possible annotations.
Godoy, Facundo Eduardo. "Métodos clásicos de clasificación : comparación y aplicación". Bachelor's thesis, 2021. http://hdl.handle.net/11086/19768.
Texto completo da fonteLos problemas de clasificación o discriminación son aquellos en los que se dispone de un conjunto de elementos que provienen de dos o más poblaciones conocidas y para cada uno se ha observado una serie de variables explicativas o predictoras. Se desea clasificar un nuevo elemento en alguna de esas poblaciones utilizando los valores, conocidos, de las variables explicativas. Actualmente, los métodos de clasificación son muy estudiados y utilizados en Aprendizaje Automático y Ciencia de Datos pero aparecen en estadística desde los años 30. En este trabajo se estudió el marco teórico de los métodos clásicos de clasificación: Análisis Discriminante Lineal, Análisis Discriminante Cuadrático, Regresión logística y k - vecinos más próximos. Luego, se ideó y llevó a cabo un estudio de simulación para compararlos en distintos escenarios. Por último, se aplicaron y compararon los métodos utilizando un conjunto de datos reales en el contexto la utilización de señales Bluetooth para la trazabilidad de contactos estrechos.
Classification or discrimination problems are a set of elements that come from two or more known populations, and for each one a series of explanatory or predictable variables has been observed. The aim is to classify a new element in any of these populations using the known values of the explanatory variables. Currently, classification methods are widely studied and used in Machine Learning and Data Science; however, they have appeared in statistics since the 30s. In this research, the theoretical framework of the classic classification methods was studied: Linear Discriminant Analysis, Quadratic Discriminant Analysis, Logistic regression and k - nearest neighbors. Afterwards, a simulation study was devised and carried out to compare them in different scenarios. Lastly, these methods were applied and compared using a set of real data in the context of the use of Bluetooth signals for traceability of close contacts.
publishedVersion
Fil: Godoy, Facundo Eduardo. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.