To see the other types of publications on this topic, follow the link: Aprendizaje profundo.

Dissertations / Theses on the topic 'Aprendizaje profundo'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Aprendizaje profundo.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Tirado, Tirado Jhonatan Hamner. "Datación de equimosis usando aprendizaje profundo." Master's thesis, Universidad Nacional Mayor de San Marcos, 2021. https://hdl.handle.net/20.500.12672/17317.

Full text
Abstract:
La datación (determinar la edad) de una equimosis es importante en casos de violencia física, con implicancias medico legales. El método más común consiste en usar escalas de colores, pero estudios demuestran que este método tiene un 50 % de precisión, ya que la evolución de una equimosis es muy variable. Esta tesis propone un método basado en redes neuronales convolucionales profundas para datación de equimosis haciendo uso solo de fotografías. Se construyó un conjunto de datos de fotografías de equimosis a través de un experimento controlado, obteniendo 2140 fotografías, siguiendo un protocolo de captura de imágenes diseñado para esta investigación. Posteriormente, 20 variantes de modelos de redes neuronales convolucionales profundas, basadas en las arquitecturas InceptionV3, Resnet50, MobileNet y MnasNet, fueron entrenados. Se aplicaron técnicas como transferencia de aprendizaje, validación cruzada y aumento de datos. Durante el análisis de los resultados, se halló que los modelos basados en MnasNet tienen el mejor desempeño, con un 97 % de precisión y sensibilidad, y 99.5 % de especificidad, excediendo lo reportado en la literatura. El mejor modelo obtenido fue implementado en una aplicación web, con los requerimientos funcionales definidos por un especialista forense del Instituto de Medicina Legal del Perú.
APA, Harvard, Vancouver, ISO, and other styles
2

Salinas, Gálvez Herminia. "Uso de Internet como herramienta pedagógica para facilitar el aprendizaje elaborativo y profundo." Tesis, Universidad de Chile, 2004. http://www.repositorio.uchile.cl/handle/2250/105941.

Full text
Abstract:
Determinar si el uso de Internet aumenta los estilos de aprendizaje elaborativo y profundo en alumnos de la carrera de Enfermería, que ingresaron el año 2004. Determinar si el uso de Internet aumenta la actitud hacia el trabajo colaborativo en alumnos de la carrera de Enfermería, que ingresaron el año 2004. Determinar si el uso de Internet aumenta el rendimiento académico en la asignatura de Bases Conceptuales de Enfermería en alumnos de primer año de la carrera.
APA, Harvard, Vancouver, ISO, and other styles
3

Zamora, Hernández Mauricio Andrés. "Arquitectura para el control visual de ensamblajes en Industria 4.0 basado en aprendizaje profundo." Doctoral thesis, Universidad de Alicante, 2020. http://hdl.handle.net/10045/115750.

Full text
Abstract:
En Costa Rica, el tipo de empresa que sobresale en el mercado es el de las Micro, Pequeñas y Medianas Empresas (MiPyMEs). Para este tipo de empresas, la calidad y consistencia de los productos son elementos diferenciadores para competir en el mercado. Además, estás empresas tiene recursos económicos limitados para implementar tecnologías que le permitan incursionar en la cuarta revolución industrial. Aunque las MiP y MEs, y en concreto las del sector manufacturero, son consideradas uno de los motores económico del país, estás entidades no suelen tener ayudas del gobierno para desarrollarse digitalmente. Esto situación nos motivó a plantear un estudio para encontrar la manera en que se puede ayudar a las MiP y MEs a mejorar los procesos de manufactura. Debido principalmente a que en este tipo de negocios se basan en trabajos manuales, con personal poco cualificado; por lo que estos elementos afectan directamente la calidad de los productos desde su concepción. Se planteó un sistema de control de calidad visual que ayude a controlar la calidad durante la fase de producción, incentivando así el desarrollo de productos de calidad. Para este propósito se plantean soluciones basadas en técnicas de Visión por computadora (CV), junto con algoritmos de Machine Learning y arquitecturas de Deep Learning. Esta tesis doctoral se inició realizando una revisión del estado del arte sobre los procesos de interacción humano-robot (HRI), sistemas de control automático de calidad en los sistemas de producción, aplicación de la CV en entornos de manufactura, utilización de arquitecturas de Deep Learningy las bases de datos de imágenes de herramientas, piezas y componentesr equeridos para la manufactura. Así como bases de datos de vídeos de acciones. El resultado del estudio sirvió como base para el desarrollo del estado del arte y el conocimiento de las técnicas actuales de Deep Learning que permiten identificar objetos y acciones; particularmente para el control de la producción con operarios. Por lo que se logró evidenciar que no existían soluciones inteligentes basada en visión que permitan controlar secuencias de ensamble en la producción manual. Tras este estudio del estado del arte, se ha propuesto una arquitectura de visión por computador, reconocimiento de objetos y acciones, además de un lenguaje descriptivo. Se compone de tres módulos principales, el primero de ellos se encarga del procesamiento visual; donde se identifican los objetos y sus ubicaciones, también se reconocen las acciones ejecutadas por el operario. El segundo módulo se encarga del procesamiento del lenguaje que describe las acciones, que va ser utilizado luego para evaluar la ejecución del operario. Y el último módulo se encarga de tomar las salidas de los dos módulos anteriores, para determinar si realmente realiza el ensamble como está estipulado. Además, la arquitectura es capaz de establecer cuáles son las acciones siguientes que debe realizar el operario, para proveerle información de las herramientas o partes que debe tomar para continuar y minimizar los errores por uso incorrecto de herramientas o partes. Es importante señalar que, además de la arquitectura, este trabajo también genera como resultado, dos bases de datos. Debido a que, durante la investigación del estado del arte tampoco se logró determinar la existen-da de bases de datos para el entrenamiento de redes para la detección de herramientas o acciones de manufactura. La primera base de datos es de imágenes de herramientas, partes y componentes comunes de manufactura y la segunda se compone de videos de acciones comunes en los procesos de ensamblaje. También se propuso la generación de un lenguaje que permite describir las acciones necesarias para un proceso de ensamble. Mediante una secuencia de manufactura descrita con este lenguaje, se puede comparar un proceso de manufactura con las instrucciones que se van detectando en tiempo real. Determinando si el operario sigue los pasos tal y como fueron diseñados por los expertos en el diseño de productos. Este lenguaje, en conjunto con el módulo de verificación de acciones, permite que el sistema genere predicciones de las siguientes instrucciones o acciones.
APA, Harvard, Vancouver, ISO, and other styles
4

Mahncke, Torres Margarita. "Enfoques de aprendizaje y de estudio de los estudiantes universitarios." Doctoral thesis, Universitat Ramon Llull, 2010. http://hdl.handle.net/10803/9274.

Full text
Abstract:
Aquest treball de recerca té per objectiu determinar com aborden l'aprenentatge els estudiants universitaris i quins són els factors que expliquen la seva adopció d'un o altre enfocament.

S'aborda el tema sota el paradigma dels diferents Enfocaments d'Aprenentatge que descriu la manera com els estudiants entenen el seu aprenentatge considerant la intenció particular del subjecte i la relació entre el subjecte i el context en què es troba.

Per recollir les dades s'ha utilitzat l'adaptació al castellà del qüestionari dissenyat per John Biggs denominat Qüestionari sobre el Procés d'Estudi. Les dades obtingudes a través d'aquest qüestionari ens han permès conèixer si els estudiants adopten un enfocament a l'hora d'aprendre superficial, profund o d'èxit en les diferents assignatures que cursen.

Els resultats indiquen que els enfocaments es relacionen estretament amb algunes metodologies d'ensenyament que els promouen o inhibeixen, Així com amb els sistemes d'avaluació de l'aprenentatge.
Este trabajo de investigación tiene por objetivo determinar cómo abordan su aprendizaje los estudiantes universitarios y qué influye en su adopción de tal o cual enfoque de estudio.

Se aborda el tema bajo el paradigma Enfoques de Aprendizajes que describe la manera de cómo los estudiantes abordan un contenido de aprendizaje considerando la intención particular del sujeto y la relación entre el sujeto y el contexto en el que se encuentra.

Para ello fue utilizado el cuestionario preparado por John Biggs denominado Cuestionario sobre el Proceso de Estudio. El resultado de este Cuestionario permitió conocer qué enfoques de aprendizaje, superficial, profundo o de logro, los estudiantes adoptan para abordar las exigencias de aprendizaje de las asignaturas que cursan.

Además, encontramos que los enfoques se relacionan estrechamente con algunas metodologías de enseñanza que los promueven o inhiben, como por ejemplo las evaluaciones del aprendizaje.
This research work aims to determine how universities students address their learning and what influences their decision of what approach to study to about.

It uses the Learning Approaches paradigm which describes the way students address a learning content, considering the particular intention of the students and the relationship between them and the context in where they learn.

To this end, it used the questionnaire prepared by John Biggs called Study Process Questionnaire (SPQ). The result of this questionnaire allowed to know what approaches to learning, achievement, superficial or deep, students adopt to address the learning requirements in the classes they take.

In addition, we find that these approaches are closely related to some of the methods of teaching promoting or inhibiting them, such as learning assessments.
APA, Harvard, Vancouver, ISO, and other styles
5

Bejar, Espejo Eduardo Alberto Martín. "Control de un sistema de posicionamiento magnético de dos dimensiones usando aprendizaje profundo por refuerzo." Master's thesis, Pontificia Universidad Católica del Perú, 2018. http://tesis.pucp.edu.pe/repositorio/handle/123456789/12934.

Full text
Abstract:
Los sistemas de posicionamiento magnético son preferidos respecto a sus contrapartes mecánicas en aplicaciones que requieren posicionamiento de alta precisión como en el caso de la manufactura de circuitos integrados. Esto se debe a que los actuadores electromagnéticos no sufren los efectos de la fricción seca o desgaste mecánico. Sin embargo, estos sistemas poseen fuertes no linealidades que dificultan la tarea de control. Por otro lado, el aprendizaje por refuerzo se ha posicionado como una técnica de entrenamiento de redes neuronales prometedora que está permitiendo resolver varios problemas complejos. Por ejemplo, el aprendizaje por refuerzo fue capaz de entrenar redes neuronales que han logrado vencer al campeón mundial de Go, derrotar a varios jugadores profesionales de ajedrez y aprender a jugar varios videojuegos de la consola Atari. Asimismo, estas redes neuronales están permitiendo la manipulación de objetos por brazos robóticos, un problema que era muy difícil de resolver por medio de técnicas tradicionales. Por esta razón, el presente trabajo tiene como objetivo diseñar un controlador neuronal entrenado por refuerzo para el control de un sistema de posicionamiento magnético de dos dimensiones. Se utiliza una variación del algoritmo Deep Deterministic Policy Gradient (DDPG) para el entrenamiento del controlador neuronal. Los resultados obtenidos muestran que el controlador diseñado es capaz de alcanzar varios setpoints asignados y de realizar el seguimiento de una trayectoria dada.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
6

Opazo, Barboza Juan Diego. "Detección e inspección de torres de alta tensión mediante procesamiento de imágenes aéreas y aprendizaje profundo." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/15976.

Full text
Abstract:
La presente tesis muestra el diseño de un algoritmo que detecta torres de alta tensión y clasifica el nivel de corrosión que presenta. El sistema recibe las imágenes capturadas por un dron que se desplaza por toda la línea de transmisión. Esta tesis forma parte de un proyecto que tiene como propósito la automatización del proceso de inspección de torres de alta tensión. En cuanto a la metodología, se establecieron 3 etapas donde cada una tiene su propio modelo de aprendizaje profundo. Primero, se tiene un detector basado en la arquitectura RCNN y VGG16 para obtener las coordenadas donde se encuentra ubicado el objeto de interés. Segundo, se tuvo que añadir un clasificador de torres, basado en la arquitectura Alexnet con optimizador Adam, ya que había una gran presencia de falsos positivos en la salida del detector debido a la poca cantidad de imágenes en el conjunto de datos. Tercero, se presenta un clasificador de corrosión, basado en la arquitectura VGG16 y optimizador Adam, que etiqueta, la región extraída y clasificada como en la salida de la etapa previa, con una de las 3 nomenclaturas: alta corrosión, baja corrosión e indeterminado. Finalmente, los resultados finales mostraron una precisión promedio de 0.6 en la etapa del detector, precisión del 99.5% al clasificar la torre, la cual refleja una mínima presencia de falsos positivos, y una exactitud del 89.5% al momento de etiquetar el nivel de corrosión del objeto detectado.
Trabajo de investigación
APA, Harvard, Vancouver, ISO, and other styles
7

Chicchón, Apaza Miguel Angel. "Fusión de datos para segmentación semántica en aplicaciones urbanas de teledetección aérea usando algoritmos de aprendizaje profundo." Master's thesis, Pontificia Universidad Católica del Perú, 2018. http://hdl.handle.net/20.500.12404/14459.

Full text
Abstract:
La creciente urbanización requiere un mapeo y monitoreo preciso del sistema urbano para planificar futuros desarrollos. La teledetección permite obtener información de la superficie de la Tierra y a partir de esta comprender el proceso de urbanización. Esta información hoy en dia puede ser obtenida en forma masiva utilizando vehículos aéreos no tripulados. Esta información puede ser variada incluyendo imágenes ópticas rgb, multiespectrales y modelos digitales de superficie, generandose la necesida de contar con técnicas de fusión multisensorial eficientes y efectivas para explotarlas completamente. La segmentación semántica en teledetección urbana permite la interpretación automática de los datos y es útil en tareas como el mapeo de la cobertura terrestre y la planificación urbana. Actualmente, el aprendizaje profundo se ha vuelto de interés en Visión por computador y Teledetección, existiendo diferentes estudios de la aplicación de variantes de redes neuronales convolucionales (CNN) en segmentación semántica. En el presente trabajo de tesis se investiga la utilización de métodos de fusión de datos basado en algoritmos de aprendizaje profundo para la segmentación semántica en aplicaciones urbanas de teledetección.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
8

Torres, Rivera Andrés. "Detección y extracción de neologismos semánticos especializados: un acercamiento mediante clasificación automática de documentos y estrategias de aprendizaje profundo." Doctoral thesis, Universitat Pompeu Fabra, 2019. http://hdl.handle.net/10803/667928.

Full text
Abstract:
En el campo de la neología, se han desarrollado diferentes acercamientos metodológicos para la detección y extracción de neologismos semánticos empleando estrategias como la desambiguación semántica y el modelado de temas, pero todavía no existe una propuesta de un sistema para la detección de estas unidades. A partir de un estudio detallado sobre los supuestos teóricos necesarios para delimitar y describir los neologismos semánticos, en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciar dichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizaje automático. La metodología planteada se basa en el tratamiento del proceso de detección y extracción como un problema de clasificación, que consiste en analizar la concordancia de temas entre el campo semántico del significado principal de una palabra y el texto en el que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cinco métodos de clasificación automática supervisada y tres modelos para la generación de representaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpus de análisis está compuesto por los neologismos semánticos del ámbito de la informática pertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fabra, que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluar los distintos métodos que implementa el sistema: clasificación automática, extracción de palabras a partir de contextos cortos y generación de listas de palabras similares. Este primer acercamiento metodológico busca establecer un marco de referencia en materia de detección y extracción de neologismos semánticos.
Dins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics per a la detecció i extracció de neologismes semàntics amb tècniques com la desambiguació semàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema per a la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòrics necessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposem el desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançant estratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologia que es planteja es basa en el tractament del procés de detecció i extracció com un problema de classificació, que consisteix a analitzar la concordança de temes entre el camp semàntic del significat principal d’una paraula i el text en què es troba aquesta paraula. Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificació automàtica supervisada i tres models per a la generació de representacions vectorials de paraules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismes semàntics de l'àmbit de la informàtica pertanyents a la base de dades de l’Observatori de Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a 2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema: classificació automàtica, extracció de paraules a partir de contextos breus i generació de llistes de paraules similars. Aquesta primera aproximació metodològica busca establir un marc de referència en matèria de detecció i extracció de neologismes semàntics.
Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique, mais il n’existe aucun système complet de détection de néologismes sémantiques. Avec une étude détaillée des hypothèses théoriques nécessaires pour délimiter et décrire les néologismes sémantiques, nous proposons dans cette thèse le développement d’une application qui permet d’identifier et d’extraire ces unités à travers de méthodes statistiques, d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en œuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.
In the field of neology, different methodological approaches for the detection and extraction of semantic neologisms have been developed using strategies such as word sense disambiguation and topic modeling, but there is still not a proposal for a system for the detection of these units. Beginning from a detailed study on the necessary theoretical assumptions required to delimit and describe semantic neologisms, in this thesis, we propose the development of an application to identify and extract said units using statistical, data mining and machine learning strategies. The proposed methodology is based on treating the process of detection and extraction as a classification task, which consists on analyzing the concordance of topics between the semantic field from the main meaning of a word and the text where it is found. To build the architecture of the proposed system, we analyzed five automatic classification methods and three deep learning based word embedding models. Our analysis corpus is composed of the semantic neologisms of the computer science field belonging to the database of the Observatory of Neology of the Pompeu Fabra University, which have been registered from 1989 to 2015. We used this corpus to evaluate the different methods that our system implements: automatic classification, keyword extraction from short contexts, and similarity list generation. This first methodological approach aims to establish a framework of reference in terms of detection and extraction of semantic neologisms.
APA, Harvard, Vancouver, ISO, and other styles
9

Pina, Otey Sebastian. "Deep Learning and Bayesian Techniques applied to Big Data in Industry and Neutrino Oscillations." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/671967.

Full text
Abstract:
Les oscil·lacions de neutrins són un fenomen complex d’interès teòric i experimental en física fonamental, estudiat a través d’experiments diversos, com la col·laboració T2K situada al Japó. T2K es compon de dues instal·lacions, que produeixen i mesuren les interaccions de neutrins per obtenir una millor comprensió de les seves oscil·lacions mitjançant l’anàlisi de dades en forma d’inferència de paràmetres, simulació de models i resposta del detector. Mitjançant aquest treball, s’aplicaran tècniques modernes de deep learning en forma d’estimadors de densitat neuronals i xarxes neuronals sobre grafs i es verificaran a fons en casos d’ús de T2K, avaluant-ne els beneficis i les mancances en comparació amb els mètodes tradicionals. Addicionalment, es parlarà d’un ús industrial d’aquestes metodologies per a la xarxa elèctrica espanyola.
Las oscilaciones de neutrinos son un fenómeno complejo de interés teórico y experimental en la física fundamental, estudiado a través de diversos experimentos, como la Colaboración T2K ubicada en Japón. T2K se compone de dos instalaciones, que producen y miden las interacciones de neutrinos para comprender mejor sus oscilaciones a través del análisis de datos en forma de inferencia de parámetros, simulación de modelos y respuesta del detector. A través de este trabajo, las técnicas modernas de deep learning en forma de estimadores de densidad neuronales y redes neuronales sobre grafos se aplicarán y verificarán a fondo en los casos de uso de T2K, evaluando sus beneficios y deficiencias en comparación con los métodos tradicionales. Adicionalmente se discutirá un uso industrial de estas metodologías para la red eléctrica española.
Neutrino oscillations are a complex phenomenon of theoretical and experimental interest in fundamental physics, studied through diverse experiments, such as the T2K Collaboration situated in Japan. T2K is composed of two facilities, which produce and measure neutrino interactions to get a better understanding of their oscillations through data analysis in the form of parameter inference, model simulation and detector response. Through this work, state-of-the-art deep learning techniques in the form of neural density estimators and graph neural networks will be applied and thoroughly verified in T2K use cases, assessing their benefits and shortcomings compared to traditional methods. Additionally an industrial usage of these methodologies for the Spanish electrical network will be discussed.
Universitat Autònoma de Barcelona. Programa de Doctorat en Física
APA, Harvard, Vancouver, ISO, and other styles
10

Córdova, Pérez Claudia Sofía. "Aplicación de aprendizaje profundo para la detección y clasificación automática de insectos agrícolas en trampas pegantes: una revisión de literatura." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/18092.

Full text
Abstract:
El presente trabajo de investigación busca hacer una revisión sistemática sobre las técnicas actuales que se usan para solucionar problemas de identificación y clasificación de plagas de insectos, los cuales pueden ser para detectar uno o más tipos de insectos. Dentro de esta revisión, se encontró soluciones como algoritmos de segmentación con cambio de espacio de color, lo cual permite remover el fondo de una imagen y centrarse únicamente en el objeto de interés; también, el uso de modelos de detección, por ejemplo YOLO y Faster R-CNN, los cuales están conformados por redes neuronales convolucionales para lograr la identificación de insectos plaga; además, se encontraron soluciones que hacían uso de SLIC (Simple Linear Iterative Clustering), así como el uso de un análisis multifractal. Un aspecto relevante a tomar en cuenta para saber qué tan eficientes están siendo estas soluciones son las métricas de evaluación con sus respectivos valores obtenidos; sin embargo, estos resultados solo pueden ser comparables si se usa el mismo dataset para entrenamiento y validación. Por consiguiente y dado que la mayoría de estudios recopilados usa un conjunto de datos propio, los resultados mostrados nos sirven para tener una idea de la eficacia de sus soluciones, mas no para comparar los valores de las métricas de evaluación de los distintos aproximamientos tomados en cada estudio revisado. Finalmente, el único insecto plaga que afecta los campos de hortalizas en el Perú y fue encontrado dentro de los estudios fue la mosca blanca. Los demás estudios abordan el problema de detección con otros tipos de insectos, los cuales no son relevantes para el problema de plagas en Perú, sin embargo, sus soluciones son consideradas pues el cambio que se tendría que hacer es en el conjunto de datos que alimenta a las soluciones presentadas en los estudios encontrados.
Trabajo de investigación
APA, Harvard, Vancouver, ISO, and other styles
11

Reyes, Jainaga Ignacio Alfredo. "Monitoreo y aprendizaje de redes neuronales utilizando medidas de información y su aplicación en detección de eventos astronómicos transitorios." Tesis, Universidad de Chile, 2019. http://repositorio.uchile.cl/handle/2250/170542.

Full text
Abstract:
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Eléctrica
Memoria para optar al título de Ingeniero Civil Eléctrico
Durante los últimos años, las redes neuronales profundas han mostrado excelentes resultados en múltiples tareas. Sin embargo, estos modelos son percibidos como "cajas negras", cuyos procesos internos no son comprendidos del todo. Dados los prometedores resultados alcanzados, estos modelos se proyectan como herramientas de gran utilidad en astronomía y otras áreas. Sin embargo, si se quieren utilizar para la toma automática de decisiones es necesario comprender mejor los principios fundamentales que rigen el comportamiento de las redes. En esta tesis se propone utilizar la teoría de la información para analizar el flujo de información en redes neuronales. Primero se analizan teóricamente algunas operaciones utilizadas en las redes neuronales, explicando los mecanismos mediante los cuales se destruye la información. Segundo, se monitorean las representaciones internas de los datos en la red durante el entrenamiento usando dos medidas de información. La primera medida utilizada es la "suficiencia", que corresponde a la información mutua entre la representación y las etiquetas, mientras que la segunda es una nueva medida propuesta llamada "robustez", que corresponde a la información mutua entre las etiquetas y la representación contaminada con ruido aditivo gaussiano. Tercero, se propone un algoritmo para aprender representaciones basado en la optimización de la robustez. Cuarto, se diseña un algoritmo capaz de entrenar redes neuronales completas, tanto redes MLP como redes neuronales convolucionales. Por otra parte se introduce Deep-HiTS, una red convolucional para detectar eventos astronómicos transitorios, la cual se entrena con datos semi-sintéticos construidos desde observaciones del High cadence Transient Survey (HiTS). Al comparar los resultados de Deep-HiTS con un modelo Random Forests y características diseñadas a mano, se observa que la red obtiene un error de clasificación de 0.53 % versus un 1.04 % del Random Forests. Usando las herramientas propuestas, se monitorea el flujo de información en las representaciones internas de Deep-HiTS. Además se entrena una red Deep-HiTS con arquitectura simplificada con el método propuesto basado en teoría de la información. Los experimentos verifican el cumplimiento de la desigualdad de procesamiento de información y el aumento de la suficiencia durante el aprendizaje. Los valores de suficiencia medidos sobre versiones reducidas de las representaciones reflejan la construcción jerárquica de características en las redes profundas. En el caso de Deep-HiTS, las propiedades medidas permiten cuantificar la dificultad del problema y muestran cómo fluye la información a través de la red. Los experimentos de aprendizaje muestran que los algoritmos propuestos permiten entrenar modelos efectivamente, aunque con un desempeño subóptimo. Varias mejoras posibles para el algoritmo de entrenamiento propuesto se describen en trabajo futuro.
Programa de formación de capital humano avanzado de CONICYT, a través de la Beca de Magíster Nacional 2016 número 22162464
APA, Harvard, Vancouver, ISO, and other styles
12

De, la Torre Gallart Jordi. "Diabetic Retinopathy Classification and Interpretation using Deep Learning Techniques." Doctoral thesis, Universitat Rovira i Virgili, 2019. http://hdl.handle.net/10803/667077.

Full text
Abstract:
La retinopatia diabètica és una malaltia crònica i una de les principals causes de ceguesa i discapacitat visual en els pacients diabètics. L'examen ocular a través d'imatges de la retina és utilitzat pels metges per detectar les lesions relacionades amb aquesta malaltia. En aquesta tesi, explorem diferents mètodes innovadors per a la classificació automàtica del grau de malaltia utilitzant imatges del fons d'ull. Per a aquest propòsit, explorem mètodes basats en l'extracció i classificació automàtica, basades en xarxes neuronals profundes. A més, dissenyem un nou mètode per a la interpretació dels resultats. El model està concebut de manera modular per a que pugui ser utilitzat en d'altres xarxes i dominis de classificació. Demostrem experimentalment que el nostre model d'interpretació és capaç de detectar lesions de retina a la imatge únicament a partir de la informació de classificació. A més, proposem un mètode per comprimir la representació interna de la informació de la xarxa. El mètode es basa en una anàlisi de components independents sobre la informació del vector d'atributs intern de la xarxa generat pel model per a cada imatge. Usant el nostre mètode d'interpretació esmentat anteriorment també és possible visualitzar aquests components en la imatge. Finalment, presentem una aplicació experimental del nostre millor model per classificar imatges de retina d'una població diferent, concretament de l'Hospital de Reus. Els mètodes proposats arriben al nivell de rendiment de l'oftalmòleg i són capaços d'identificar amb gran detall les lesions presents en les imatges, que es dedueixen només de la informació de classificació de la imatge.
La retinopatía diabética es una enfermedad crónica y una de las principales causas de ceguera y discapacidad visual en los pacientes diabéticos. El examen ocular a través de imágenes de la retina es utilizado por los médicos para detectar las lesiones relacionadas con esta enfermedad. En esta tesis, exploramos diferentes métodos novedosos para la clasificación automática del grado de enfermedad utilizando imágenes del fondo de la retina. Para este propósito, exploramos métodos basados en la extracción y clasificación automática, basadas en redes neuronales profundas. Además, diseñamos un nuevo método para la interpretación de los resultados. El modelo está concebido de manera modular para que pueda ser utilizado utilizando otras redes y dominios de clasificación. Demostramos experimentalmente que nuestro modelo de interpretación es capaz de detectar lesiones de retina en la imagen únicamente a partir de la información de clasificación. Además, proponemos un método para comprimir la representación interna de la información de la red. El método se basa en un análisis de componentes independientes sobre la información del vector de atributos interno de la red generado por el modelo para cada imagen. Usando nuestro método de interpretación mencionado anteriormente también es posible visualizar dichos componentes en la imagen. Finalmente, presentamos una aplicación experimental de nuestro mejor modelo para clasificar imágenes de retina de una población diferente, concretamente del Hospital de Reus. Los métodos propuestos alcanzan el nivel de rendimiento del oftalmólogo y son capaces de identificar con gran detalle las lesiones presentes en las imágenes, que se deducen solo de la información de clasificación de la imagen.
Diabetic Retinopathy is a chronic disease and one of the main causes of blindness and visual impairment for diabetic patients. Eye screening through retinal images is used by physicians to detect the lesions related with this disease. In this thesis, we explore different novel methods for the automatic diabetic retinopathy disease grade classification using retina fundus images. For this purpose, we explore methods based in automatic feature extraction and classification, based on deep neural networks. Furthermore, as results reported by these models are difficult to interpret, we design a new method for results interpretation. The model is designed in a modular manner in order to generalize its possible application to other networks and classification domains. We experimentally demonstrate that our interpretation model is able to detect retina lesions in the image solely from the classification information. Additionally, we propose a method for compressing model feature-space information. The method is based on a independent component analysis over the disentangled feature space information generated by the model for each image and serves also for identifying the mathematically independent elements causing the disease. Using our previously mentioned interpretation method is also possible to visualize such components on the image. Finally, we present an experimental application of our best model for classifying retina images of a different population, concretely from the Hospital de Reus. The methods proposed, achieve ophthalmologist performance level and are able to identify with great detail lesions present on images, inferred only from image classification information.
APA, Harvard, Vancouver, ISO, and other styles
13

Gibert, Llauradó Daniel. "Going Deep into the Cat and the Mouse Game: Deep Learning for Malware Classification." Doctoral thesis, Universitat de Lleida, 2020. http://hdl.handle.net/10803/671776.

Full text
Abstract:
La lluita contra el programari maliciós no s'ha interromput mai des dels inicis de l'era digital, esdevenint una carrera armamentística cíclica i interminable; a mesura que els analistes en seguretat i investigadors milloren les seves defenses, els desenvolupadors de programari maliciós continuen innovant, trobant nous vectors d'infecció i millorant les tècniques d'ofuscació. Recentment, degut al creixement massiu i continu del programari maliciós, es requereixen nous mètodes per a complementar els existents i així poder protegir satisfactòriament els sistemes de nous atacs i variants. L'objectiu d'aquesta tesis doctoral és el disseny, implementació i avaluació de mètodes d'aprenentatge automàtic per a la detecció i classificació de programari maliciós, a causa de la seva capacitat per a manipular grans volums de dades així com la seva habilitat de generalització. La recerca s'ha estructurat en quatre parts. La primera part proporciona una descripció completa dels mètodes i característiques utilitzats per a la detecció i classicació de programari maliciós. La segona part consisteix en l'automatització del procés d'extracció de característiques utilitzant tècniques d'aprenentatge profund. La tercera part consisteix en la investigació de mecanismes per a combinar múltiples modalitats o fonts d'informació per a incrementar la robustesa dels classificadors basats en aprenentatge profund. La quarta part d'aquesta tesis presenta els principals problemes i reptes als que s'enfronten els analistes en seguretat, com el problema de la desigualtat entre el nombre de mostres per família, l'aprenentatge advers, entre altres. Tanmateix, proporciona una extensa avaluació dels diferents mètodes d'aprenentatge automàtic contra vàries tècniques d'ofuscació, i analitza la utilitat d'aquestes per a augmentar el conjunt de dades d'entrenament i reduir la desigualtat de mostres per família.
La lucha contra el software malicioso no se ha interrumpido desde los inicios de la era digital, resultando en una carrera armamentística, cíclica e interminable; a medida que los analistas de seguridad y investigadores mejoran sus defensas, los desarrolladores de software malicioso siguen innovando, hallando nuevos vectores de infección y mejorando las técnicas de ofuscación. Recientemente, debido al crecimiento masivo y continuo del malware, se requieren nuevos métodos para complementar los existentes y así poder proteger los sistemas de nuevos ataques y variantes. El objetivo de esta tesis doctoral es el diseño, implementación y evaluación de métodos de aprendizaje automático para la detección y clasificación de software malicioso, debido a su capacidad para manejar grandes volúmenes de datos y su habilidad de generalización. La tesis se ha estructurado en cuatro partes. La primera parte proporciona una descripción completa de los métodos y características empleados para la detección y clasificación de software malicioso. La segunda parte consiste en la automatización del proceso de extracción de características mediante aprendizaje profundo. La tercera parte consiste en la investigación de mecanismos para combinar múltiples modalidades o fuentes de información y así, incrementar la robustez de los modelos de clasificación. La cuarta parte de esta tesis presenta los principales problemas y retos a los que se enfrentan los analistas de seguridad, como el problema de la desigualdad entre el número de muestras por familia, el aprendizaje adverso, entre otros. Asimismo, proporciona una extensa evaluación de los distintos métodos de aprendizaje profundo contra varias técnicas de ofuscación, y analiza la utilidad de estas para aumentar el conjunto de entrenamiento y reducir la desigualdad de muestras por familia.
The fight against malware has never stopped since the dawn of computing. This fight has turned out to be a never-ending and cyclical arms race: as security analysts and researchers improve their defenses, malware developers continue to innovate, and new infection vectors and enhance their obfuscation techniques. Lately, due to the massive growth of malware streams, new methods have to be devised to complement traditional detection approaches and keep pace with new attacks and variants. The aim of this thesis is the design, implementation, and evaluation of machine learning approaches for the task of malware detection and classification, due to its ability to handle large volumes of data and to generalize to never-before-seen malware. This thesis is structured into four main parts. The first part provides a systematic and detailed overview of machine learning techniques to tackle the problem of malware detection and classification. The second part is devoted to automating the feature engineering process through deep learning. The third part of this thesis is devoted to investigating mechanisms to combine multiple modalities of information to increase the robustness of deep learning classifiers. The fourth part of this dissertation discusses the main issues and challenges faced by security researchers such as the availability of public benchmarks for malware research, and the problems of class imbalance, concept drift and adversarial learning. To this end, it provides an extensive evaluation of deep learning approaches for malware classification against common metamorphic techniques, and it explores their usage to augment the training set and reduce class imbalance.
APA, Harvard, Vancouver, ISO, and other styles
14

Zhang, Lichao. "Towards end-to-end vetworks for visual tracking in RGB and TIR videos." Doctoral thesis, Universitat Autònoma de Barcelona, 2019. http://hdl.handle.net/10803/669696.

Full text
Abstract:
Siendo un tema de investigación fundamental, el seguimiento visual juega un importante papel en la visión por computador. Se ha aplicado extensamente en diversos campos, incluyendo la conducción autónoma, navegación y robótica. El objetivo del seguimiento visual es estimar la trayectoria de un objeto en una secuencia de imágenes, habiendo seleccionado manualmente el objeto en el primer fotograma del video. El seguimiento se considera una tarea compleja debido a la gran grama de variaciones que presentan los videos del mundo real. En los últimos años, los métodos de aprendizaje profundo entrenados de extremo-a-extremo han dominado la investigación sobre seguimiento. El seguimiento visual se puede aplicar a diferentes modalidades tales como RGB o infrarrojo térmico (TIR). En esta tesis, identificamos varios problemas de los sistemas de seguimiento actuales. La falta de conjuntos de datos etiquetados a gran escala dificulta el uso del aprendizaje profundo, especialmente en relación al entrenamiento de extremo-a-extremo para el seguimiento de imágenes TIR. Por lo tanto, numerosos métodos para el seguimiento en TIR todavía se basan en representaciones diseñadas manualmente. Esta situación también ocurre en el seguimiento multimodal, como por ejemplo, el seguimiento en RGB-T. Otra razón que dificulta el desarrollo del seguimiento RGB-T es que existe poca investigación sobre los mecanismos de fusión para combinar imágenes de modalidades RGB y TIR. Por otra parte, uno de los componentes más importantes de la mayoría de los seguidores es el módulo de actualización. En las arquitecturas de seguimiento de extremo-a-extremo actuales, como por ejemplo los seguidores Siameses, la actualización en línea del modelo no se tiene en cuenta durante la etapa de entrenamiento. Suelen utilizar una estrategia de actualización lineal durante la etapa de inferencia, o no actualizan el modelo en absoluto. A pesar de los positivos resultados obtenidos mediante esta actualización diseñada a mano, su simplicidad limita la ganancia potencial que se podría obtener al aprender a actualizar de manera automática. Para abordar la escasez de datos para el seguimiento TIR y RGB-T, proponemos la traducción de imagen-a-imagen para generar un conjunto de datos TIR sintéticos a gran escala. Este conjunto de datos nos permite realizar una entrenamiento de extremo-a-extremo para el seguimiento TIR. Además, investigamos varios mecanismos de fusión para el seguimiento RGB-T. Los seguidores multimodales también reciben entrenamiento de extremo-a-extremo sobre los datos sintéticos. Para mejorar la actualización en línea estándar, planteamos la tarea de actualización como un problema de optimización que puede resolverse mediante el entrenamiento de una red neuronal. Por lo tanto, nuestro enfoque reduce los componentes diseñados a mano en el proceso de seguimiento y da un paso más en la dirección de una red de seguimiento entrenada de extremo-a-extremo que incluye la actualización durante la optimización. Extensos experimentos en varios conjuntos de datos de referencia de las modalidades RGB, TIR y RGB-T demuestran la eficacia de los métodos propuestos. Específicamente, los datos sintéticos de TIR son efectivos para el entrenamiento de extremo-a-extremo, nuestros mecanismos de fusión superan a los equivalentes de modalidad única, y nuestra red de actualización supera a la actualización lineal estándar.
As a fundamental research topic, visual tracking plays an important role in computer vision. It has been widely applied in many fields, including autonomous driving, navigation, and robotics. The target of visual tracking is to estimate the trajectory of an object in a sequence of images, where the object is selected manually in the first frame. Tracking is regarded as a difficult task because real-world videos exhibit a large range of variations. In recent years end-to-end training of deep learning methods has dominated tracking research. Visual tracking can be applied to different modalities, such as RGB and thermal infrared (TIR). In this thesis, we identify several problems of current tracking systems. The lack of large-scale labeled datasets hampers the usage of deep learning, especially end-to-end training, for tracking in TIR images. Therefore, many methods for tracking on TIR data are still based on hand-crafted features. This situation also happens in multi-modal tracking, e.g. RGB-T tracking. Another reason, which hampers the development of RGB-T tracking, is that there exists little research on the fusion mechanisms for combining information from RGB and TIR modalities. One of the crucial components of most trackers is the update module. For the currently existing end-to-end tracking architecture, e.g, Siamese trackers, the online model update is still not taken into consideration at the training stage. They use no-update or a linear update strategy during the inference stage. While such a hand-crafted approach to updating has led to improved results, its simplicity limits the potential gain likely to be obtained by learning to update. To address the data-scarcity for TIR and RGB-T tracking, we use image-to-image translation to generate a large-scale synthetic TIR dataset. This dataset allows us to perform end-to-end training for TIR tracking. Furthermore, we investigate several fusion mechanisms for RGB-T tracking. The multi-modal trackers are also trained in an end-to-end manner on the synthetic data. To improve the standard online update, we pose the updating step as an optimization problem which can be solved by training a neural network. Our approach thereby reduces the hand-crafted components in the tracking pipeline and sets a further step in the direction of a complete end-to-end trained tracking network which also considers updating during optimization. Extensive experiments on several benchmark datasets from the RGB, TIR and RGB-T modalities demonstrate the effectiveness of our proposed methods. Specifically, synthetic TIR data is effective for end-to-end training, our fusion mechanisms outperform the single modality counterparts, and our update network outperforms the standard linear update.
APA, Harvard, Vancouver, ISO, and other styles
15

Paredes, Salazar Diego José. "Predicción temporal de calidad del aire en Lima a partir de datos de estaciones de bajo costo y Aprendizaje Automático: una revisión de literatura." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/20140.

Full text
Abstract:
El presente trabajo explora los estudios en los cuales se utilizan técnicas de aprendizaje profundo para realizar predicción temporal de calidad del aire, de manera que se pueda comprender que características tendrían los modelos de aprendizaje profundo que tienen un mejor rendimiento con para realizar esta tarea y puedan utilizarse como línea base para desarrollar modelos similares en el contexto de la ciudad de lima. Esta revisión de literatura se realiza con el objetivo de poder obtener los modelos de aprendizaje profundo que estén teniendo un mejor rendimiento en la actualidad al predecir temporalmente la calidad del aire mediante un procedimiento que garantice objetividad y reproducción de resultados. Para ello, se realiza una revisión sistemática de literatura que garantiza el uso de procedimientos estructurados y definidos para conocer las preguntas de investigación que guían la exploración de los estudios de predicción temporal de calidad del aire, los motores de búsqueda considerados para la revisión y las cadenas de búsqueda asociadas tanto a las preguntas de investigación como los motores de búsqueda, de manera que estas se puedan ejecutar y reproducir la obtención de estudios. Las respuestas se reportan en un formulario de extracción con datos relacionados a las arquitecturas de aprendizaje profundo, limitaciones de los modelos empleados y el rendimiento obtenido por cada modelo en cada estudio. Al finalizar el estudio, se concluye que se puede desarrollar un modelo basado en una arquitectura adecuada de aprendizaje profundo para poder atacar el problema de la predicción inadecuada de calidad del aire en Lima al percatar su efectividad reportada en la literatura para otras localidades en el mundo, considerando que dichos modelos deben tomarse únicamente como una línea base y que deben ajustarse a la localidad de Lima para obtener predicciones adecuadas a su entorno.
Trabajo de investigación
APA, Harvard, Vancouver, ISO, and other styles
16

Glöde, Isabella. "Autonomous control of a mobile robot with incremental deep learning neural networks." Master's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/18676.

Full text
Abstract:
Over the last few years autonomous driving had an increasingly strong impact on the automotive industry. This created an increased need for artificial intelligence algo- rithms which allow for computers to make human-like decisions. However, a compro- mise between the computational power drawn by these algorithms and their subsequent performance must be found to fulfil production requirements. In this thesis incremental deep learning strategies are used for the control of a mobile robot such as a four wheel steering vehicle. This strategy is similar to the human approach of learning. In many small steps the vehicle learns to achieve a specific goal. The usage of incremental training leads to growing knowledge-base within the system. It also provides the opportunity to use older training achievements to improve the system, when more training data is available. To demonstrate the capabilities of such an algorithm, two different models have been formulated. First, a more simple model with counter wheel steering, and second, a more complex, nonlinear model with independent steering. These two models are trained incrementally to follow different types of trajectories. Therefore an algorithm was established to generate useful initial points. The incremental steps allow the robot to be positioned further and further away from the desired trajectory in the environ- ment. Afterwards, the effects of different trajectory types on model behaviour are investigated by over one thousand simulation runs. To do this, path planning for straight lines and circles are introduced. This work demonstrates that even simulations with simple network structures can have high performance.
APA, Harvard, Vancouver, ISO, and other styles
17

Jiménez-Pérez, Guillermo. "Deep learning and unsupervised machine learning for the quantification and interpretation of electrocardiographic signals." Doctoral thesis, Universitat Pompeu Fabra, 2022. http://hdl.handle.net/10803/673555.

Full text
Abstract:
Las señales electrocardiográficas, ya sea adquiridas en la piel del paciente (electrocardiogamas de superficie, ECG) o de forma invasiva mediante cateterismo (electrocardiogramas intracavitarios, iECG) ayudan a explorar la condición y función cardíacas del paciente, dada su capacidad para representar la actividad eléctrica del corazón. Sin embargo, la interpretación de las señales de ECG e iECG es una tarea difícil que requiere años de experiencia, con criterios diagnósticos complejos para personal clínico no especialista, que en muchos casos deben ser interpretados durante situaciones de gran estrés o carga de trabajo como en la unidad de cuidados intensivos, o durante procedimientos de ablación por radiofrecuencia (ARF) donde el cardiólogo tiene que interpretar cientos o miles de señales individuales. Desde el punto de vista computacional, el desarrollo de herramientas de alto rendimiento mediante técnicas de análisis basadas en datos adolece de la falta de bases de datos anotadas a gran escala y de la naturaleza de “caja negra” que están asociados con los algoritmos considerados estado del arte en la actualidad. Esta tesis trata sobre el entrenamiento de algoritmos de aprendizaje automático que ayuden al personal clínico en la interpretación automática de ECG e iECG. Esta tesis tiene cuatro contribuciones principales. En primer lugar, se ha desarrollado una herramienta de delineación del ECG para la predicción de los inicios y finales de las principales ondas cardíacas (ondas P, QRS y T) en registros compuestos de cualquier configuración de derivaciones. En segundo lugar, se ha desarrollado un algoritmo de generación de datos sintéticos que es capaz de paliar el impacto del reducido tamaño de las bases de datos existentes para el desarrollo de algoritmos de delineación. En tercer lugar, la metodología de análisis de datos de ECG se aplicó a datos similares, en registros electrocardiográficos intracavitarios, con el mismo objetivo de marcar inicios y finales de activaciones locales y de campo lejano para facilitar la localización de sitios de ablación adecuados en procedimientos de ARF. Para este propósito, el algoritmo de delineación del ECG de superficie desarrollado previamente fue empleado para preprocesar los datos y marcar la detección del complejo QRS. En cuarto y último lugar, el algoritmo de delineación de ECG de superficie fue empleado, junto con un algoritmo de reducción de dimensionalidad, Multiple Kernel Learning, para agregar la información del ECG de 12 derivaciones y lograr la identificación de marcadores que permitan la estratificación del riesgo de muerte súbita cardíaca en pacientes con cardiomiopatía hipertrófica.
Electrocardiographic signals, either acquired on the patient’s skin (surface electrocardiogam, ECG) or invasively through catheterization (intracavitary electrocardiogram, iECG) offer a rich insight into the patient’s cardiac condition and function given their ability to represent the electrical activity of the heart. However, the interpretation of ECG and iECG signals is a complex task that requires years of experience, difficulting the correct diagnosis for non-specialists, during stress-related situations such as in the intensive care unit, or in radiofrequency ablation (RFA) procedures where the physician has to interpret hundreds or thousands of individual signals. From the computational point of view, the development of high-performing pipelines from data analysis suffer from lack of large-scale annotated databases and from the “black-box” nature of state-of-the-art analysis approaches. This thesis attempts at developing machine learning-based algorithms that aid physicians in the task of automatic ECG and iECG interpretation. The contributions of this thesis are fourfold. Firstly, an ECG delineation tool has been developed for the markup of the onsets and offsets of the main cardiac waves (P, QRS and T waves) in recordings comprising any configuration of leads. Secondly, a novel synthetic data augmentation algorithm has been developed for palliating the impact of small-scale datasets in the development of robust delineation algorithms. Thirdly, this methodology was applied to similar data, intracavitary electrocardiographic recordings, with the objective of marking the onsets and offsets of events for facilitating the localization of suitable ablation sites. For this purpose, the ECG delineation algorithm previously developed was employed to pre-process the data and mark the QRS detection fiducials. Finally, the ECG delineation approach was employed alongside a dimensionality reduction algorithm, Multiple Kernel Learning, for aggregating the information of 12-lead ECGs with the objective of developing a pipeline for risk stratification of sudden cardiac death in patients with hypertrophic cardiomyopathy.
APA, Harvard, Vancouver, ISO, and other styles
18

Tupayachi, Silva José Alberto. "Propuesta de mejora en el planeamiento de la producción de botellas aplicando un MPS y pronósticos basados en Deep Learning en una empresa productiva y envasadora de agua en el Callao." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/18958.

Full text
Abstract:
En los últimos tres años el nivel de venta de agua embotellada para consumo humano en el Perú muestra un crecimiento en las ventas realizadas por las empresas productoras a los supermercados, bodegas, mercados y tiendas de conveniencias, esto se evidencia en el incremento del 3.9% de este sector productivo al cierre del 2017. La facturación de las grandes cadenas de supermercados a nivel nacional ha alcanzado los 14,000 000 PEN con un crecimiento del 5.3% respecto al año 2016. Esto demuestra que este sector económico está en crecimiento por el alto consumo de agua embotellada. La presente empresa a analizar se dedica a la producción de agua embotellada de marca propia y de maquila para sus principales clientes: Cencosud Retail S.A. y Supermercados Peruanos S.A., empresa joven y mediana con 43 trabajadores en planilla presente en el ámbito nacional, de importante participación en el mercado, que a partir del 2017 ha experimentado un fuerte crecimiento tras la priorización de la producción del cliente Supermercados Peruanos S.A en la presente empresa. Sus productos cuentan con 69% de participación a nivel supermercados y en el 2018 presenta un posicionamiento en el mercado que se encuentra dentro del 10.4%, compartiendo el mercado nacional con grandes embotelladoras como AB InBev, CBC Perú, Arca Continental e ISM, cabe resaltar que su portafolio de productos en primer trimestre del 2019 presenta la siguiente composición: Bells 48.04%, Wong 12.32%, Metro 28.11%, Selfie 11.53%. Lo cual representa un crecimiento en ventas respecto al trimestre anterior del 8%, el cual se provee ser mantenido. El aumento de pedidos de la presentación de 2.5L Bells, ha ocasionado que la falta de una planeación en la demanda y el incorrecto manejo de almacenes comiencen a generar problemas incumplimiento de pedidos, en promedio 17% entre los cuales se encuentran el abastecimiento incompleto a clientes, penalidades por entrega tardía, roturas en el stock de producto terminado, baja calidad del producto entre otros. El proceso critico de la empresa se presenta en las áreas de producción y logística. En primer lugar, actualmente se utilizan metodologías para el cálculo de la demanda que no corresponden a la realidad, dado esto, la producción se basa en los pedidos actuales. No se mantiene ningún pronóstico de la demanda útil para producción y se carece de un sistema de inventarios. Como resultado se genera que se incurra en el incumplimiento de los pedidos, acrecentado por el incremento de las ventas en estos últimos años. Se puede observar, según datos del último trimestre del año 2019 la cantidad de agua tratada requerida en diferentes presentaciones ascendió a la cantidad de: 538312.2 L. En segundo lugar, se evidencia de que existe una cantidad considerable de mermas en distintas fases del proceso productivo, se observa que la utilización del agua tratada tiene una eficacia de aproximadamente el 40%, para las etapas de llenado, sellado y empacado, existe un nivel de merma del 8.8% en promedio el cual comprende los recursos utilizados en cada etapa del proceso productivo respectivamente, dado al uso excesivo de las horas extras y de la utilización de los equipos hasta su falla . Se verifico que el número de horas extras por mes en el último trimestre del año 2019 alcanzo 628,5 horas extras en distintas posiciones, es decir se requiere de dichas horas adicionales para la culminación de los pedidos. Lo presente lleva a concluir que se debe plantear una reingeniería en la planificación, inventarios y ritmo de trabajo. Se propondrá solucionar los problemas actuales de la empresa mediante la implementación de un MPS Master Production Schedule a partir del análisis de la demanda apoyado por la aplicación de herramientas de analítica de datos con el cual se pretende implementar un modelo de Deep Learning LTSM y consecuentemente desarrollar una correcta planificación de la producción, establecer un sistema de inventarios y aumentar la productividad a través del TaktTime.
APA, Harvard, Vancouver, ISO, and other styles
19

Yacolca, Huamán Karla Lucía. "Estudio de atipia celular utilizando redes neuronales convolucionales: aplicación en tejidos de cáncer de mama." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/18219.

Full text
Abstract:
La escala de Nottingham (NGS) se emplea para poder determinar el grado del cáncer de mama, y tiene 3 criterios a considerar: formación tubular, atipia nuclear y conteo de mitosis. A partir de los puntajes parciales de cada criterio se obtiene el grado del cáncer. Para poder asignar cada puntaje, el patólogo analiza, de forma manual, cada una de las muestras de tejido. La patología computacional surge como una alternativa para simplificar la tarea de análisis de tejido, pues integra la tecnología WSI (Whole Side Imaging), la cual permite obtener imágenes de tejido en formato digital, con herramientas de análisis de imágenes. El procesamiento de imágenes se realiza de dos formas: por medio de algoritmos de procesamiento clásico y algoritmos de aprendizaje profundo. Estos últimos emplean redes neuronales, las cuales automatizan el proceso de análisis de imágenes, y permiten generalizar el modelo ante variantes en las imágenes de entrada. En el presente trabajo se muestra el estudio del criterio de atipia nuclear empleando redes neuronales convolucionales, las cuales son un tipo de arquitectura de aprendizaje profundo, aplicado a tejidos de cáncer de mama. Además, se presenta el modelo de solución para poder asignar el puntaje al tejido según el criterio mencionado.
Trabajo de investigación
APA, Harvard, Vancouver, ISO, and other styles
20

Jiménez, Sánchez Amelia. "Learning representations for medical image diagnosis: impact of curriculum training and architectural design." Doctoral thesis, Universitat Pompeu Fabra, 2021. http://hdl.handle.net/10803/672839.

Full text
Abstract:
This thesis investigates two key aspects of learning deep-based image representations for medical diagnosis. The two are confronted with common challenges of medical image databases, namely, the limited number of samples, the presence of unreliable annotations and class-imbalance; as well as, domain shift and data privacy constraints for collaborative learning across institutions. The first part of this thesis concerns the architectural design of deep learning approaches. We explore the importance of localizing the region of interest in the image prior to the classification and the implicit capsule networks’ approach to model spatial information. We verify the importance of localization as a preliminary step to the classification, provide a sensitivity analysis of the size of the region of interest, and discuss image retrieval as a clinical use case. We also validate that capsules create equivariance, thus requiring to see fewer viewpoints of the object of interest. The second part of the thesis focuses on easing the optimization of the deep network parameters by gradually increasing the difficulty of the training samples. This gradual increase is based on the concept of curriculum learning and achieved with a data scheduler that controls the order and pace of the samples. We validate the beneficial effect of the curriculum data schedulers in two scenarios. First, we leveraged prior knowledge and uncertainty for the fine-grained classification of proximal femur fractures. In this case, we demonstrated the benefits of our proposed curriculum method under controlled scenarios: with limited amounts of data, under class-imbalance, and in the presence of label noise. Second, we verified the positive effect of the curriculum data scheduler for multi-site breast cancer classification in a federated learning setup.
Esta tesis investiga dos aspectos fundamentales del aprendizaje de representaciones profundas de imágenes para el diagnóstico médico. Ambos se enfrentan a los retos comunes de las bases de datos de imágenes médicas, a saber, el número limitado de muestras, la presencia de anotaciones poco fiables y el desequilibrio de clases; así como, la adaptación al dominio (“domain adaptation”) y las restricciones de privacidad de datos para el aprendizaje colaborativo entre instituciones. La primera parte de esta tesis se centra en el diseño de arquitecturas para métodos de aprendizaje profundo (“deep learning”). Exploramos la importancia de localizar la región de interés en la imagen antes de la clasificación y el enfoque implícito de redes capsulares (“capsule networks”) para modelar la información espacial. Verificamos la importancia de la localización como paso previo a la clasificación, proporcionamos un análisis de sensibilidad del tamaño de la región de interés y discutimos la recuperación de imágenes como caso de uso clínico. También validamos que las cápsulas crean equidistancia, por lo que requieren ver menos puntos de vista del objeto de interés. La segunda parte de la tesis se enfoca en facilitar la optimización de los parámetros de la red aumentando gradualmente la dificultad de las muestras de entrenamiento. Este aumento gradual se basa en el concepto de aprendizaje curricular (“curriculum learning”) y se consigue con un programador de datos (“data scheduler”) que controla el orden y el ritmo de las muestras. Validamos el efecto beneficioso de los programadores de datos curriculares en dos escenarios. En primer lugar, aprovechamos el conocimiento previo y la incertidumbre para la clasificación granular de las fracturas de fémur proximal. En este caso, demostramos los beneficios de nuestro método basado en aprendizaje curricular bajo escenarios controlados: con cantidades limitadas de datos, desequilibrio de clases y en presencia de anotaciones imprecisas. En segundo lugar, verificamos el efecto positivo del planificador de datos para la clasificación del cáncer de mama en una configuración de aprendizaje federado (“federated learning”).
APA, Harvard, Vancouver, ISO, and other styles
21

Soria, Poma Xavier. "Single sensor multi-spectral imaging." Doctoral thesis, Universitat Autònoma de Barcelona, 2019. http://hdl.handle.net/10803/669763.

Full text
Abstract:
Actualmente el sensor de imagen está normando la industria del teléfono inteligente. Mientras algunas marcas de telefonía exploran añadiendo más cámaras, otros como Google, le mantienen con un solo sensor a sus teléfonos inteligentes; pero este sensor está equipado con Deep Learning (DL) para mejorar la calidad de imagen. Sin embargo, en lo que todas las marcas estan de acuerdo es en la necesidad de investigar en los nuevos sensores de imagen; por ejemplo, Omnivisión y PixelTeq (fabricantes de sensores de imagen) presentaron en el 2015 nuevos sensores basados en la tecnología CMOS denominado multispectral single sensors (SSCs). Esta disertación presenta los beneficios de usar un SSC multiespectral que como se mencionó arriba, simultáneamente adquiere imágenes de las bandas visible e infrarrojo cercano (NIR). El principal beneficio cuando se trabajó con imágenes del rango espectral desde 400 a 1100 nanómetros, es la reducción de costo en la configuración del hardware. Solo se requiere una cámara SSC en vez de dos; además, la calibración de cámaras y el registrado de imágenes ya no son requeridas. Con relación a la banda espectral NIR, aunque esta banda es la más cercana a la banda visible y comparte algunas propiedades, la sensibilidad del sensor depende del material de la escena debido a que el comportamiento en la absorción/reflejo capturada de una escena es distinta al canal visible. Muchos trabajos en la literatura han probado los beneficios de trabajar con NIR (por ejemplo para mejorar la calidad de imágenes RGB, remover sombras, quitar neblina, etc). A pesar de las ventajas de usar SSC (por ejemplo baja latencia) existen inconvenientes a ser resueltos. Uno de esos inconvenientes corresponde a la naturaleza del sensor, que además de capturar imagen RGB, cuando no tiene instalado en filtro NIR, también captura información del espectro NIR. Este fenómeno es conocido como RGB y NIR cruzado. Esta tesis primeramente aborda este problema en imágenes complejas y seguidamente muestra las bondades de usar imágenes multiespectrales en la tarea de detección de bordes. La restauración de color desde una imagen RGBN es el tema relacionado al fenómeno RGB y NIR cruzado. Aunque en la literatura se propone un conjunto de procesos para resolver este problema, en esta tesis se proponen distintos enfoques, basados en DL, para sustraer la información NIR adicional que está en los canales RGB. Más precisamente, se propone una Artificial Neural Network (ANN) y dos Convolutional Neural Networks (CNN); como los métodos son basados en DL, se genera una base de datos con pares de imágenes (RGB infectada con NIR y solo RGB). Las imágenes adquiridas son de escenarios complejos con suficiente radiación solar para estudiar las propiedades de absorción/reflejo a las escenas consideradas. Se ha llevado acabo una evaluación profunda del modelo CNN, las diferencias de muchas de las imágenes restauradas son casi imperceptible al ojo humano. La siguiente propuesta de esta tesis es la validación del uso de las imágenes obtenidas en SSC en la tarea de detección de bordes. Tres métodos basados en CCN son propuestos. Mientras el primero se basa en uno de los modelos más usados en la literatura, Hollistically-nested edge detection (HED) denominado multispectral HED (MS-HED), los otros dos son propuestos luego de observar las limitaciones de MS-HED. Estas dos nuevas arquitecturas han sido diseñadas desde cero para usar solo esa configuración (entrenando desde cero); una vez que la primera arquitectura es válida en el dominio visible, un pequeño rediseño es propuesto al modelo original para abordar el problema multiespectral. Al igual que en el caso anterior, una base de datos es generada para abordar el problema de la detección de bordes. Aunque la detección de bordes es abordada en el dominio multiespectral, sus resultados cuantitativos y cualitativos demuestran la generalización en otros conjuntos de datos usados para detección de bordes, alcanzando resultados del estado del arte.
The image sensor, nowadays, is rolling the smartphone industry. While some phone brands explore equipping more image sensors, others, like Google, maintain their smartphones with just one sensor; but this sensor is equipped with Deep Learning to enhance the image quality. However, what all brands agree on is the need to research new image sensors; for instance, in 2015 Omnivision and PixelTeq (sensor manufacturers) presented new CMOS based image sensors, which are capable of capturing multispectral bands, these sensors are defined as multispectral Single Sensor Camera (SSC). This dissertation presents the benefits of using a multispectral SSCs that, as aforementioned, simultaneously acquires images in the visible and near-infrared (NIR) bands. The principal benefits while addressing problems related to image bands in the spectral range of 400 to 1100 nanometers, there are cost reductions in the hardware setup because only one SSC is needed instead of two; moreover, the cameras’ calibration and images alignment are not required any more. Concerning to the NIR spectrum, even though this band is close to the visible band and shares many properties, the sensor sensitivity is material dependent due to different behavior of absorption/reflectance capturing a given scene compared to visible channels. Many works in literature have proven the benefits of working with NIR to enhance RGB images (e.g., image enhancement, remove shadows in the RGB images, dehazing, etc.). In spite of the advantage of using SSC (e.g., low latency), there are some drawback to be solved. One of this drawback corresponds to the nature of the silicon-based sensor, which in addition to capture the RGB image, when the infrared cut off filter is not installed it also acquires NIR information into the visible image. This phenomenon is called RGB and NIR crosstalking. This thesis firstly faces this problem in challenging images and then it shows the benefit of using multispectral images in the edge detection task. The RGB color restoration from RGBN image is the topic tackled in RGB and NIR crosstalking. Even though in the literature a set of processes have been proposed to face this issue, in this thesis novel approaches, based on DL, are proposed to subtract the additional NIR included in the RGB channel. More precisely, an Artificial Neural Network (NN) and two Convolutional Neural Network (CNN) models are proposed; as the DL based models need a dataset with a large collection of image pairs (RGB infected by NIR and target RGB image), a large dataset is collected to address the color restoration. The collected images are from challenging scenes where the sunlight radiation is sufficient to give absorption/reflectance properties to the considered scenes. An extensive evaluation has been conducted on the CNN models, differences from most of the restored images are almost imperceptible to the human eye. The next proposal of the thesis is the validation of the usage of SSC images in the edge detection task. Three methods based on CNN have been proposed. While the first one is based on the most used model, holistically-nested edge detection (HED) termed as multispectral HED (MS-HED), the other two have been proposed observing the drawbacks of MS-HED. These two novel architectures have been designed from scratch (training from scratch); after the first architecture is validated in the visible domain a slight redesign is proposed to tackle the multispectral domain. Again, another dataset is collected to face this problem with SSCs. Even though edge detection is confronted in the multispectral domain, its qualitative and quantitative evaluation demonstrates the generalization in other datasets used for edge detection, improving state-of-the-art results.
APA, Harvard, Vancouver, ISO, and other styles
22

Romero, Adriana. "Assisting the training of deep neural networks with applications to computer vision." Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/316577.

Full text
Abstract:
Deep learning has recently been enjoying an increasing popularity due to its success in solving challenging tasks. In particular, deep learning has proven to be effective in a large variety of computer vision tasks, such as image classification, object recognition and image parsing. Contrary to previous research, which required engineered feature representations, designed by experts, in order to succeed, deep learning attempts to learn representation hierarchies automatically from data. More recently, the trend has been to go deeper with representation hierarchies. Learning (very) deep representation hierarchies is a challenging task, which involves the optimization of highly non- convex functions. Therefore, the search for algorithms to ease the learning of (very) deep representation hierarchies from data is extensive and ongoing. In this thesis, we tackle the challenging problem of easing the learning of (very) deep representation hierarchies. We present a hyper-parameter free, off-the-shelf, simple and fast unsupervised algorithm to discover hidden structure from the input data by enforcing a very strong form of sparsity. We study the applicability and potential of the algorithm to learn representations of varying depth in a handful of applications and domains, highlighting the ability of the algorithm to provide discriminative feature representations that are able to achieve top performance. Yet, while emphasizing the great value of unsupervised learning methods when labeled data is scarce, the recent industrial success of deep learning has revolved around supervised learning. Supervised learning is currently the focus of many recent research advances, which have shown to excel at many computer vision tasks. Top performing systems often involve very large and deep models, which are not well suited for applications with time or memory limitations. More in line with the current trends, we engage in making top performing models more efficient, by designing very deep and thin models. Since training such very deep models still appears to be a challenging task, we introduce a novel algorithm that guides the training of very thin and deep models by hinting their intermediate representations. Very deep and thin models trained by the proposed algorithm end up extracting feature representations that are comparable or even better performing than the ones extracted by large state-of-the-art models, while compellingly reducing the time and memory consumption of the model.
APA, Harvard, Vancouver, ISO, and other styles
23

Yesiler, M. Furkan. "Data-driven musical version identification: accuracy, scalability and bias perspectives." Doctoral thesis, Universitat Pompeu Fabra, 2022. http://hdl.handle.net/10803/673264.

Full text
Abstract:
This dissertation aims at developing audio-based musical version identification (VI) systems for industry-scale corpora. To employ such systems in industrial use cases, they must demonstrate high performance on large-scale corpora while not favoring certain musicians or tracks above others. Therefore, the three main aspects we address in this dissertation are accuracy, scalability, and algorithmic bias of VI systems. We propose a data-driven model that incorporates domain knowledge in its network architecture and training strategy. We then take two main directions to further improve our model. Firstly, we experiment with data-driven fusion methods to combine information from models that process harmonic and melodic information, which greatly enhances identification accuracy. Secondly, we investigate embedding distillation techniques to reduce the size of the embeddings produced by our model, which reduces the requirements for data storage and, more importantly, retrieval time. Lastly, we analyze the algorithmic biases of our systems.
En esta tesis se desarrollan sistemas de identificación de versiones musicales basados en audio y aplicables en un entorno industrial. Por lo tanto, los tres aspectos que se abordan en esta tesis son el desempeño, escalabilidad, y los sesgos algorítmicos en los sistemas de identificación de versiones. Se propone un modelo dirigido por datos que incorpora conocimiento musical en su arquitectura de red y estrategia de entrenamiento, para lo cual se experimenta con dos enfoques. Primero, se experimenta con métodos de fusión dirigidos por datos para combinar la información de los modelos que procesan información melódica y armónica, logrando un importante incremento en la exactitud de la identificación. Segundo, se investigan técnicas para la destilación de embeddings para reducir su tamaño, lo cual reduce los requerimientos de almacenamiento de datos, y lo que es más importante, del tiempo de búsqueda. Por último, se analizan los sesgos algorítmicos de nuestros sistemas.
APA, Harvard, Vancouver, ISO, and other styles
24

Slizovskaia, Olga. "Audio-visual deep learning methods for musical instrument classification and separation." Doctoral thesis, Universitat Pompeu Fabra, 2020. http://hdl.handle.net/10803/669963.

Full text
Abstract:
In music perception, the information we receive from a visual system and audio system is often complementary. Moreover, visual perception plays an important role in the overall experience of being exposed to a music performance. This fact brings attention to machine learning methods that could combine audio and visual information for automatic music analysis. This thesis addresses two research problems: instrument classification and source separation in the context of music performance videos. A multimodal approach for each task is developed using deep learning techniques to train an encoded representation for each modality. For source separation, we also study two approaches conditioned on instrument labels and examine the influence that two extra sources of information have on separation performance compared with a conventional model. Another important aspect of this work is in the exploration of different fusion methods which allow for better multimodal integration of information sources from associated domains.
En la percepción musical, normalmente recibimos por nuestro sistema visual y por nuestro sistema auditivo informaciones complementarias. Además, la percepción visual juega un papel importante en nuestra experiencia integral ante una interpretación musical. Esta relación entre audio y visión ha incrementado el interés en métodos de aprendizaje automático capaces de combinar ambas modalidades para el análisis musical automático. Esta tesis se centra en dos problemas principales: la clasificación de instrumentos y la separación de fuentes en el contexto de videos musicales. Para cada uno de los problemas, se desarrolla un método multimodal utilizando técnicas de Deep Learning. Esto nos permite obtener -a través del aprendizaje- una representación codificada para cada modalidad. Además, para el problema de la separación de fuentes, también proponemos dos modelos condicionados a las etiquetas de los instrumentos, y examinamos la influencia que tienen dos fuentes de información extra en el rendimiento de la separación -comparándolas contra un modelo convencional-. Otro aspecto importante de este trabajo se basa en la exploración de diferentes modelos de fusión que permiten una mejor integración multimodal de fuentes de información de dominios asociados.
En la percepció visual, és habitual que rebem informacions complementàries des del nostres sistemes visual i auditiu. A més a més, la percepció visual té un paper molt important en la nostra experiència integral davant una interpretació musical. Aquesta relació entre àudio i visió ha fet créixer l'interès en mètodes d’aprenentatge automàtic capaços de combinar ambdues modalitats per l’anàlisi musical automàtic. Aquesta tesi se centra en dos problemes principals: la classificació d'instruments i la separació de fonts en el context dels vídeos musicals. Per a cadascú dels problemes, s'ha desenvolupat un mètode multimodal fent servir tècniques de Deep Learning. Això ens ha permès d'obtenir – gràcies a l’aprenentatge- una representació codificada per a cada modalitat. A més a més, en el cas del problema de separació de fonts, també proposem dos models condicionats a les etiquetes dels instruments, i examinem la influència que tenen dos fonts d’informació extra sobre el rendiment de la separació -tot comparant-les amb un model convencional-. Un altre aspecte d’aquest treball es basa en l’exploració de diferents models de fusió, els quals permeten una millor integració multimodal de fonts d'informació de dominis associats.
APA, Harvard, Vancouver, ISO, and other styles
25

Oramas, Martín Sergio. "Knowledge extraction and representation learning for music recommendation and classification." Doctoral thesis, Universitat Pompeu Fabra, 2017. http://hdl.handle.net/10803/457709.

Full text
Abstract:
In this thesis, we address the problems of classifying and recommending music present in large collections. We focus on the semantic enrichment of descriptions associated to musical items (e.g., artists biographies, album reviews, metadata), and the exploitation of multimodal data (e.g., text, audio, images). To this end, we first focus on the problem of linking music-related texts with online knowledge repositories and on the automated construction of music knowledge bases. Then, we show how modeling semantic information may impact musicological studies and helps to outperform purely text-based approaches in music similarity, classification, and recommendation. Next, we focus on learning new data representations from multimodal content using deep learning architectures, addressing the problems of cold-start music recommendation and multi-label music genre classification, combining audio, text, and images. We show how the semantic enrichment of texts and the combination of learned data representations improve the performance on both tasks.
En esta tesis, abordamos los problemas de clasificar y recomendar música en grandes colecciones, centrándonos en el enriquecimiento semántico de descripciones (biografías, reseñas, metadatos), y en el aprovechamiento de datos multimodales (textos, audios e imágenes). Primero nos centramos en enlazar textos con bases de conocimiento y en su construcción automatizada. Luego mostramos cómo el modelado de información semántica puede impactar en estudios musicológicos, y contribuye a superar a métodos basados en texto, tanto en similitud como en clasificación y recomendación de música. A continuación, investigamos el aprendizaje de nuevas representaciones de datos a partir de contenidos multimodales utilizando redes neuronales, y lo aplicamos a los problemas de recomendar música nueva y clasificar géneros musicales con múltiples etiquetas, mostrando que el enriquecimiento semántico y la combinación de representaciones aprendidas produce mejores resultados.
APA, Harvard, Vancouver, ISO, and other styles
26

Pires, João Miguel Neves Gusmão. "Aprendizagem profunda: estudo e aplicações." Master's thesis, Universidade de Évora, 2017. http://hdl.handle.net/10174/23224.

Full text
Abstract:
Esta tese aborda o tema da Aprendizagem Profunda, estudando-o através da comparação de várias frameworks e utilizando um conjunto de dados composto por imagens de algarismos manuscritos. As frameworks utilizadas para o estudo foram algumas das mais conhecidas, como o Caffe, Theano e TensorFlow, entre outras; realizou-se também um estudo mais aprofundado da Theano com o Keras, TensorFlow com o Keras e Microsoft CNTK. Foi analisado o desempenho de algoritmos pertencentes a três paradigmas da aprendizagem automática (supervisionada, semi-supervisionada e não supervisionada) através do conjunto de imagens de algarismos manuscritos. À data em que foi realizado este trabalho de investigação, constata-se que os métodos de aprendizagem profunda são significativamente melhores do que os existentes na aprendizagem automática, quando os dados são supervisionados ou semi-supervisionados. No que diz ao trabalho com dados não supervisionados, conclui-se que o desenvolvimento ainda está numa fase embrionária. Com este tipo de dados, criam-se modelos que representem uma boa aproximação da realidade; ABSTRACT: This thesis is a study about Deep Learning, comparing various frameworks and using images and manuscript numeric characters datasets. The used frameworks for this study where the most well known, like Caffe, Theano and TensorFlow, among outhers; within this study another one where made focused in Theano with Keras, TensorFlow with Keras and Microsoft CNTK. Taking in account three types of Machine Learning (supervised, semi-supervised and unsupervised) the performance of some algorithms where analyzed using images and manuscripts numbers datasets. At the date when this research study was made, it is verified that the deep learning methods were significatively better than the one’s used in machine learning, when the data are supervised or semi-supervised. When the data is unsuperived, concludes that the development is in the begining. Trying to get a better aproach to build models that could be used with this kind of data.
APA, Harvard, Vancouver, ISO, and other styles
27

Kushibar, Kaisar. "Automatic segmentation of brain structures in magnetic resonance images using deep learning techniques." Doctoral thesis, Universitat de Girona, 2020. http://hdl.handle.net/10803/670766.

Full text
Abstract:
This PhD thesis focuses on the development of deep learning based methods for accurate segmentation of the sub-cortical brain structures from MRI. First, we have proposed a 2.5D CNN architecture that combines convolutional and 2/2 spatial features. Second, we proposed a supervised domain adaptation technique to improve the robustness and consistency of deep learning model. Third, an unsupervised domain adaptation method was proposed to eliminate the requirement of manual intervention to train a deep learning model that is robust to differences in the MRI images from multi-centre and multi-scanner datasets. The experimental results for all the proposals demonstrated the effectiveness of our approaches in accurately segmenting the sub-cortical brain structures and has shown state-of-the-art performance on well-known publicly available datasets
Esta tesis doctoral se centra en el desarrollo de métodos basados en el aprendizaje profundo para la segmentación precisa de las estructuras cerebrales subcorticales a partir de la resonancia magnética. En primer lugar, hemos propuesto una arquitectura 2.5D CNN que combina características convolucionales y espaciales. En segundo lugar, hemos propuesto una técnica de adaptación de dominio supervisada para mejorar la robustez y la consistencia del modelo de aprendizaje profundo. En tercer lugar, hemos propuesto un método de adaptación de dominio no supervisado para eliminar el requisito de intervención manual para entrenar un modelo de aprendizaje profundo que sea robusto a las diferencias en las imágenes de la resonancia magnética de los conjuntos de datos multicéntricos y multiescáner. Los resultados experimentales de todas las propuestas demostraron la eficacia de nuestros enfoques para segmentar con precisión las estructuras cerebrales subcorticales y han mostrado un rendimiento de vanguardia en los conocidos conjuntos de datos de acceso público
APA, Harvard, Vancouver, ISO, and other styles
28

Arjona, Martínez Jamie. "Designing smart ITS services through innovative data analysis modeling." Doctoral thesis, Universitat Politècnica de Catalunya, 2021. http://hdl.handle.net/10803/671615.

Full text
Abstract:
Nowadays, one of the most important problems in urban areas concerns traffic congestion. This, in turn, has an impact on the economy, nature, human health, city architecture, and many other facets of life. Part of the vehicular traffic in cities is caused by parking space availability. The drivers of private vehicles usually want to leave their vehicles as close as possible to their destination. However, the parking slots are limited and may not be enough to sustain the demand, especially when the destination pertains to an attractive area. Thus, individuals looking for a place to park their vehicles contribute to increasing traffic flow density on roads where the parking demand cannot be satisfied. An Internet of Things (IoT) approach allows us to know the state of the parking system (availability of the parking slots) in real time through wireless networks of sensor devices. An intelligent treatment of this data could generate forecasted information that may be useful in improving management of on-street parking, thus having a notable effect on urban traffic. Smart parking systems first appeared in 2015, with IoT platforms in Santander, San Francisco and Melbourne. That is the year when those cities began to provide on-street real-time parking data in order to offer new services to their citizens. One of the most interesting services that these kinds of platforms can offer is parking availability forecasting, for which the first works in this field studied the temporal and spatial correlations of parking occupancy to support short-term forecasts (no more than 30 minutes). Those short-term forecasts are not useful at all to the end user of this service; thus, the necessary prediction intervals should be at the order of magnitude of hours. In this context, this thesis focuses on using parking and other sources of data to characterize and model different parking systems. The methodology used employs novel techniques for providing real-time forecasts of parking availability based on data from sensors with certain inaccuracies due to their mechanical nature. The models are developed from four different methodologies: ARIMA, multilayer perceptron (MLP), long-short term memory (LSTM) and gated recurrent unit (GRU). The first has been the standard approach to forecasting in the ITS literature, while the latter ones have proven to be the best neural network (NN) architectures for solving a wide set of sequential data problems, such as those presented in this work. As far as we know, LSTM and GRU methods (recurrent neural network approaches) have been used recently with good results in traffic forecasting, but not for parking. In addition, we propose using exogenous data such as weather conditions and calendar effects, thereby converting the problem from univariate to multivariate. It is shown here how NN methods naturally handle the increased complexity in the problem. The reason for using exogenous variables is that they can offer relevant information that cannot be inferred from the sensor measurements. The proposed methods have been intensively compared by creating parking models for parking sectors in five cities around the world. The results have been analysed in order to identify and provide exhaustive guidelines and insights into the inner mechanisms of parking systems while also ascertaining how the idiosyncrasies of each method are reflected in the model forecasts. When comparing the results according to their disciplines of origin (ARIMA from statistics and NN methods from machine learning), neither of the proposed methodologies is clearly better than the other, as both can provide forecasts with low error but by different means. ARIMA has shown lower error rates in small-sized sectors where the more recent status of the parking system is more relevant; while the NN methods are more capable of providing forecasts for large-sized sectors where patterns are dependent on long time horizons.
En la actualidad uno de los mayores problemas de las zonas urbanas tiene origen en la congestión del tráfico con un alto impacto en la economía, el medio ambiente, la salud y otras facetas de la vida urbana. En muchas ocasiones parte de la congestión del trafico tiene origen en la disponibilidad de las plazas de aparcamiento debido a que los conductores de vehículos privados suelen querer aparcar sus vehículos lo más cerca posible de su destino pero las plazas de aparcamiento son limitadas y pueden no ser suficientes para mantener la demanda. Un enfoque basado en el Internet of Things (IoT) nos permite en tiempo real conocer la disponibilidad de plazas de estacionamiento a través de redes inalámbricas de sensores. Un tratamiento inteligente sobre estos datos puede generar información que ayude a predecir la futura demanda de estacionamiento en las zonas sensorizadas mejorando así la gestión del estacionamiento y teniendo un efecto en el tráfico urbano. Los primeros trabajos académicos en este área se centraron en estudiar las correlaciones temporales y espaciales de la ocupación del estacionamiento para proveer pronósticos a corto plazo (predicciones a tiempo máximo de 30 minutos) y que en muchas ocasiones no son de utilidad ya que para el usuario final es preferible tener estimaciones de la disponibilidad de estacionamiento en el order de magnitud de horas. En este contexto, esta tesis se centra en el uso de datos de aparcamientos y otras fuentes para caracterizar y modelizar diferentes sistemas de aparcamiento. La metodología utilizada emplea técnicas innovadoras para proporcionar predicciones en tiempo real sobre la disponibilidad de aparcamiento basadas en datos de sensores. Los modelos se desarrollan a partir de cuatro metodología: Autoregressive Integrated Moving Average (ARIMA), Multilayer Perceptron (MLP), Long-Short Term Memory (LSTM) y Gated Recurrent Unit (GRU). La primera ha sido el enfoque estándar de predicción en la literatura sobre Sistemas de Transporte Inteligentes, mientras que las otras tres han demostrado ser las mejores arquitecturas de redes neuronales para resolver un amplio conjunto de problemas de datos de naturaleza secuencial, como los que se tratan en este trabajo. Hasta donde sabemos, los métodos LSTM y GRU (enfoques de redes neuronales recurrentes) se han utilizado recientemente para la predicción de tráfico, obteniendo buenos resultados, pero no para aparcamiento. Además, proponemos utilizar datos exógenos como las condiciones meteorológicas y los efectos del calendario, transformando el problema de univariante a multivariante y demostramos como los métodos de redes neuronales gestionan de forma natural esta mayor complejidad del problema. El motivo para incluir variables exógenas es el de reducir la incertidumbre dada por las mediciones de los sensores ya que el uso de los sistemas de aparcamiento está condicionado por procesos no medibles por estos. Los métodos propuestos se han comparado mediante la creación de modelos para sectores de aparcamiento en cinco ciudades. Los resultados se han analizado con el fin de identificar y proporcionar pautas exhaustivas y conocimientos sobre los mecanismos internos de los sistemas de estacionamiento y, al mismo tiempo, determinar cómo se reflejan las idiosincrasias de cada método y de cada sector en los pronósticos del modelo. Al comparar los resultados según sus disciplinas de origen (ARIMA de estadística y redes neuronales de aprendizaje automático), ninguna de las metodologías propuestas es claramente mejor que las otras, ya que ambas pueden proporcionar predicciones con bajo error. ARIMA ha demostrado tener tasas de error más bajas en sectores de aparcamiento de menor dimensión donde el estado más reciente del sistema es más relevante; mientras que los métodos de redes neuronales has demostrado ser capaces de proporcionar mejores predicciones para sectores de gran tamaño donde los patrones tienen mayores dependencias temporales
Programa de doctorat: Estadística i investigació operativa
APA, Harvard, Vancouver, ISO, and other styles
29

Paula, Davi Duarte de. "Reconstrução de tomossíntese mamária utilizando redes neurais com aprendizado profundo /." São José do Rio Preto, 2020. http://hdl.handle.net/11449/192452.

Full text
Abstract:
Orientador: Denis Henrique Pinheiro Salvadeo
Resumo: Tomossíntese Mamária Digital (DBT) é uma técnica de imageamento radiográfico, com aquisição de projeções em ângulos limitados utilizando dose reduzida de radiação. Ela tem por objetivo reconstruir fatias tomográficas do interior da mama, possibilitando o diagnóstico precoce de possíveis lesões e aumentando, consequentemente, a probabilidade de cura do paciente. Contudo, devido ao fato de que DBT utiliza doses baixas de radiação, a imagem gerada contém mais ruído que a mamografia digital. Embora a qualidade do exame esteja diretamente relacionada com a dose utilizada, espera-se que a dose de radiação empregada no exame seja a mais baixa possível, mas ainda com qualidade suficiente para que o diagnóstico possa ser realizado, conforme o princípio As Low As Reasonably Achievable (ALARA). Uma das etapas importantes para se buscar o princípio ALARA é a reconstrução tomográfica, que consiste em um software que gera as fatias do interior da mama a partir de um conjunto de projeções 2D de DBT adquiridas. Por outro lado, técnicas de Aprendizado de Máquina, especialmente redes neurais com aprendizado profundo, que recentemente tem evoluído consideravelmente o estado da arte em diversos problemas de Visão Computacional e Processamento de Imagens, tem características adequadas para serem aplicadas também na etapa de reconstrução. Deste modo, este trabalho investigou uma arquitetura básica de rede neural artificial com aprendizado profundo que seja capaz de reconstruir imagens de DBT, espe... (Resumo completo, clicar acesso eletrônico abaixo)
Abstract: Digital Breast Tomosynthesis (DBT) is a technique of radiographic imaging, with acquisition of projections at limited angles using reduced dose of radiation. It aims to reconstruct tomographic slices inside the breast, making possible the early diagnosis of possible lesions and, consequently, increasing the probability of cure of the patient. However, due to the fact that DBT uses low doses of radiation, the generated image contains more noise than digital mammography. Although the quality of the exam is directly related to the dose applied, the radiation dose used in the examination is expected to be as low as possible, but still keeping enough quality for the diagnosis to be made, as determined by the As Low As Reasonably Achievable (ALARA) principle. One of the important steps to achieve the ALARA principle is the tomographic reconstruction, which consists of a software that generates slices inside the breast from an acquired set of 2D DBT projections. On the other hand, Machine Learning techniques, especially neural networks with deep learning, that have recently evolved considerably the state-of-the-art in several problems in Computer Vision and Image Processing areas, it has suitable characteristics to be applied also in the reconstruction step. Thus, this work investigated a basic architecture of artificial neural network with deep learning that is capable to reconstruct DBT images, especially focused on noise reduction. Furthermore, considering an additional filtering... (Complete abstract click electronic access below)
Mestre
APA, Harvard, Vancouver, ISO, and other styles
30

Dinamarca, Agustina. "Aprendizaje y análisis de redes neuronales artificiales profundas." Bachelor's thesis, Universidad Nacional de Cuyo. Facultad de Ciencias Exactas y Naturales, 2018. http://bdigital.uncu.edu.ar/13989.

Full text
Abstract:
Esta tesis trata sobre las redes neuronales profundas (RNPs), modelos computacionales de aprendizaje autónomo, inspirados en el funcionamiento del sistema nervioso de los seres vivos. Actualmente, las RNPs han logrado un desempeño muy notable en tareas de Inteligencia Artificial. Sin embargo, es bien sabido que el entrenamiento de estos modelos viene acompañado de un alto costo y complejidad computacional. Por otro lado, se diseñan redes con gran variedad de formas y tamaños dependiendo de su aplicación. Por lo tanto, muchos modelos de RNPs han sido desarrollados, e incluso mejorados, para lograr cada vez mayor eficacia y eficiencia en las tareas para las cuales fueron diseñados. En particular, la tesis se centra en dos tipos de redes muy populares en el área de Visión Computacional: las redes densas (RDs) y las redes convolucionales (RCs). Los objetivos principales de esta investigación fueron medir cuán eficaces y eficientes son distintas configuraciones de RDs frente a RCs en una tarea de clasificación multiclase. Para cumplir con los objetivos fue necesario: aprender RDs y RCs que clasifiquen imágenes; evaluar el desempeño de cada red en términos de exactitud de clasificación y tiempo de aprendizaje; y comparar aquellas cantidades entre ambos tipos de modelo. Los resultados obtenidos fueron parcialmente consistentes con las hipótesis propuestas. Los más relevantes fueron que el 91 % de las RCs aprendidas fueron míınimamente un 9.11 % más eficaces que las RDs. Esto indica que las primeras presentan mejor capacidad de aprender patrones complejos que las segundas. Tal capacidad se debe a que las RCs poseen mayor cantidad de unidades ocultas que las RDs, sumado al hecho de que cada unidad de una capa convolucional tiene conexiones locales con regiones de la capa anterior, y comparte parámetros con el resto de las unidades de la misma capa. Por otro lado, el 82 % de las RDs aprendidas fueron como mínimo 6.4 min más eficientes que las RCs. Estos resultados se atribuyen fundamentalmente a la cantidad y complejidad de operaciones que las redes deben efectuar y, en menor medida, a la cantidad de parámetros que las mismas deben aprender. Por último, los resultados obtenidos en este trabajo sirven para entender el impacto de las variaciones estructurales de las RNPs en sus desempeños. Esta clase de estudios,junto a otros, permite incorporar una correcta y adecuada flexibilidad a cualquier dispositivo de RNPs para que funcione con mejor eficacia y eficiencia.
Fil: Dinamarca, Agustina. Universidad Nacional de Cuyo. Facultad de Ciencias Exactas y Naturales.
APA, Harvard, Vancouver, ISO, and other styles
31

González, Barba José Ángel. "Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization." Doctoral thesis, Universitat Politècnica de València, 2021. http://hdl.handle.net/10251/172245.

Full text
Abstract:
[ES] Hoy en día, la sociedad tiene acceso y posibilidad de contribuir a grandes cantidades de contenidos presentes en Internet, como redes sociales, periódicos online, foros, blogs o plataformas de contenido multimedia. Todo este tipo de medios han tenido, durante los últimos años, un impacto abrumador en el día a día de individuos y organizaciones, siendo actualmente medios predominantes para compartir, debatir y analizar contenidos online. Por este motivo, resulta de interés trabajar sobre este tipo de plataformas, desde diferentes puntos de vista, bajo el paraguas del Procesamiento del Lenguaje Natural. En esta tesis nos centramos en dos áreas amplias dentro de este campo, aplicadas al análisis de contenido en línea: análisis de texto en redes sociales y resumen automático. En paralelo, las redes neuronales también son un tema central de esta tesis, donde toda la experimentación se ha realizado utilizando enfoques de aprendizaje profundo, principalmente basados en mecanismos de atención. Además, trabajamos mayoritariamente con el idioma español, por ser un idioma poco explorado y de gran interés para los proyectos de investigación en los que participamos. Por un lado, para el análisis de texto en redes sociales, nos enfocamos en tareas de análisis afectivo, incluyendo análisis de sentimientos y detección de emociones, junto con el análisis de la ironía. En este sentido, se presenta un enfoque basado en Transformer Encoders, que consiste en contextualizar \textit{word embeddings} pre-entrenados con tweets en español, para abordar tareas de análisis de sentimiento y detección de ironía. También proponemos el uso de métricas de evaluación como funciones de pérdida, con el fin de entrenar redes neuronales, para reducir el impacto del desequilibrio de clases en tareas \textit{multi-class} y \textit{multi-label} de detección de emociones. Adicionalmente, se presenta una especialización de BERT tanto para el idioma español como para el dominio de Twitter, que tiene en cuenta la coherencia entre tweets en conversaciones de Twitter. El desempeño de todos estos enfoques ha sido probado con diferentes corpus, a partir de varios \textit{benchmarks} de referencia, mostrando resultados muy competitivos en todas las tareas abordadas. Por otro lado, nos centramos en el resumen extractivo de artículos periodísticos y de programas televisivos de debate. Con respecto al resumen de artículos, se presenta un marco teórico para el resumen extractivo, basado en redes jerárquicas siamesas con mecanismos de atención. También presentamos dos instancias de este marco: \textit{Siamese Hierarchical Attention Networks} y \textit{Siamese Hierarchical Transformer Encoders}. Estos sistemas han sido evaluados en los corpora CNN/DailyMail y NewsRoom, obteniendo resultados competitivos en comparación con otros enfoques extractivos coetáneos. Con respecto a los programas de debate, se ha propuesto una tarea que consiste en resumir las intervenciones transcritas de los ponentes, sobre un tema determinado, en el programa "La Noche en 24 Horas". Además, se propone un corpus de artículos periodísticos, recogidos de varios periódicos españoles en línea, con el fin de estudiar la transferibilidad de los enfoques propuestos, entre artículos e intervenciones de los participantes en los debates. Este enfoque muestra mejores resultados que otras técnicas extractivas, junto con una transferibilidad de dominio muy prometedora.
[CA] Avui en dia, la societat té accés i possibilitat de contribuir a grans quantitats de continguts presents a Internet, com xarxes socials, diaris online, fòrums, blocs o plataformes de contingut multimèdia. Tot aquest tipus de mitjans han tingut, durant els darrers anys, un impacte aclaparador en el dia a dia d'individus i organitzacions, sent actualment mitjans predominants per compartir, debatre i analitzar continguts en línia. Per aquest motiu, resulta d'interès treballar sobre aquest tipus de plataformes, des de diferents punts de vista, sota el paraigua de l'Processament de el Llenguatge Natural. En aquesta tesi ens centrem en dues àrees àmplies dins d'aquest camp, aplicades a l'anàlisi de contingut en línia: anàlisi de text en xarxes socials i resum automàtic. En paral·lel, les xarxes neuronals també són un tema central d'aquesta tesi, on tota l'experimentació s'ha realitzat utilitzant enfocaments d'aprenentatge profund, principalment basats en mecanismes d'atenció. A més, treballem majoritàriament amb l'idioma espanyol, per ser un idioma poc explorat i de gran interès per als projectes de recerca en els que participem. D'una banda, per a l'anàlisi de text en xarxes socials, ens enfoquem en tasques d'anàlisi afectiu, incloent anàlisi de sentiments i detecció d'emocions, juntament amb l'anàlisi de la ironia. En aquest sentit, es presenta una aproximació basada en Transformer Encoders, que consisteix en contextualitzar \textit{word embeddings} pre-entrenats amb tweets en espanyol, per abordar tasques d'anàlisi de sentiment i detecció d'ironia. També proposem l'ús de mètriques d'avaluació com a funcions de pèrdua, per tal d'entrenar xarxes neuronals, per reduir l'impacte de l'desequilibri de classes en tasques \textit{multi-class} i \textit{multi-label} de detecció d'emocions. Addicionalment, es presenta una especialització de BERT tant per l'idioma espanyol com per al domini de Twitter, que té en compte la coherència entre tweets en converses de Twitter. El comportament de tots aquests enfocaments s'ha provat amb diferents corpus, a partir de diversos \textit{benchmarks} de referència, mostrant resultats molt competitius en totes les tasques abordades. D'altra banda, ens centrem en el resum extractiu d'articles periodístics i de programes televisius de debat. Pel que fa a l'resum d'articles, es presenta un marc teòric per al resum extractiu, basat en xarxes jeràrquiques siameses amb mecanismes d'atenció. També presentem dues instàncies d'aquest marc: \textit{Siamese Hierarchical Attention Networks} i \textit{Siamese Hierarchical Transformer Encoders}. Aquests sistemes s'han avaluat en els corpora CNN/DailyMail i Newsroom, obtenint resultats competitius en comparació amb altres enfocaments extractius coetanis. Pel que fa als programes de debat, s'ha proposat una tasca que consisteix a resumir les intervencions transcrites dels ponents, sobre un tema determinat, al programa "La Noche en 24 Horas". A més, es proposa un corpus d'articles periodístics, recollits de diversos diaris espanyols en línia, per tal d'estudiar la transferibilitat dels enfocaments proposats, entre articles i intervencions dels participants en els debats. Aquesta aproximació mostra millors resultats que altres tècniques extractives, juntament amb una transferibilitat de domini molt prometedora.
[EN] Nowadays, society has access, and the possibility to contribute, to large amounts of the content present on the internet, such as social networks, online newspapers, forums, blogs, or multimedia content platforms. These platforms have had, during the last years, an overwhelming impact on the daily life of individuals and organizations, becoming the predominant ways for sharing, discussing, and analyzing online content. Therefore, it is very interesting to work with these platforms, from different points of view, under the umbrella of Natural Language Processing. In this thesis, we focus on two broad areas inside this field, applied to analyze online content: text analytics in social media and automatic summarization. Neural networks are also a central topic in this thesis, where all the experimentation has been performed by using deep learning approaches, mainly based on attention mechanisms. Besides, we mostly work with the Spanish language, due to it is an interesting and underexplored language with a great interest in the research projects we participated in. On the one hand, for text analytics in social media, we focused on affective analysis tasks, including sentiment analysis and emotion detection, along with the analysis of the irony. In this regard, an approach based on Transformer Encoders, based on contextualizing pretrained Spanish word embeddings from Twitter, to address sentiment analysis and irony detection tasks, is presented. We also propose the use of evaluation metrics as loss functions, in order to train neural networks for reducing the impact of the class imbalance in multi-class and multi-label emotion detection tasks. Additionally, a specialization of BERT both for the Spanish language and the Twitter domain, that takes into account inter-sentence coherence in Twitter conversation flows, is presented. The performance of all these approaches has been tested with different corpora, from several reference evaluation benchmarks, showing very competitive results in all the tasks addressed. On the other hand, we focused on extractive summarization of news articles and TV talk shows. Regarding the summarization of news articles, a theoretical framework for extractive summarization, based on siamese hierarchical networks with attention mechanisms, is presented. Also, we present two instantiations of this framework: Siamese Hierarchical Attention Networks and Siamese Hierarchical Transformer Encoders. These systems were evaluated on the CNN/DailyMail and the NewsRoom corpora, obtaining competitive results in comparison to other contemporary extractive approaches. Concerning the TV talk shows, we proposed a text summarization task, for summarizing the transcribed interventions of the speakers, about a given topic, in the Spanish TV talk shows of the ``La Noche en 24 Horas" program. In addition, a corpus of news articles, collected from several Spanish online newspapers, is proposed, in order to study the domain transferability of siamese hierarchical approaches, between news articles and interventions of debate participants. This approach shows better results than other extractive techniques, along with a very promising domain transferability.
González Barba, JÁ. (2021). Attention-based Approaches for Text Analytics in Social Media and Automatic Summarization [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172245
TESIS
APA, Harvard, Vancouver, ISO, and other styles
32

Vitorino, Paulo Roberto Rocha. "Detecção de pornografia infantil em imagens através de técnicas de aprendizado profundo." reponame:Repositório Institucional da UnB, 2016. http://repositorio.unb.br/handle/10482/22757.

Full text
Abstract:
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016.
Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-02-22T20:04:46Z No. of bitstreams: 1 2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5)
Approved for entry into archive by Ruthléa Nascimento(ruthleanascimento@bce.unb.br) on 2017-02-24T19:20:18Z (GMT) No. of bitstreams: 1 2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5)
Made available in DSpace on 2017-02-24T19:20:18Z (GMT). No. of bitstreams: 1 2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5)
Este trabalho apresenta uma nova abordagem para detecção de automática de pornográfica infantil em imagens, que se utiliza de técnicas de aprendizado profundo para extração das características discriminadoras de imagens, e um classificador de padrões baseado em máquinas de vetores de suporte, para determinar se as imagens contêm, ou não, pornografia infantil (PI). Adicionalmente, também é proposta técnica baseada em sacolas de palavras para resolver o problema. As soluções desenvolvidas atingem um acerto de +87% de acurácia de classificação quando separando conteúdo de pornografia infantil de conteúdos de pornografia geral e imagens normais, sobressaindo-se em relação às técnicas existentes na literatura.
In this work, we present a new method for automatic detection of sexually exploitative imagery of children (SEIC) or child pornography content. Our solution leverages cutting-edge concepts of deep learning – for extracting discriminative features from images – and the support vector machine classifier, it point out whether or not an image contains child pornography content. Moreover, it is also proposed one technique based on bags of visual words methodology to deal with this difficult problem. The developed solutions lead to as much as 87% classification accuracy when separating SEIC content from adult (adult pornography) and other seemingly innocuous content (everyday image content) clearly outperforming existing counterparts in the literature.
APA, Harvard, Vancouver, ISO, and other styles
33

García, López Javier. "Geometric computer vision meets deep learning for autonomous driving applications." Doctoral thesis, TDX (Tesis Doctorals en Xarxa), 2021. http://hdl.handle.net/10803/672708.

Full text
Abstract:
This dissertation intends to provide theoretical and practical contributions on the development of deep learning algorithms for autonomous driving applications. The research is motivated by the need of deep neural networks (DNNs) to get a full understanding of the surrounding area and to be executed on real driving scenarios with real vehicles equipped with specific hardware, such as memory constrained (DSP or GPU platforms) or multiple optical sensors, which constraints the algorithm's development forcing the designed deep networks to be accurate, with minimum number of operations and low memory consumption. The main objective of this thesis is, on one hand, the research in the actual limitations of DL-based algorithms that prevent them of being integrated in nowadays' ADAS (Autonomous Driving System) functionalities, and on the other hand, the design and implementation of deep learning algorithms able to overcome such constraints to be applied on real autonomous driving scenarios, enabling their integration in low memory hardware platforms and avoiding sensor redundancy. Deep learning (DL) applications have been widely exploited over the last years but have some weak points that need to be faced and overcame in order to fully integrate DL into the development process of big manufacturers or automotive companies, like the time needed to design, train and validate and optimal network for a specific application or the vast knowledge from the required experts to tune hyperparameters of predefined networks in order to make them executable in the target platform and to obtain the biggest advantage of the hardware resources. During this thesis, we have addressed these topics and focused on the implementations of breakthroughs that would help in the industrial integration of DL-based applications in the automobile industry. This work has been done as part of the "Doctorat Industrial" program, at the company FICOSA ADAS, and it is because of the possibilities that developing this research at the company's facilities have brought to the author, that a direct impact of the achieved algorithms could be tested on real scenarios to proof their validity. Moreover, in this work, the author investigates deep in the automatic design of deep neural networks (DNN) based on state-of-the-art deep learning frameworks like NAS (neural architecture search). As stated in this work, one of the identified barriers of deep learning technology in nowadays automobile companies is the difficulty of developing light and accurate networks that could be integrated in small system on chips (SoC) or DSP. To overcome this constraint, the author proposes a framework named E-DNAS for the automatic design, training and validation of deep neural networks to perform image classification tasks and run on resource-limited hardware platforms. This apporach have been validated on a real system on chip by the company Texas Instrumets (tda2x) provided by the company, whose results are published within this thesis. As an extension of the mentioned E-DNAS, in the last chapter of this work the author presents a framework based on NAS valid for detecting objects whose main contribution is a learnable and fast way of finding object proposals on images that, on a second step, will be classified into one of the labeled classes.
Esta disertación tiene como objetivo principal proporcionar contribuciones teóricas y prácticas sobre el desarrollo de algoritmos de aprendizaje profundo para aplicaciones de conducción autónoma. La investigación está motivada por la necesidad de redes neuronales profundas (DNN) para obtener una comprensión completa del entorno y para ejecutarse en escenarios de conducción reales con vehículos reales equipados con hardware específico, los cuales tienen memoria limitada (plataformas DSP o GPU) o utilizan múltiples sensores ópticos Esto limita el desarrollo del algoritmo obligando a las redes profundas diseñadas a ser precisas, con un número mínimo de operaciones y bajo consumo de memoria y energía. El objetivo principal de esta tesis es, por un lado, investigar las limitaciones reales de los algoritmos basados en DL que impiden que se integren en las funcionalidades ADAS (Autonomous Driving System) actuales, y por otro, el diseño e implementación de algoritmos de aprendizaje profundo capaces de superar tales limitaciones para ser aplicados en escenarios reales de conducción autónoma, permitiendo su integración en plataformas de hardware de baja memoria y evitando la redundancia de sensores. Las aplicaciones de aprendizaje profundo (DL) se han explotado ampliamente en los últimos años, pero tienen algunos puntos débiles que deben enfrentarse y superarse para integrar completamente la DL en el proceso de desarrollo de los grandes fabricantes o empresas automobilísticas, como el tiempo necesario para diseñar, entrenar y validar una red óptima para una aplicación específica o el vasto conocimiento de los expertos requeridos para tunear hiperparámetros de redes predefinidas con el fin de hacerlas ejecutables en una plataforma concreta y obtener la mayor ventaja de los recursos de hardware. Durante esta tesis, hemos abordado estos temas y nos hemos centrado en las implementaciones de avances que ayudarían en la integración industrial de aplicaciones basadas en DL en la industria del automóvil. Este trabajo se ha realizado en el marco del programa "Doctorat Industrial", en la empresa FICOSA ADAS, y es por las posibilidades que la empresa ha ofrecido que se ha podido demostrar un impacto rápido y directo de los algoritmos conseguidos en escenarios de test reales para probar su validez. Además, en este trabajo, se investiga en profundidad el diseño automático de redes neuronales profundas (DNN) basadas en frameworks de deep learning de última generación como NAS (neural architecture search). Como se afirma en esta tesis, una de las barreras identificadas de la tecnología de aprendizaje profundo en las empresas automotrices de hoy en día es la dificultad de desarrollar redes ligeras y precisas que puedan integrarse en pequeños systems on chip(SoC) o DSP. Para superar esta restricción, se propone un framework llamado E-DNAS para el diseño automático, entrenamiento y validación de redes neuronales profundas para realizar tareas de clasificación de imágenes y ejecutarse en plataformas de hardware con recursos limitados. Este apporach ha sido validado en un system on chip real de la empresa Texas Instrumets (tda2x) facilitado por FICOSA ADAS, cuyos resultados se publican dentro de esta tesis. Como extensión del mencionado E-DNAS, en el último capítulo de este trabajo se presenta un framework basado en NAS válido para la detección de objetos cuya principal contribución es una forma fácil y rápida de encontrar propuestas de objetos en imágenes que, en un segundo paso, se clasificará en una de las clases etiquetadas.
Automàtica, robòtica i visió
APA, Harvard, Vancouver, ISO, and other styles
34

Salem, Mostafa. "Deep learning methods for automated detection of new multiple sclerosis lesions in longitudinal magnetic resonance images." Doctoral thesis, Universitat de Girona, 2020. http://hdl.handle.net/10803/668990.

Full text
Abstract:
This thesis is focused on developing novel and fully automated methods for the detection of new multiple sclerosis (MS) lesions in longitudinal brain magnetic resonance imaging (MRI). First, we proposed a fully automated logistic regression-based framework for the detection and segmentation of new T2-w lesions. The framework was based on intensity subtraction and deformation field (DF). Second, we proposed a fully convolutional neural network (FCNN) approach to detect new T2-w lesions in longitudinal brain MR images. The model was trained end-to-end and simultaneously learned both the DFs and the new T2-w lesions. Finally, we proposed a deep learning-based approach for MS lesion synthesis to improve the lesion detection and segmentation performance in both cross-sectional and longitudinal analysis
Esta tesis se centra en el desarrollo de métodos novedosos y totalmente automatizados para la detección de nuevas lesiones de esclerosis múltiple en la resonancia magnética longitudinal del cerebro. Primero, propusimos un marco totalmente automatizado basado en la regresión logística para la detección y segmentación de nuevas lesiones T2-w. El marco se basaba en la sustracción de intensidad y el campo de deformación (DF). En segundo lugar, propusimos un enfoque de red neuronal totalmente convolucional para detectar nuevas lesiones T2-w en imágenes de resonancia magnética del cerebro longitudinal. El modelo se entrenó de extremo a extremo y aprendió simultáneamente tanto los DF como las nuevas lesiones T2-w. Por último, propusimos un enfoque basado en el aprendizaje profundo para la síntesis de las lesiones de la EM, a fin de mejorar el rendimiento de la detección y la segmentación de las lesiones tanto en el análisis transversal como en el longitudinal
APA, Harvard, Vancouver, ISO, and other styles
35

Giménez, Fayos María Teresa. "Natural Language Processing using Deep Learning in Social Media." Doctoral thesis, Universitat Politècnica de València, 2021. http://hdl.handle.net/10251/172164.

Full text
Abstract:
[ES] En los últimos años, los modelos de aprendizaje automático profundo (AP) han revolucionado los sistemas de procesamiento de lenguaje natural (PLN). Hemos sido testigos de un avance formidable en las capacidades de estos sistemas y actualmente podemos encontrar sistemas que integran modelos PLN de manera ubicua. Algunos ejemplos de estos modelos con los que interaccionamos a diario incluyen modelos que determinan la intención de la persona que escribió un texto, el sentimiento que pretende comunicar un tweet o nuestra ideología política a partir de lo que compartimos en redes sociales. En esta tesis se han propuestos distintos modelos de PNL que abordan tareas que estudian el texto que se comparte en redes sociales. En concreto, este trabajo se centra en dos tareas fundamentalmente: el análisis de sentimientos y el reconocimiento de la personalidad de la persona autora de un texto. La tarea de analizar el sentimiento expresado en un texto es uno de los problemas principales en el PNL y consiste en determinar la polaridad que un texto pretende comunicar. Se trata por lo tanto de una tarea estudiada en profundidad de la cual disponemos de una vasta cantidad de recursos y modelos. Por el contrario, el problema del reconocimiento de personalidad es una tarea revolucionaria que tiene como objetivo determinar la personalidad de los usuarios considerando su estilo de escritura. El estudio de esta tarea es más marginal por lo que disponemos de menos recursos para abordarla pero que no obstante presenta un gran potencial. A pesar de que el enfoque principal de este trabajo fue el desarrollo de modelos de aprendizaje profundo, también hemos propuesto modelos basados en recursos lingüísticos y modelos clásicos del aprendizaje automático. Estos últimos modelos nos han permitido explorar las sutilezas de distintos elementos lingüísticos como por ejemplo el impacto que tienen las emociones en la clasificación correcta del sentimiento expresado en un texto. Posteriormente, tras estos trabajos iniciales se desarrollaron modelos AP, en particular, Redes neuronales convolucionales (RNC) que fueron aplicadas a las tareas previamente citadas. En el caso del reconocimiento de la personalidad, se han comparado modelos clásicos del aprendizaje automático con modelos de aprendizaje profundo, pudiendo establecer una comparativa bajo las mismas premisas. Cabe destacar que el PNL ha evolucionado drásticamente en los últimos años gracias al desarrollo de campañas de evaluación pública, donde múltiples equipos de investigación comparan las capacidades de los modelos que proponen en las mismas condiciones. La mayoría de los modelos presentados en esta tesis fueron o bien evaluados mediante campañas de evaluación públicas, o bien emplearon la configuración de una campaña pública previamente celebrada. Siendo conscientes, por lo tanto, de la importancia de estas campañas para el avance del PNL, desarrollamos una campaña de evaluación pública cuyo objetivo era clasificar el tema tratado en un tweet, para lo cual recogimos y etiquetamos un nuevo conjunto de datos. A medida que avanzabamos en el desarrollo del trabajo de esta tesis, decidimos estudiar en profundidad como las RNC se aplicaban a las tareas de PNL. En este sentido, se exploraron dos líneas de trabajo. En primer lugar, propusimos un método de relleno semántico para RNC, que plantea una nueva manera de representar el texto para resolver tareas de PNL. Y en segundo lugar, se introdujo un marco teórico para abordar una de las críticas más frecuentes del aprendizaje profundo, el cual es la falta de interpretabilidad. Este marco busca visualizar qué patrones léxicos, si los hay, han sido aprendidos por la red para clasificar un texto.
[CA] En els últims anys, els models d'aprenentatge automàtic profund (AP) han revolucionat els sistemes de processament de llenguatge natural (PLN). Hem estat testimonis d'un avanç formidable en les capacitats d'aquests sistemes i actualment podem trobar sistemes que integren models PLN de manera ubiqua. Alguns exemples d'aquests models amb els quals interaccionem diàriament inclouen models que determinen la intenció de la persona que va escriure un text, el sentiment que pretén comunicar un tweet o la nostra ideologia política a partir del que compartim en xarxes socials. En aquesta tesi s'han proposats diferents models de PNL que aborden tasques que estudien el text que es comparteix en xarxes socials. En concret, aquest treball se centra en dues tasques fonamentalment: l'anàlisi de sentiments i el reconeixement de la personalitat de la persona autora d'un text. La tasca d'analitzar el sentiment expressat en un text és un dels problemes principals en el PNL i consisteix a determinar la polaritat que un text pretén comunicar. Es tracta per tant d'una tasca estudiada en profunditat de la qual disposem d'una vasta quantitat de recursos i models. Per contra, el problema del reconeixement de la personalitat és una tasca revolucionària que té com a objectiu determinar la personalitat dels usuaris considerant el seu estil d'escriptura. L'estudi d'aquesta tasca és més marginal i en conseqüència disposem de menys recursos per abordar-la però no obstant i això presenta un gran potencial. Tot i que el fouc principal d'aquest treball va ser el desenvolupament de models d'aprenentatge profund, també hem proposat models basats en recursos lingüístics i models clàssics de l'aprenentatge automàtic. Aquests últims models ens han permès explorar les subtileses de diferents elements lingüístics com ara l'impacte que tenen les emocions en la classificació correcta del sentiment expressat en un text. Posteriorment, després d'aquests treballs inicials es van desenvolupar models AP, en particular, Xarxes neuronals convolucionals (XNC) que van ser aplicades a les tasques prèviament esmentades. En el cas de el reconeixement de la personalitat, s'han comparat models clàssics de l'aprenentatge automàtic amb models d'aprenentatge profund la qual cosa a permet establir una comparativa de les dos aproximacions sota les mateixes premisses. Cal remarcar que el PNL ha evolucionat dràsticament en els últims anys gràcies a el desenvolupament de campanyes d'avaluació pública on múltiples equips d'investigació comparen les capacitats dels models que proposen sota les mateixes condicions. La majoria dels models presentats en aquesta tesi van ser o bé avaluats mitjançant campanyes d'avaluació públiques, o bé s'ha emprat la configuració d'una campanya pública prèviament celebrada. Sent conscients, per tant, de la importància d'aquestes campanyes per a l'avanç del PNL, vam desenvolupar una campanya d'avaluació pública on l'objectiu era classificar el tema tractat en un tweet, per a la qual cosa vam recollir i etiquetar un nou conjunt de dades. A mesura que avançàvem en el desenvolupament del treball d'aquesta tesi, vam decidir estudiar en profunditat com les XNC s'apliquen a les tasques de PNL. En aquest sentit, es van explorar dues línies de treball.En primer lloc, vam proposar un mètode d'emplenament semàntic per RNC, que planteja una nova manera de representar el text per resoldre tasques de PNL. I en segon lloc, es va introduir un marc teòric per abordar una de les crítiques més freqüents de l'aprenentatge profund, el qual és la falta de interpretabilitat. Aquest marc cerca visualitzar quins patrons lèxics, si n'hi han, han estat apresos per la xarxa per classificar un text.
[EN] In the last years, Deep Learning (DL) has revolutionised the potential of automatic systems that handle Natural Language Processing (NLP) tasks. We have witnessed a tremendous advance in the performance of these systems. Nowadays, we found embedded systems ubiquitously, determining the intent of the text we write, the sentiment of our tweets or our political views, for citing some examples. In this thesis, we proposed several NLP models for addressing tasks that deal with social media text. Concretely, this work is focused mainly on Sentiment Analysis and Personality Recognition tasks. Sentiment Analysis is one of the leading problems in NLP, consists of determining the polarity of a text, and it is a well-known task where the number of resources and models proposed is vast. In contrast, Personality Recognition is a breakthrough task that aims to determine the users' personality using their writing style, but it is more a niche task with fewer resources designed ad-hoc but with great potential. Despite the fact that the principal focus of this work was on the development of Deep Learning models, we have also proposed models based on linguistic resources and classical Machine Learning models. Moreover, in this more straightforward setup, we have explored the nuances of different language devices, such as the impact of emotions in the correct classification of the sentiment expressed in a text. Afterwards, DL models were developed, particularly Convolutional Neural Networks (CNNs), to address previously described tasks. In the case of Personality Recognition, we explored the two approaches, which allowed us to compare the models under the same circumstances. Noteworthy, NLP has evolved dramatically in the last years through the development of public evaluation campaigns, where multiple research teams compare the performance of their approaches under the same conditions. Most of the models here presented were either assessed in an evaluation task or either used their setup. Recognising the importance of this effort, we curated and developed an evaluation campaign for classifying political tweets. In addition, as we advanced in the development of this work, we decided to study in-depth CNNs applied to NLP tasks. Two lines of work were explored in this regard. Firstly, we proposed a semantic-based padding method for CNNs, which addresses how to represent text more appropriately for solving NLP tasks. Secondly, a theoretical framework was introduced for tackling one of the most frequent critics of Deep Learning: interpretability. This framework seeks to visualise what lexical patterns, if any, the CNN is learning in order to classify a sentence. In summary, the main achievements presented in this thesis are: - The organisation of an evaluation campaign for Topic Classification from texts gathered from social media. - The proposal of several Machine Learning models tackling the Sentiment Analysis task from social media. Besides, a study of the impact of linguistic devices such as figurative language in the task is presented. - The development of a model for inferring the personality of a developer provided the source code that they have written. - The study of Personality Recognition tasks from social media following two different approaches, models based on machine learning algorithms and handcrafted features, and models based on CNNs were proposed and compared both approaches. - The introduction of new semantic-based paddings for optimising how the text was represented in CNNs. - The definition of a theoretical framework to provide interpretable information to what CNNs were learning internally.
Giménez Fayos, MT. (2021). Natural Language Processing using Deep Learning in Social Media [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/172164
TESIS
APA, Harvard, Vancouver, ISO, and other styles
36

Agarwal, Richa. "Computer aided detection for breast lesion in ultrasound and mammography." Doctoral thesis, Universitat de Girona, 2019. http://hdl.handle.net/10803/670295.

Full text
Abstract:
In the field of breast cancer imaging, traditional Computer Aided Detection (CAD) systems were designed using limited computing resources and used scanned films (poor image quality), resulting in less robust application process. Currently, with the advancements in technologies, it is possible to perform 3D imaging and also acquire high quality Full-Field Digital Mammogram (FFDM). Automated Breast Ultrasound (ABUS) has been proposed to produce a full 3D scan of the breast automatically with reduced operator dependency. When using ABUS, lesion segmentation and tracking changes over time are challenging tasks, as the 3D nature of the images make the analysis difficult and tedious for radiologists. One of the goals of this thesis is to develop a framework for breast lesion segmentation in ABUS volumes. The 3D lesion volume in combination with texture and contour analysis, could provide valuable information to assist radiologists in the diagnosis. Although ABUS volumes are of great interest, x-ray mammography is still the gold standard imaging modality used for breast cancer screening due to its fast acquisition and cost-effectiveness. Moreover, with the advent of deep learning methods based on Convolutional Neural Network (CNN), the modern CAD Systems are able to learn automatically which imaging features are more relevant to perform a diagnosis, boosting the usefulness of these systems. One of the limitations of CNNs is that they require large training datasets, which are very limited in the field of medical imaging. In this thesis, the issue of limited amount of dataset is addressed using two strategies: (i) by using image patches as inputs rather than full sized image, and (ii) use the concept of transfer learning, in which the knowledge obtained by training for one task is used for another related task (also known as domain adaptation). In this regard, firstly the CNN trained on a very large dataset of natural images is adapted to classify between mass and non-mass image patches in the Screen-Film Mammogram (SFM), and secondly the newly trained CNN model is adapted to detect masses in FFDM. The prospects of using transfer learning between natural images and FFDM is also investigated. Two public datasets CBIS-DDSM and INbreast have been used for the purpose. In the final phase of research, a fully automatic mass detection framework is proposed which uses the whole mammogram as the input (instead of image patches) and provides the localisation of the lesion within this mammogram as the output. For this purpose, OPTIMAM Mammography Image Database (OMI-DB) is used. The results obtained as part of this thesis showed higher performances compared to state-of-the-art methods, indicating that the proposed methods and frameworks have the potential to be implemented within advanced CAD systems, which can be used by radiologists in the breast cancer screening
En el camp de les imatges de càncer de mama, els sistemes tradicionals de detecció assistida per ordinador (de l’anglès CAD) es van dissenyar utilitzant recursos informàtics limitats i pel·lícules de mamografia escanejades (del angles SFM) de qualitat d’imatge deficient, fet que va resultar en aplicacions poc robustes. Actualment, amb els avanços de les tecnologies, és possible realitzar imatges mèdiques en 3D i adquirir mamografies digitals (de l’anglès FFDM) d’alta qualitat. L’ultrasò automàtic de la mama (de l’anglès ABUS) ha estat proposat per adquirir imatges 3D de la mama amb escassa dependència del operador. Quan s’utilitza ABUS, la segmentació i seguiment de les lesions en el temps s ́on tasques complicades ja que la naturalesa 3D de les imatges fa que l’anàlisi sigui difícil i feixuc per els radiòlegs. Un dels objectius d’aquesta tesi és desenvolupar un marc per la segmentació semi-automàtica de lesions mamàries en volums ABUS. El volum de lesió 3D, en combinació amb l’anàlisi de la textura i el contorn, podria proporcionar informació valuosa per realitzar el diagnòstic radiològic. Tot i que els volums de ABUS són de gran interès, la mamografia de raigs X continua essent la modalitat d’imatge estàndard utilitzada per la detecció precoç del càncer de mama, degut principalment a la seva ràpida adquisició i rendibilitat. A més, amb l’arribada dels mètodes d’aprenentatge profund basats en xarxes neuronals convolucionals (de l’anglès CNN), els sistemes CAD moderns poden aprendre automàticament quines característiques de la imatge són més rellevants per realitzar un diagnòstic, fet que augmenta la utilitat d’aquests sistemes. Una de les limitacions de les CNN és que requereixen de grans conjunts de dades per entrenar, els quals són molt limitats en el camp de la imatge mèdica. En aquesta tesi, el tema de la poca disponibilitat d’imatges mediques s’aborda mitjançant dues estratègies: (i) utilitzant regions de la imatge com a entrada en comptes de les imatges de mida original, i (ii) mitjançant tècniques d’aprenentatge per transferència, en el que el coneixement après per a una determinada tasca es transfereix a una altra tasca relacionada (també conegut com a adaptació de domini). En primer lloc, la CNN entrenada en un conjunt de dades molt gran d’imatges naturals és adaptada per classificar regions de la imatge en tumor i no tumor de SFM i, en segon lloc, la CNN entrenada és adaptada per detectar tumors en FFDM. També s’ha investigat l’aprenentatge per transferència entre imatges naturals i FFDM. S’han utilitzat dos conjunts de dades públiques (CBIS-DDSM i INbreast) per aquest propòsit. En la fase final de la investigació, es proposa un marc de detecció automàtica de tumors utilitzant la mamografia original com entrada (en lloc de regions de la imatge) i que proporciona la localització de la lesió dins d’aquesta mamografia com a sortida. Per aquest propòsit s’utilitza una altra base de dades (OMI-DB). Els resultats obtinguts com a part d’aquesta tesi mostren millors rendiments en comparació amb l’estat de l’art, el que indica que els mètodes i marcs proposats tenen el potencial de ser implementats dins de sistemes CAD avançats, que poden ser utilitzats per radiòlegs en el cribratge del càncer de mama
APA, Harvard, Vancouver, ISO, and other styles
37

Bernal, Moyano Jose. "Deep learning for atrophy quantification in brain magnetic resonance imaging." Doctoral thesis, Universitat de Girona, 2020. http://hdl.handle.net/10803/671699.

Full text
Abstract:
The quantification of cerebral atrophy is fundamental in neuroinformatics since it permits diagnosing brain diseases, assessing their progression, and determining the effectiveness of novel treatments to counteract them. However, this is still an open and challenging problem since the performance 2/2 of traditional methods depends on imaging protocols and quality, data harmonisation errors, and brain abnormalities. In this doctoral thesis, we question whether deep learning methods can be used for better estimating cerebral atrophy from magnetic resonance images. Our work shows that deep learning can lead to a state-of-the-art performance in cross-sectional assessments and compete and surpass traditional longitudinal atrophy quantification methods. We believe that the proposed cross-sectional and longitudinal methods can be beneficial for the research and clinical community
La cuantificación de la atrofia cerebral es fundamental en la neuroinformática ya que permite diagnosticar enfermedades cerebrales, evaluar su progresión y determinar la eficacia de los nuevos tratamientos para contrarrestarlas. Sin embargo, éste sigue siendo un problema abierto y difícil, ya que el rendimiento de los métodos tradicionales depende de los protocolos y la calidad de las imágenes, los errores de armonización de los datos y las anomalías del cerebro. En esta tesis doctoral, cuestionamos si los métodos de aprendizaje profundo pueden ser utilizados para estimar mejor la atrofia cerebral a partir de imágenes de resonancia magnética. Nuestro trabajo muestra que el aprendizaje profundo puede conducir a un rendimiento de vanguardia en las evaluaciones transversales y competir y superar los métodos tradicionales de cuantificación de la atrofia longitudinal. Creemos que los métodos transversales y longitudinales propuestos pueden ser beneficiosos para la comunidad investigadora y clínica
APA, Harvard, Vancouver, ISO, and other styles
38

Silveira, Ermelinda Ganem Fernandes. "Contribuições da psicologia profunda de Carl Gustav Jung para um modelo de gestão do conhecimento nas organizações." Florianópolis, 2012. http://repositorio.ufsc.br/xmlui/handle/123456789/99479.

Full text
Abstract:
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento
Made available in DSpace on 2013-03-04T20:50:15Z (GMT). No. of bitstreams: 1 305131.pdf: 117223006 bytes, checksum: 7e0f2ab0574badc233701a20ee2ef1e8 (MD5)
O tema e objetivo desta tese é a construção de um modelo de gestão do conhecimento nas organizações utilizando a psicologia analítica do psiquiatra suiço Carl Gustav Jung. Este estudo, investindo na busca pela transformação do relacionamento do homem com as organizações, está fundamentado numa abordagem de ser humano multidimensional, que constroe e transforma conhecimento nas organizações vivas compreendidas como "redes psíquicas de conversações arquetípicas". Encontra-se em sua base conceitual a metatriangulação entre os paradigmas interpretativista e humanista radical de Burrell e Morgan, sustentada no modelo qualitativo de pesquisa científica. O modelo proposto descreve as etapas do processo de individuação junguiano, relacionando-as ao processo de criação e representação do conhecimento nas organizações, mais precisamente em ambientes de construção e representação de conhecimento arquetípico compartilhado. No momento do experimento a pesquisa utiliza a hermenêutica simbólica como forma de leitura da realidade social. Em sua base metodológica, o modelo propõe a macro e a microestrutura de grupos vivenciais junguianos, em um formato de psicoterapia breve, trabalhando conteúdos tácitos (inconscientes), nas suas articulações com o conhecimento explícitável (consciente) através da utilização de entrevistas e métodos não verbais. A validação conceitual do modelo deu-se por um estudo de caso onde, por meio das percepções e vivências dos sujeitos da pesquisa (participantes e facilitadores), buscou-se a testagem e avaliação do modelo. Numa avaliação geral, durante as entrevistas coletivas, o método foi considerado satisfatório para a criação/representação do conhecimento organizacional. A utilização da observação participante, como técnica de levantamento de dados, também trouxe subsídios para a validação e consequentemente para o refinamento do modelo.
The theme and purpose of this thesis is to build a model of knowledge management in organizations using the analytical psychology of the swiss psychiatrist Carl Gustav Jung. This study, investing in the search of transformation of man's relationship with the organizations, is based on a multidimensional approach to human beings, which builds knowledge and changes in living organizations understood as "psychic networks of archetypal conversations". Lies in its conceptual base to metatriangulation between interpretive and radical humanist paradigms from Burrell and Morgan#s, supported the qualitative model of scientific research. The proposed model describes the stages of jungian individuation, relating them to the process of creation and representation of knowledge in organizations, specifically in construction environments and archetypal representation of shared knowledge. At the time of the experiment, the research used symbolic hermeneutics as a mean of reading the social reality. In its methodological basis, the model proposes the macro and microstructure of experiential Jungian groups in a format of brief psychotherapy, working contents tacit (unconscious), in their joints with the knowledge explicitation (conscious) through the use of interviews and non-verbal methods. The conceptual model validation was performed by a case study where, through the perceptions and experiences of research subjects (participants and facilitators), we sought to test and evaluate the model. Upon the whole, during the interviews, the method was satisfactory for the creation / representation of organizational knowledge. The use of participant observation as a technique for data collection, also brought benefits for the validation and consequently for the refinement of the model.
APA, Harvard, Vancouver, ISO, and other styles
39

Cárdenas, Chapellín Julio José. "Inversion of geophysical data by deep learning." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS185.

Full text
Abstract:
Cette thèse présente la caractérisation d’anomalies magnétiques par des réseaux de neurones convolutifs, et l’application d’outils de visualisation pour comprendre et valider leurs prédictions. L’approche développée permet la localisation de dipôles magnétiques, incluant le comptage dunombre de dipôles, leur position géographique, et la prédiction de leurs paramètres (moment magnétique, profondeur, et déclinaison). Nos résultats suggèrent que la combinaison de deux modèles d’apprentissage profond, "YOLO" et "DenseNet", est la plus performante pour atteindre nos objectifs de classification et de régression. De plus, nous avons appliqué des outils de visualisation pour comprendre les prédictions de notre modèle et son principe de fonctionnement. Nous avons constaté que l’outil Grad-CAM a amélioré les performances de prédiction en identifiant plusieurs couches qui n’avaient aucune influence sur la prédiction et l’outil t-SNE a confirmé la bonne capacité de notre modèle à différencier différentes combinaisons de paramètres. Ensuite, nous avons testé notre modèle avec des données réelles pour établir ses limites et son domaine d’application. Les résultats montrent que notre modèle détecte les anomalies dipolaires dans une carte magnétique réelle, même après avoir appris d’une base de données synthétique de moindre complexité, ce qui indique une capacité de généralisation significative. Nous avons également remarqué qu’il n’est pas capable d’identifier des anomalies dipolaires de formes et de tailles différentes de celles considérées pour la création de la base de données synthétique. Nos travaux actuels consistent à créer de nouvelles bases de données en combinant des données synthétiques et réelles afin de comparer leur influence potentielle dans l’amélioration des prédictions. Enfin, les perspectives de ce travail consistent à valider la pertinence opérationnelle et l’adaptabilité de notre modèle dans des conditions réalistes et à tester d’autres applications avec des méthodes géophysiques alternatives
This thesis presents the characterization ofmagnetic anomalies using convolutional neural networks, and the application of visualization tools to understand and validate their predictions. The developed approach allows the localization of magnetic dipoles, including counting the number of dipoles, their geographical position, and the prediction of their parameters (magnetic moment, depth, and declination). Our results suggest that the combination of two deep learning models, "YOLO" and "DenseNet", performs best in achieving our classification and regression goals. Additionally, we applied visualization tools to understand our model’s predictions and its working principle. We found that the Grad-CAM tool improved prediction performance by identifying several layers that had no influence on the prediction and the t-SNE tool confirmed the good ability of our model to differentiate among different parameter combinations. Then, we tested our model with real data to establish its limitations and application domain. Results demonstrate that our model detects dipolar anomalies in a real magnetic map even after learning from a synthetic database with a lower complexity, which indicates a significant generalization capability. We also noticed that it is not able to identify dipole anomalies of shapes and sizes different from those considered for the creation of the synthetic database. Our current work consists in creating new databases by combining synthetic and real data to compare their potential influence in improving predictions. Finally, the perspectives of this work consist in validating the operational relevance and adaptability of our model under realistic conditions and in testing other applications with alternative geophysical methods
Esta tesis presenta la caracterización de anomalías magnéticas mediante redes neuronales convolucionales, y la aplicación de herramientas de visualización para entender y validar sus predicciones. El enfoque desarrollado permite la localización de dipolos magnéticos, incluyendo el recuento delnúmero de dipolos, su posición geográfica y la predicción de sus parámetros (momento magnético, profundidad y declinación). Nuestros resultados sugieren que la combinación de dos modelos de aprendizaje profundo, "YOLO" y "DenseNet", es la que mejor se ajusta a nuestros objetivos de clasificación y regresión. Adicionalmente, aplicamos herramientas de visualización para entender las predicciones de nuestromodelo y su principio de funcionamiento. Descubrimos que la herramienta Grad-CAM mejoraba el rendimiento de la predicción al identificar varias capas que no influían enla predicción y la herramienta t-SNE confirmaba la buena capacidad de nuestro modelo para diferenciar entre distintas combinaciones de parámetros. Seguidamente, probamos nuestro modelo con datos reales para establecer sus limitaciones y su rango de aplicación. Los resultados demuestran quenuestro modelo detecta anomalías dipolares en unmapa magnético real incluso después de aprender de una base de datos sintética con una complejidad menor, lo que indica una capacidad de generalización significativa. También observamos que no es capaz de identificar anomalías dipolares de formas y tamaños diferentes a los considerados para la creación de la base de datos sintética. Nuestro trabajo actual consiste en crear nuevas bases de datos combinando datos sintéticos y reales para comparar su posible influencia en la mejora de las predicciones. Por último, las perspectivas de este trabajo consisten en validar la pertinencia operativa y la adaptabilidad de nuestro modelo en condiciones realistas y en probar otras aplicaciones con métodos geofísicos alternativos
APA, Harvard, Vancouver, ISO, and other styles
40

Pires, Edna Misseno. "O SUCESSO ESCOLAR DE ALUNOS COM SURDEZ NEUROSSENSORIAL SEVERO/PROFUNDA: A EDUCAÇÃO EM TEMPOS DE INCLUSÃO/ EXCLUSÃO." Pontifícia Universidade Católica de Goiás, 2008. http://localhost:8080/tede/handle/tede/1213.

Full text
Abstract:
Made available in DSpace on 2016-07-27T13:54:12Z (GMT). No. of bitstreams: 1 EDNA MISSENO PIRES.pdf: 539327 bytes, checksum: 4efd978a5119b6885f1005c1a928c5ef (MD5) Previous issue date: 2008-09-19
Inclusion has currently been a widely discussed theme due to movements and legal demands in favor of the schooling of special needs people. Human diversity has become an object of study for several educators in search of teaching strategies compatible to individual students needs. Although the school is the institution in charge of operationalizing such strategies, it has reproduced the cultural capital of subject s contexts, revealing even more social, physical, economical and cultural inequalities, and, consequently, creating educational inequalities as well. Still, there are people who attain successful schooling by concluding Higher Education courses, a prominent case being that of subjects with a level of deafness classified as a special need. Therefore, this study aims at the comprehension of the key factors which made possible for people with severe/deep deafness to conclude Higher Education courses, investigating the social-cultural contexts of their life stories and their route of learning throughout the schooling period. In order to achieve such aim, a qualitative research was conducted based on the inquiry of life stories of 8 deaf subjects concluding Higher Education courses until 2007 in the following types of institutions: a public university, a confessional university, a private university and a private college in the city of Goiânia. The conduction of the study also consisted of the analysis of the conception of inclusion as educational inequalities based on Pierre Bourdieu, the conception of learning in the perspective of Bernard Charlot and the conception of learning by deaf subjects in the view of Ronice Muller Quadros.
Atualmente a "inclusão" tem sido um tema amplamente discutido devido aos movimentos e as exigências legais em prol da escolarização das pessoas com necessidades especiais. A diversidade humana tornou-se objeto de estudo de vários educadores na busca de estratégias de ensino que adequadas ás necessidades de cada aluno. Embora a escola seja a instituição responsável pela a operacionalização dessas estratégias, tem desempenhado o papel de reprodutora do capital cultural do contexto que cada indivíduo está inserido expondo ainda mais as desigualdades sociais, físicas, econômicas e culturais, gerando as desigualdades educativas. Ainda assim há pessoas que conseguem obter o sucesso escolar por concluir o ensino superior, destes destacam-se aqueles que possuem surdez que se caracteriza como sendo uma necessidade especial. Assim, o presente estudo objetiva compreender os fatores que permitiram a construção do sucesso escolar de alunos com surdez neurossensorial (severo/profunda) que concluíram o ensino superior, investigando nas histórias de vidas o contexto sócio-cultural destes sujeitos. Buscou, ainda, investigar o percurso da aprendizagem desse aluno durante a sua escolarização. Para cumprir com esta proposta de trabalho foi utilizado a pesquisa qualitativa baseada na investigação das histórias de vidas de 8 sujeitos surdos concluintes do ensino superior até o ano de 2007, nas seguintes instituições: uma Universidade Pública, uma Universidade Confessional, uma Universidade Particular e uma Faculdade Particular da cidade de Goiânia. Para proceder com a investigação foi analisado a concepção de "inclusão como desigualdades educativas a partir de Pierre Bourdieu, a concepção de "aprendizagem" na perspectiva de Bernad Charlot e "aprendizagem dos surdos na perspectiva de Ronice Müller Quadros.
APA, Harvard, Vancouver, ISO, and other styles
41

Banús, Paradell Núria. "New solutions to control robotic environments: quality control in food packaging." Doctoral thesis, Universitat de Girona, 2021. http://hdl.handle.net/10803/673469.

Full text
Abstract:
Machine vision systems and artificial intelligence techniques are two active research areas in the context of Industry 4.0. Their combination allows the reproduction of human procedures while improving the performance of the processes. However, to achieve the desired full automation, there is a need for new applications able to cover as many industrial scenarios and processes as possible. One of the areas that needs further research and development is the quality control of food packaging, and more specifically in the closure and sealing control of thermoforming packages. The shortcomings in this area were detected by TAVIL who, in collaboration with GILAB, proposed an Industrial Doctorate to investigate, develop and integrate in real scenarios new methods to improve the packaging stage of the food industry by using machine vision systems and artificial intelligence techniques. In the context of this Industrial Doctorate, two focuses of research were defined that differ at the level at which the problem is studied. The first focused on the quality control of food packages, and the second on the efficient management of machine vision systems in industrial scenarios
Els sistemes de visió per computador i les tècniques d’intel·ligència artificial són dues àrees de recerca actives en el context de la Indústria 4.0. La seva combinació permet la reproducció de procediments humans millorant al mateix temps el rendiment dels processos. Malgrat això, per aconseguir l’automatització completa desitjada, hi ha la necessitat de noves aplicacions capaces de cobrir el màxim d’escenaris i processos industrials possibles. Una de les àrees que necessita més investigació i desenvolupament és el control de qualitat dels envasos d’aliments, i més concretament, el control del tancament i del segellat d’envasos termoformats. Les necessitats en aquesta àrea van ser identificades per TAVIL que, amb col·laboració amb GILAB, van proposar un Doctorat Industrial per investigar, desenvolupar i integrar en escenaris reals nous mètodes per millorar l’etapa d’envasat de la indústria alimentària mitjançant sistemes de visió per computador i tècniques d’intel·ligència artificial. En el context d’aquest Doctorat Industrial, s’han seguit dues línies d’investigació que es diferencien en el nivell en el qual estudien el problema. La primera línia es basa en el control de qualitat d’envasos d’aliments, mentre que la segona es basa en el control eficient de sistemes de visió per computador en escenaris industrials
Programa de Doctorat en Tecnologia
APA, Harvard, Vancouver, ISO, and other styles
42

SILVA, JÚNIOR Marcondes Ricarte da. "Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetos." Universidade Federal de Pernambuco, 2016. https://repositorio.ufpe.br/handle/123456789/21053.

Full text
Abstract:
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:45:41Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5)
Made available in DSpace on 2017-08-31T12:45:41Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5) Previous issue date: 2016-08-30
CAPES
Os robôs móveis estão cada vez mais inclusos na sociedade moderna podendo se locomover usando “coordenadas cartográficas”. No entanto, com o intuito de aperfeiçoar a interação homem-robô e a navegação das máquinas nos ambientes, os robôs podem dispor da habilidade de criar um Mapa Semântico realizando Categorização dos Lugares. Este é o nome da área de estudo que busca replicar a habilidade humana de aprender, identificar e inferir os rótulos conceituais dos lugares através de sensores, em geral, câmeras. Esta pesquisa busca realizar a Categorização de Lugares baseada em objetos existentes no ambiente. Os objetos são importantes descritores de informação para ambientes fechados. Desse modo as imagens podem ser representadas por um vetor de frequência de objetos contidos naquele lugar. No entanto, a quantidade de todos possíveis tipos de objetos existentes é alta e os lugares possuem poucos destes, fazendo com que a representação vetorial de um lugar através de objetos contidos nele seja esparsa. Os métodos propostos por este trabalho possuem duas etapas: Redutor de Dimensionalidade e Categorizador. A primeira se baseia em conceitos de Compressão de Sinais, de Aprendizagem Profunda e Mapas Auto-Organizáveis (SOMs), a fim de realizar o pré-processamento dos dados de frequência de objetos para a redução da dimensionalidade e minimização da esparsidade dos dados. Para segunda etapa foi proposto o uso de múltiplos Mapas Auto-Organizáveis Probabilísticos (PSOMs). Os experimentos foram realizados para os métodos propostos por esse trabalho e comparados com o Filtro Bayesiano, existente na literatura para solução desse problema. Os experimentos foram realizados com quatro diferentes bases de dados que variam em ordem crescente de quantidade de amostras e categorias. As taxas de acerto dos métodos propostos demonstraram ser superiores à literatura quando o número de categorias das bases de dados é alta. Os resultados para o Filtro Bayesiano degeneram para as bases com maiores quantidade de categorias, enquanto para os métodos propostos por essa pesquisa as taxas de acerto caem mais lentamente.
Mobile Robots are currently included in modern society routine in which they may move around often using "cartographic coordinates". However, in order to improve human-robot interaction and navigation of the robots in the environment, they can have the ability to create a Semantic Map by Categorization of Places. The computing area of study that searches to replicate the human ability to learn, identify and infer conceptual labels for places through sensor data, in general, cameras is the Place Categorization. These methods aim to categorize places based on existing objects in the environment which constitute important information descriptors for indoors. Thus, each image can be represented by the frequency of the objects present in a particular place. However, the number of all possible types of objects is high and the places do have few of them, hence, the vector representation of the objects in a place is usually sparse. The methods proposed by this dissertation have two stages: Dimensionality reduction and categorization. The first stage relies on Signal Compression concepts, Deep Learning and Self-Organizing Maps (SOMs), aiming at preprocessing the data on object frequencies for dimensionality reduction and minimization of data sparsity. The second stage employs Probabilistic Self-Organizing Maps (PSOMs). The experiments were performed for the two proposed methods and compared with the Bayesian filter previously proposed in the literature. The experiments were performed with four different databases ranging considering different number of samples and categories. The accuracy of the proposed methods was higher than the previous models when the number of categories of the database is high. The results for the Bayesian filter tends to degrade with higher number of categories, so do the proposed methods, however, in a slower rate.
APA, Harvard, Vancouver, ISO, and other styles
43

Lopes, André Teixeira. "Facial expression recognition using deep learning - convolutional neural network." Universidade Federal do Espírito Santo, 2016. http://repositorio.ufes.br/handle/10/4301.

Full text
Abstract:
Made available in DSpace on 2016-08-29T15:33:24Z (GMT). No. of bitstreams: 1 tese_9629_dissertacao(1)20160411-102533.pdf: 9277551 bytes, checksum: c18df10308db5314d25f9eb1543445b3 (MD5) Previous issue date: 2016-03-03
CAPES
O reconhecimento de expressões faciais tem sido uma área de pesquisa ativa nos últimos dez anos, com uma área de aplicação em crescimento como animação de personagens e neuro-marketing. O reconhecimento de uma expressão facial não é um problema fácil para métodos de aprendizagem de máquina, dado que pessoas diferentes podem variar na forma com que mostram suas expressões. Até uma imagem da mesma pessoa em uma expressão pode variar em brilho, cor de fundo e posição. Portanto, reconhecer expressões faciais ainda é um problema desafiador em visão computacional. Para resolver esses problemas, nesse trabalho, nós propomos um sistema de reconhecimento de expressões faciais que usa redes neurais de convolução. Geração sintética de dados e diferentes operações de pré-processamento foram estudadas em conjunto com várias arquiteturas de redes neurais de convolução. A geração sintética de dados e as etapas de pré-processamento foram usadas para ajudar a rede na seleção de características. Experimentos foram executados em três bancos de dados largamente utilizados (CohnKanade, JAFFE, e BU3DFE) e foram feitas validações entre bancos de dados(i.e., treinar em um banco de dados e testar em outro). A abordagem proposta mostrou ser muito efetiva, melhorando os resultados do estado-da-arte na literatura.
Facial expression recognition has been an active research area in the past ten years, with growing application areas such avatar animation, neuromarketing and sociable robots. The recognition of facial expressions is not an easy problem for machine learning methods, since people can vary signi cantly in the way that they show their expressions. Even images of the same person in one expression can vary in brightness, background and position. Hence, facial expression recognition is still a challenging problem. To address these problems, in this work we propose a facial expression recognition system that uses Convolutional Neural Networks. Data augmentation and di erent preprocessing steps were studied together with various Convolutional Neural Networks architectures. The data augmentation and pre-processing steps were used to help the network on the feature selection. Experiments were carried out with three largely used databases (Cohn-Kanade, JAFFE, and BU3DFE) and cross-database validations (i.e. training in one database and test in another) were also performed. The proposed approach has shown to be very e ective, improving the state-of-the-art results in the literature and allowing real time facial expression recognition with standard PC computers.
APA, Harvard, Vancouver, ISO, and other styles
44

Mendes, Caio César Teodoro. "Navigability estimation for autonomous vehicles using machine learning." Universidade de São Paulo, 2017. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25092017-102021/.

Full text
Abstract:
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results.
A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
APA, Harvard, Vancouver, ISO, and other styles
45

Reis, Maria João Rodrigues de Sá. "Compreensão da leitura: Desempenho em alunos surdos severos e surdos profundos no final do 1º ciclo do ensino básico." Master's thesis, Instituto Superior de Psicologia Aplicada, 2007. http://hdl.handle.net/10400.12/847.

Full text
Abstract:
Dissertação de Mestrado em Psicologia Educacional
A leitura é uma área crucial no processo educativo de crianças surdas na medida em que estas se encontram privadas de aceder por via auditiva à informação, veiculada numa sociedade maioritariamente ouvinte pela linguagem oral. Para as crianças surdas a possibilidade de desenvolvimento de capacidades literácitas parece estar dependente de : (i) compreensão e aquisição do sistema alfabético e de componentes morfofonológicas; (ii) aprendizagem e conhecimento de outras componentes linguísticas (lexicais e sintácticas); (iii) organização e activação de conhecimentos prévios; (iv) monitorização metacognitiva da leitura. Anteriores a estas, competências emergentes da leitura são igualmente cruciais: compreensão da função, utilidade, organização e convenções da escrita. O objectivo central deste trabalho é o de caracterizar o desempenho em leitura, de compreensão da leitura, em alunos surdos severos e surdos profundos, no final do 1o ciclo do Ensino Básico, por referência aos objectivos e competências essenciais definidos para a Língua Portuguesa, para este ciclo de escolaridade. A população envolvida correspondeu ao universo dos alunos a frequentar o 4o ano de escolaridade em estabelecimentos de ensino público de referência de Unidades de Apoio à Educação de Crianças e Jovens Surdos (Despacho n°7520/98), do território continental português, no ano lectivo de 2000/2001, num total de 77 sujeitos. O instrumento concebido para este estudo, prova de leitura, visou, por um lado, a obtenção de indicadores de desempenho global em leitura e por outro, por referência aos objectivos curriculares definidos no programa em vigor, a identificação de desempenhos em diversos itens, respeitantes a competências específicas de leitura. Na elaboração da prova consideraram-se aspectos estruturais, respeitando-se a matriz da Prova de Aferição de Língua Portuguesa do 4o ano de escolaridade (1999/2000) e aspectos linguísticos inerentes à população em estudo. A definição das variáveis independentes prendeu-se com as características da população que pensamos poderem estar relacionadas com os desempenhos, contribuindo assim, para a sua explicação enquanto variável dependente e com as questões de investigação por nós levantadas. A análise dos resultados foi feita através de análises de variância (ANOVA). Independentemente do efeito das variáveis, constatámos que os resultados globais correspondem a uma taxa de aproximadamente 37% de provas com pontuações iguais ou inferiores ao valor médio de cotação da prova. A análise dos desempenhos por itens permite-nos concluir que: (i) os sujeitos surdos severos, os sujeitos mais novos e os sujeitos com comunicação oral são os que melhores desempenhos obtêm; (ii) a generalidade dos sujeitos apresenta melhores desempenhos nos itens que remetem para competências de compreensão literal do escrito. Este último dado permite-nos dizer que o desempenho em leitura em alunos surdos severos e surdos profundos é qualitativamente semelhante ao encontrado em estudos realizados anteriormente com populações ouvintes. Os resultados deste estudo apontam para uma clara relação entre os diferentes factores, correspondentes às características intrínsecas dos sujeitos: idade, grau de surdez e modo de comunicação. Por sua vez, as categorias correspondentes a cada factor (idade igual ou inferior a 10 anos e idade igual ou superior a 11 anos; surdez severa e surdez profunda; modo de comunicação oral e modo de comunicação gestual (LGP ou gesto natural) interagem definindo padrões de resposta. Em termos globais, independentemente da análise das interacções entre variáveis, concluímos que: (i) os sujeitos surdos severos apresentam melhores desempenhos do que os surdos profundos; (ii) os sujeitos mais novos, com idade igual ou inferior a 10 anos, apresentam melhores desempenhos do que os mais velhos, com idade igual ou superior a 11 anos; (iii) os sujeitos com comunicação oral apresentam melhores desempenhos do que os com comunicação gestual, sendo os que comunicam predominantemente através do gesto natural os que piores desempenhos apresentam. Em crianças surdas, actividades que conduzam à possibilidade de compreender e utilizar sistemas de codificação interna que possibilitem processar fonologicamente a informação escrita deverão assumir papel preponderante no processo de ensino da linguagem escrita. Actividades de pré e de pós leitura, enfatizando nestas últimas a ligação entre a leitura e a escrita como um contínuo de linguagem, aliadas a tarefas de auto-monitorização, fazendo recurso a estratégias metacognitivas, contribuirão para o desenvolvimento de competências de leitura, potencializadora de um pensamento flexível e crítico, contribuirão, enfim, para a construção de um pensamento literácito em crianças e jovens surdos.
APA, Harvard, Vancouver, ISO, and other styles
46

Paula, Thomas da Silva. "Contributions in face detection with deep neural networks." Pontif?cia Universidade Cat?lica do Rio Grande do Sul, 2017. http://tede2.pucrs.br/tede2/handle/tede/7563.

Full text
Abstract:
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-07-04T12:23:43Z No. of bitstreams: 1 DIS_THOMAS_DA_SILVA_PAULA_COMPLETO.pdf: 10601063 bytes, checksum: f63f9b6e33e22c4a2553f784a3a029e1 (MD5)
Made available in DSpace on 2017-07-04T12:23:44Z (GMT). No. of bitstreams: 1 DIS_THOMAS_DA_SILVA_PAULA_COMPLETO.pdf: 10601063 bytes, checksum: f63f9b6e33e22c4a2553f784a3a029e1 (MD5) Previous issue date: 2017-03-28
Reconhecimento facial ? um dos assuntos mais estudos no campo de Vis?o Computacional. Dada uma imagem arbitr?ria ou um frame arbitr?rio, o objetivo do reconhecimento facial ? determinar se existem faces na imagem e, se existirem, obter a localiza??o e a extens?o de cada face encontrada. Tal detec??o ? facilmente feita por seres humanos, por?m continua sendo um desafio em Vis?o Computacional. O alto grau de variabilidade e a dinamicidade da face humana tornam-a dif?cil de detectar, principalmente em ambientes complexos. Recentementemente, abordagens de Aprendizado Profundo come?aram a ser utilizadas em tarefas de Vis?o Computacional com bons resultados. Tais resultados abriram novas possibilidades de pesquisa em diferentes aplica??es, incluindo Reconhecimento Facial. Embora abordagens de Aprendizado Profundo tenham sido aplicadas com sucesso para tal tarefa, a maior parte das implementa??es estado da arte utilizam detectores faciais off-the-shelf e n?o avaliam as diferen?as entre eles. Em outros casos, os detectores faciais s?o treinados para m?ltiplas tarefas, como detec??o de pontos fiduciais, detec??o de idade, entre outros. Portanto, n?s temos tr?s principais objetivos. Primeiramente, n?s resumimos e explicamos alguns avan?os do Aprendizado Profundo, detalhando como cada arquitetura e implementa??o funcionam. Depois, focamos no problema de detec??o facial em si, realizando uma rigorosa an?lise de alguns dos detectores existentes assim como algumas implementa??es nossas. N?s experimentamos e avaliamos varia??es de alguns hiper-par?metros para cada um dos detectores e seu impacto em diferentes bases de dados. N?s exploramos tanto implementa??es tradicionais quanto mais recentes, al?m de implementarmos nosso pr?prio detector facial. Por fim, n?s implementamos, testamos e comparamos uma abordagem de meta-aprendizado para detec??o facial, que visa aprender qual o melhor detector facial para uma determinada imagem. Nossos experimentos contribuem para o entendimento do papel do Aprendizado Profundo em detec??o facial, assim como os detalhes relacionados a mudan?a de hiper-par?metros dos detectores faciais e seu impacto no resultado da detec??o facial. N?s tamb?m mostramos o qu?o bem features obtidas com redes neurais profundas ? treinadas em bases de dados de prop?sito geral ? combinadas com uma abordagem de meta-aprendizado, se aplicam a detec??o facial. Nossos experimentos e conclus?es mostram que o aprendizado profundo possui de fato um papel not?vel em detec??o facial.
Face Detection is one of the most studied subjects in the Computer Vision field. Given an arbitrary image or video frame, the goal of face detection is to determine whether there are any faces in the image and, if present, return the image location and the extent of each face. Such a detection is easily done by humans, but it is still a challenge within Computer Vision. The high degree of variability and the dynamicity of the human face makes it an object very difficult to detect, mainly in complex environments. Recently, Deep Learning approaches started to be applied for Computer Vision tasks with great results. They opened new research possibilities in different applications, including Face Detection. Even though Deep Learning has been successfully applied for such a task, most of the state-of-the-art implementations make use of off-the-shelf face detectors and do not evaluate differences among them. In other cases, the face detectors are trained in a multitask manner that includes face landmark detection, age detection, and so on. Hence, our goal is threefold. First, we summarize and explain many advances of deep learning, detailing how each different architecture and implementation work. Second, we focus on the face detection problem itself, performing a rigorous analysis of some of the existing face detectors as well as implementations of our own. We experiment and evaluate variations of hyper-parameters for each of the detectors and their impact in different datasets. We explore both traditional and more recent approaches, as well as implementing our own face detectors. Finally, we implement, test, and compare a meta learning approach for face detection, which aims to learn the best face detector for a given image. Our experiments contribute in understanding the role of deep learning in face detection as well as the subtleties of changing hyper-parameters of the face detectors and their impact in face detection. We also show how well features obtained with deep neural networks trained on a general-purpose dataset perform on a meta learning approach for face detection. Our experiments and conclusions show that deep learning has indeed a notable role in face detection.
APA, Harvard, Vancouver, ISO, and other styles
47

Ishii, Ione. "O que os estudantes pensam e esperam de seus professores?: uma análise qualitativa das concepções de aprendizagem e de ensino de estudantes do nível médio." Universidade de São Paulo, 2010. http://www.teses.usp.br/teses/disponiveis/48/48134/tde-18052010-113304/.

Full text
Abstract:
Em 1974, Marton e Säljö introduziram conceitos qualitativos para as posturas de aprendizagem de estudantes universitários, através de uma atividade de leitura. Os resultados mostraram a presença de duas posturas de aprendizagem para o cumprimento das atividades: uma delas denominada de profunda, onde os estudantes consegue estabelecer relações com o conhecimento prévio, compreendendo de forma profunda o significado do texto; a segunda, denominada de superficial, foi adotada por estudantes preocupados apenas em reter informações, sem que conseguissem estabelecer qualquer tipo de relação com outros conhecimentos. Inspirados por esse trabalho, outros autores começaram a avaliar a presença dessas posturas em diversos países, culturas e estruturas de ensino, e sempre verificaram a presença das posturas profunda e superficial, onde os estudantes profundos obtinham melhores resultados de aprendizagem. Em trabalhos de cunho qualitativo, como os desenvolvido por Biggs, outra categoria foi encontrada e denominada de estratégica. Os estudantes presentes nesse grupo, assumem motivações e estratégias para a obtenção de bons resultados escolares. Considerando as diferenças entre esses grupos de estudantes, procuramos, primeiramente, identificá-los dentre um grupo de 302 alunos da terceira série do Ensino Médio de uma Escola Pública da zona oeste da cidade de São Paulo. Inspirados pelo trabalho de Biggs e pela metodologia LPQ, desenvolvi um instrumento modificado para essa classificação. Identifiquei dez estudantes com postura profunda à aprendizagem (4 do diurno e 6 do noturno), 34 com postura estratégico-profunda (18 do diurno e 16 do noturno) e 258 indefinidos (170 do diurno e 88 do noturno). A partir da identificação dos estudantes profundos e estratégico-profundos, avaliou-se que qualidades são esperadas do bom professor por esses alunos. Os resultados mostram que os estudantes profundos valorizam um professor profissional compromissado, dedicado, com sólida formação específica e pedagógica, e que compreende as diferenças entre os estudantes, é atencioso, repeitoso, amigável. Os demais estudantes, além das características anteriores, valorizam um rigor relacionado à disciplina e à exigência das atividades de avaliação.
In 1974, Marton and Säljö introduced qualitative concepts to identify learning approaches in a reading situation with college students. The results showed two postures adopted to perform these activities: one called deep approach, in which students can establish relationships based in their prior knowledge, understanding the meaning of the text in a deeply and, a second one, called surface approach, which was assumed by students concerned just for withholding information, without relating with another knowledge. Inspired by this work, authors evaluated the presence of these attitudes in different countries, cultures and educational systems, and verified the presence of the deep and surface approaches, where deeper students achieved better results of learning . Considering a qualitative approach, as developed by Biggs, another category was found and defined as the strategic approach. The students of this group use motivations and strategies to get high scores in assessments. Considering the differences among these groups of students, as the first step, I identified in a group of 302 third graders students of a Public High School, located in the western side of city of Sao Paulo. Inspired by the work of Biggs and LPQ methodology, we developed a modified instrument for this classification. I identified ten students with deep approach to learning (4 in the daytime and 6 in the nighttime), 34 students with deep strategic approach (18 in the daytime and 16 in the nighttime) and 258 undefined students. From the deep and deep-strategic students\' identification, we evaluated which qualities of good teacher are expected by these students. The results showed that deep students valued a professional teacher, committed, dedicated, highly qualified and pedagogic, that understand the differences between students, is attentive, court orders, friendly. And that other students, in addition to previous characteristics, are demand knowledge related to the content and the requirement of the evaluation activities.
APA, Harvard, Vancouver, ISO, and other styles
48

Gong, Rong. "Automatic assessment of singing voice pronunciation: a case study with Jingju music." Doctoral thesis, Universitat Pompeu Fabra, 2018. http://hdl.handle.net/10803/664421.

Full text
Abstract:
Online learning has altered music education remarkable in the last decade. Large and increasing amount of music performing learners participate in online music learning courses due to the easy-accessibility and boundless of time-space constraints. Singing can be considered the most basic form of music performing. Automatic singing voice assessment, as an important task in Music Information Retrieval (MIR), aims to extract musically meaningful information and measure the quality of learners' singing voice. Singing correctness and quality is culture-specific and its assessment requires culture-aware methodologies. Jingju (also known as Beijing opera) music is one of the representative music traditions in China and has spread to many places in the world where there are Chinese communities. Our goal is to tackle unexplored automatic singing voice pronunciation assessment problems in jingju music, to make the current eurogeneric assessment approaches more culture-aware, and in return, to develop new assessment approaches which can be generalized to other musical traditions.
El aprendizaje en línea ha cambiado notablemente la educación musical en la pasada década. Una cada vez mayor cantidad de estudiantes de interpretación musical participan en cursos de aprendizaje musical en línea por su fácil accesibilidad y no estar limitada por restricciones de tiempo y espacio. Puede considerarse el canto como la forma más básica de interpretación. La evaluación automática de la voz cantada, como tarea importante en la disciplina de Recuperación de Información Musical (MIR por sus siglas en inglés) tiene como objetivo la extracción de información musicalmente significativa y la medición de la calidad de la voz cantada del estudiante. La corrección y calidad del canto son específicas a cada cultura y su evaluación requiere metodologías con especificidad cultural. La música del jingju (también conocido como ópera de Beijing) es una de las tradiciones musicales más representativas de China y se ha difundido a muchos lugares del mundo donde existen comunidades chinas.Nuestro objetivo es abordar problemas aún no explorados sobre la evaluación automática de la voz cantada en la música del jingju, hacer que las propuestas eurogenéticas actuales sobre evaluación sean más específicas culturalmente, y al mismo tiempo, desarrollar nuevas propuestas sobre evaluación que puedan ser generalizables para otras tradiciones musicales.
APA, Harvard, Vancouver, ISO, and other styles
49

Sequeira, Bernardo Pinto Machado Portugal. "American put option pricing : a comparison between neural networks and least-square Monte Carlo method." Master's thesis, Instituto Superior de Economia e Gestão, 2019. http://hdl.handle.net/10400.5/19631.

Full text
Abstract:
Mestrado em Mathematical Finance
Esta tese compara dois métodos de pricing de opções de venda Americanas. Os métodos estudados são redes neurais (NN), um método de Machine Learning, e Least-Square Monte Carlo Method (LSM). Em termos de redes neurais foram desenvolvidos dois modelos diferentes, um modelo mais simples, Model 1, e um modelo mais complexo, Model 2. O estudo depende dos preços das opões de 4 gigantes empresas norte-americanas, de Dezembro de 2018 a Março de 2019. Todos os métodos mostram uma precisão elevada, no entanto, uma vez calibradas, as redes neuronais mostram um tempo de execução muito inferior ao LSM. Ambos os modelos de redes neurais têm uma raiz quadrada do erro quadrático médio (RMSE) menor que o LSM para opções de diferentes maturidades e preço de exercício. O Modelo 2 supera substancialmente os outros modelos, tendo um RMSE ca. 40% inferior ao do LSM. O menor RMSE é consistente em todas as empresas, níveis de preço de exercício e maturidade.
This thesis compares two methods to evaluate the price of American put options. The methods are the Least-Square Monte Carlo Method (LSM) and Neural Networks, a machine learning method. Two different models for Neural Networks were developed, a simple one, Model 1, and a more complex model, Model 2. It relies on market option prices on 4 large US companies, from December 2018 to March 2019. All methods show a good accuracy, however, once calibrated, Neural Networks show a much better execution time, than the LSM. Both Neural Network end up with a lower Root Mean Square Error (RMSE) than the LSM for options of different levels of maturity and strike. Model 2 substantially outperforms the other models, having a RMSE ca. 40% lower than that of LSM. The lower RMSE is consistent across all companies, strike levels and maturities.
info:eu-repo/semantics/publishedVersion
APA, Harvard, Vancouver, ISO, and other styles
50

Pereira, José Geraldo de Carvalho. "Redes neurais residuais profundas e autômatos celulares como modelos para predição que fornecem informação sobre a formação de estruturas secundárias proteicas." Universidade de São Paulo, 2018. http://www.teses.usp.br/teses/disponiveis/95/95131/tde-03052018-095932/.

Full text
Abstract:
O processo de auto-organização da estrutura proteica a partir da cadeia de aminoácidos é conhecido como enovelamento. Apesar de conhecermos a estrutura tridimencional de muitas proteínas, para a maioria delas, não possuímos uma compreensão suficiente para descrever em detalhes como a estrutura se organiza a partir da sequência de aminoácidos. É bem conhecido que a formação de núcleos de estruturas locais, conhecida como estrutura secundária, apresenta papel fundamental no enovelamento final da proteína. Desta forma, o desenvolvimento de métodos que permitam não somente predizer a estrutura secundária adotada por um dado resíduo, mas também, a maneira como esse processo deve ocorrer ao longo do tempo é muito relevante em várias áreas da biologia estrutural. Neste trabalho, desenvolvemos dois métodos de predição de estruturas secundárias utilizando modelos com o potencial de fornecer informações mais detalhadas sobre o processo de predição. Um desses modelos foi construído utilizando autômatos celulares, um tipo de modelo dinâmico onde é possível obtermos informações espaciais e temporais. O outro modelo foi desenvolvido utilizando redes neurais residuais profundas. Com este modelo é possível extrair informações espaciais e probabilísticas de suas múltiplas camadas internas de convolução, o que parece refletir, em algum sentido, os estados de formação da estrutura secundária durante o enovelamento. A acurácia da predição obtida por esse modelo foi de ~78% para os resíduos que apresentaram consenso na estrutura atribuída pelos métodos DSSP, STRIDE, KAKSI e PROSS. Tal acurácia, apesar de inferior à obtida pelo PSIPRED, o qual utiliza matrizes PSSM como entrada, é superior à obtida por outros métodos que realizam a predição de estruturas secundárias diretamente a partir da sequência de aminoácidos.
The process of self-organization of the protein structure is known as folding. Although we know the structure of many proteins, for a majority of them, we do not have enough understanding to describe in details how the structure is organized from its amino acid sequence. In this work, we developed two methods for secondary structure prediction using models that have the potential to provide detailed information about the prediction process. One of these models was constructed using cellular automata, a type of dynamic model where it is possible to obtain spatial and temporal information. The other model was developed using deep residual neural networks. With this model it is possible to extract spatial and probabilistic information from its multiple internal layers of convolution. The accuracy of the prediction obtained by this model was ~ 78% for residues that showed consensus in the structure assigned by the DSSP, STRIDE, KAKSI and PROSS methods. Such value is higher than that obtained by other methods which perform the prediction of secondary structures from the amino acid sequence only.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography