Dissertations / Theses on the topic 'Redes neuronales convolucionales'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Redes neuronales convolucionales.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Campos, Barragán Orlando Bastián. "Evaluación del daño estructural en un puente mediante redes neuronales profundas convolucionales." Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/168592.
Full textIdentificar daños en una estructura permite anticiparse frente a fallas de consideración o totales, a fin de poder realizar las mantenciones necesarias. Una técnica ampliamente utiliza encontrar la ubicación y magnitud de daño en una estructura es mediante el análisis de sus modos de vibración, ya que estos difieren si una estructura tiene o no fallas. En la literatura se ha logrado identificar la ubicación de daño estructural del puente I- 40 utilizando datos recolectados de sus modos de vibración y temperatura, modelando la estructura con elementos finitos y sus fallas como una reducción de rigidez en un elemento seleccionado. Sin embargo, el método utilizado es lento de aplicar pues requiere resolver un problema de optimización mediante un algoritmo de optimización global. En el presente estudio se utilizan redes neuronales profundas convolucionales (RNPC), las que han demostrado su robustez respecto a otros métodos utilizados actualmente debido a su rapidez de trabajo, la confiabilidad de sus resultados y la facilidad de entrada de los datos, ya que no requieren ser previamente manipulados por el usuario. Se identifican, localizan y cuantifican los daños estructurales del puente I-40 de Nuevo México utilizando RNPC y los datos de vibración del puente, además, se desarrolla una metodología para representar las vibraciones del puente en imágenes que puedan ser procesadas por una red neuronal profunda convolucional. Finalmente se realiza una validación de la metodología de identificación de daño propuesta, por medio de datos numéricos y experimentales. Para procesar los datos, crear las imágenes y procesar dichas imágenes en el algoritmo de redes neuronales profundas convolucionales, se utilizará el software MATLAB.
Ascarza, Mendoza Franco Javier. "Segmentación automática de textos, mediante redes neuronales convolucionales en imágenes documentos históricos." Master's thesis, Pontificia Universidad Católica del Perú, 2018. http://tesis.pucp.edu.pe/repositorio/handle/123456789/13050.
Full textTesis
González, Toledo Danilo Fabián. "Diagnóstico de fallas basado en emisión acústica mediante redes neuronales convolucionales profundas." Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/159572.
Full textLa Ingeniería Mecánica está presente en la industria productiva debido a su aporte en la generación de equipos y sistemas que realicen determinadas funciones dentro de una línea de trabajo. A medida que los tiempos avanzan, los requerimientos de estos sistemas aumentan, presentando nuevos desafíos a la hora de su diseño y manufactura, pero también, durante su vida útil. En esto, el área de Gestión de Activos Físicos ha sido el protagonista a la hora de estudiar el desgaste, rastrear posibles fallas y realizar las mantenciones a tiempo de manera de reducir los tiempos fuera de operación que generan altos costos. Debido a lo anterior, cada vez es más urgente monitorear los sistemas y detectar a tiempo las situaciones que escapen de una operación eficiente y efectiva. Sin embargo, la gran dimensionalidad de la información obtenida mediante los diversos tipos de monitoreo y el alto ruido que normalmente presentan estos sistemas debido a sus componentes rotatorios o cíclicos, dificultan el análisis efectivo de las bases de datos. Es aquí donde los métodos de aprendizaje de máquinas presentan su potencial, ya que éstos realizan una extracción de características sobre la base de datos, para luego discriminar entre la información, generando una forma práctica de procesar la información disponible permitiendo un análisis efectivo. En particular, las Redes Neuronales Convolucionales (CNN) son un método de aprendizaje supervisado que está inspirado en las redes neuronales humanas y desarrolla su potencial en la clasificación de imágenes debido a que su método de aprendizaje incluye filtros que resaltan (o atenuan) rasgos destacables. Por otro lado, la emisión acústica es un fenómeno de generación de ondas elásticas debido a los cambios irreversibles en la estructura interna de un cuerpo sólido. Las anteriores pueden monitorearse mediante sensores, método de fácil implementación, alta densidad de datos y sensibilidad. En el presente trabajo de título se desarrollará un modelo de Red Neuronal Convolucional en la cual se procesarán señales brutas (sin procesamiento previo) de emisión acústica con el fin de generar un diagnóstico del estado de salud de un rotor experimental. El rotor utilizado es puesto a prueba bajo 25 clases diferentes: Grieta a 5[mm], 10[mm], 15[mm], 20[mm], 30[mm], 45[mm], 65[mm] y 90[mm] del acople al eje con tamaños de 3, 6 y 10 [mm], además se capturan señales del caso sano. Esta base de datos queda disponible para futuros trabajos, en el presente se trabaja con las fallas a 5[mm], 20[mm] y el caso sano. La metodología de trabajo se divide en 4 etapas principales: puesta a punto del sistema experimental, obtención de señales de emisión acústica, diseño, implementación y ajuste de la CNN y finalmente los resultados y análisis. El mejor modelo realizado consta de 3 clasificadores que en conjunto logran un desempeño global del 98,65% en la clasificación del estado de salud del sistema. Superando por un 7,5% al modelo más cercano con extracción previa de parámetros.
Yacolca, Huamán Karla Lucía. "Estudio de atipia celular utilizando redes neuronales convolucionales: aplicación en tejidos de cáncer de mama." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/18219.
Full textTrabajo de investigación
Campanini, García Diego Alejandro. "Detección de objetos usando redes neuronales convolucionales junto con Random Forest y Support Vector Machines." Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/167863.
Full textEn el presente trabajo de título se desarrolla un sistema de detección de objetos (localización y clasificación), basado en redes neuronales convolucionales (CNN por su sigla en inglés) y dos métodos clásicos de machine learning como Random Forest (RF) y Support Vector Machines (SVMs). La idea es mejorar, con los mencionados clasificadores, el rendimiento del sistema de detección conocido como Faster R-CNN (su significado en inglés es: Regions with CNN features). El sistema Faster R-CNN, se fundamenta en el concepto de region proposal para generar muestras candidatas a ser objetos y posteriormente producir dos salidas: una con la regresión que caracteriza la localización de los objetos y otra con los puntajes de confianza asociados a los bounding boxes predichos. Ambas salidas son generadas por capas completamente conectadas. En este trabajo se interviene la salida que genera los puntajes de confianza, tal que, en este punto se conecta un clasificador (RF o SVM), para generar con estos los puntajes de salida del sistema. De esta forma se busca mejorar el rendimiento del sistema Faster R-CNN. El entrenamiento de los clasificadores se realiza con los vectores de características extraídos, desde una de las capas completamente conectadas del sistema Faster R-CNN, específicamente se prueban las tres que contempla la arquitectura, para evaluar cuál de estas permite obtener los mejores resultados. Para definir, entre otras cosas, el número de capas convolucionales a utilizar y el tamaño de los filtros presentes en las primeras capas del sistema Faster R-CNN, se emplean los modelos de redes convolucionales ZF y VGG16, estas redes son solamente de clasificación, y son las mismas ocupados originalmente. Para desarrollar los sistemas propuestos se utilizan distintas implementaciones o librerías para las cuales se dispone de su código de forma abierta. Para el detector Faster R-CNN se utiliza una implementación desarrollado en Python, para RF se comparan dos librerías: randomForest escrita en R y scikit-learn en Python. Por su parte para SVM se utiliza la librería conocida como LIBSVM escrita en C. Las principales tareas de programación consisten en desarrollar los algoritmos de etiquetado de los vectores de características extraídos desde las capas completamente conectadas; unir los clasificadores con el sistema base, para el análisis \textit{online} de las imágenes en la etapa de prueba; programar un algoritmo para el entrenamiento eficiente en tiempo y en memoria para SVM (algoritmo conocido como hard negative mining) Al evaluar los sistemas desarrollados se concluye que los mejores resultados se obtienen con la red VGG16, específicamente para el caso en que se implementa el sistema Faster R-CNN+SVM con kernel RBF (radial basis function), logrando un mean Average Precision (mAP) de 68.9%. El segundo mejor resultado se alcanza con Faster R-CNN+RF con 180 árboles y es de 67.8%. Con el sistema original Faster R-CNN se consigue un mAP de 69.3%.
Montagna, Puga Sebastián. "Detección de fallas en equipos utilizando modelos en base a Deep Learning." Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/170010.
Full textLos equipos mecánicos están sujetos a daño durante la operación, lo que deteriora su estructura y funcionamiento produciendo fallas. La detección preventiva de fallas y el pronóstico de vida remanente son herramientas muy útiles en el ámbito práctico, permitiendo evitar tiempos inesperados de parada del equipo, además de permitir agendar la mantención en un momento propicio según la condición en la que se encuentre el equipo en operación. Se propone implementar un modelo novedoso para el análisis de registros de series temporales en base a Deep Learning, redes neuronales convolucionales causales, que ha presentado muy buenos resultados realizando tareas de generación de secuencias con dependencias de largo alcance [1]. Los objetivos del trabajo propuesto en el presente informe son los siguientes: Objetivo General: Determinar la vida remanente en equipos mecánicos mediante la implementación de un modelo en base a CNNs causales. Objetivos Específicos: Analizar, indexar y clasificar los registros de señales de sensores de los equipos perti- nentes. Generar un modelo en base a redes neuronales convolucionales causales para el pronós- tico y estimación de vida remanente. Verificar y corroborar resultados obtenidos comparando con métodos actuales y parti- cularmente métodos en base a Long Short-Term Memory. Teniendo la base de datos del registro de los equipos, se procede a definir la arquitectura del modelo en base a Deep Learning y a realizar el entrenamiento e implementación del modelo. Luego, se analizan y verifican los resultados. En caso de que los resultados no sean satisfactorios se procede a cambiar los hiper-parámetros de la arquitectura del modelo y se repite el procedimiento. Los resultados obtenidos validan la implementación del modelo propuesto por medio de métodos comparativos entre modelos con y sin los métodos que se busca implementar. Los valores obtenidos para las predicciones de la base de datos en la que se implementa el modelo responden a lo esperado y al comparar con el estado del arte, se puede notar que el modelo realiza buenas predicciones, no ajustándose con tanta precisión, pero obteniendo mejores resultados en las bases de datos con más parámetros de operación debido a la capacidad de aprendizaje más general.
Guarda, Bräuning Luis Felipe. "Desarrollo de modelo para la identificación de somnolencia basado en redes neuronales convolucionales y procesamiento de señales de electroencefalografía." Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/167873.
Full textLa confiabilidad en todo proceso de ingeniería es fundamental para asegurar su correcto y seguro desarrollo. Por este motivo se vuelve imperante ampliar las fronteras de análisis en confiabilidad, dejando de tener como eje central el análisis de equipos técnicos, apuntando de manera paralela al estudio de confiabilidad del operador de dichos equipos. Las nuevas herramientas de aprendizaje de máquinas permiten a una computadora analizar información en base a algoritmos para aprender a identificar características concretas de su entorno. Dentro de estas nuevas herramientas, las redes neuronales convolucionales (CNN) se presentan como una de las técnicas más robustas para el reconocimiento de imágenes. Mediante esta técnica es posible determinar patrones de frecuencia en señales de electroencefalografía (EEG) para determinar diversos estados anímicos de un individuo. El objetivo general de la memoria consiste en desarrollar un modelo para la detección del estado de somnolencia de un operador en base a redes neuronales convolucionales utilizando señales de electroencefalografía. Los objetivos específicos son: Desarrollar, comprender y manejar un modelo de detección de sujetos con ojos abiertos y cerrados en base a CNN, a través del procesamiento de señales de electroencefalografía. Desarrollar, comprender y manejar un modelo de detección de sujetos en estado de somnolencia utilizando CNN a través del procesamiento de señales de electroencefalografía. Comparar la clasificación de sujetos en estado de somnolencia realizada con redes neuronales convencionales (NN), Support Vector Machines (SVM) y Random Forest (RF). Para llevar a cabo los objetivos planteados, se utilizó la base de datos de somnolencia multimodalidad ULg . Con ella, en primer lugar, se generaron seis conjuntos de datos a evaluar, con sus respectivas etiquetas. Luego se elaboró un clasificador utilizando CNN, capaz de clasificar entre sujetos con y sin somnolencia, con el cual además se encontró el conjunto de datos que entregaba el mayor desempeño para el modelo creado. Posteriormente se procedió a comparar el desempeño de la red elaborada con el conjunto de datos optimo generado con NN, SVM y RF. Luego de comparar el rendimiento entregado por cada modelo, se obtuvo que las redes neuronales convolucionales representan el método más a fin para realizar la clasificación de sujetos bajo estado somnolencia, entregando una exactitud de clasificación superior al 86%.
Figueroa, Barraza Joaquín Eduardo. "A capsule neural network based model for structural damage localization and quantification using transmissibilty data." Tesis, Universidad de Chile, 2019. http://repositorio.uchile.cl/handle/2250/170185.
Full textMemoría para optar al título de Ingeniero Civil Mecánico
Dentro de la ingeniería estructural, el monitoreo de condición usando diferentes tipos de sensores ha sido importante en la prevención de fallas y diagnóstico del estado de salud. El desafío actual es aprovechar al máximo las grandes cantidades de datos para entregar mediciones y predicciones precisas. Los algoritmos de aprendizaje profundo abordan estos problemas mediante el uso de datos para encontrar relaciones complejas entre ellos. Entre estos algoritmos, las redes neuronales convolucionales (CNN) han logrado resultados de vanguardia, especialmente cuando se trabaja con imágenes. Sin embargo, existen dos problemas principales: la incapacidad de reconocer imágenes rotadas como tales, y la inexistencia de jerarquías dentro de las imágenes. Para resolver estos problemas, se desarrollaron las redes de cápsulas (Capsule Networks), logrando resultados prometedores en problemas de tipo benchmark. En esta tesis, las Capsule Networks se modifican para localizar y cuantificar daños estructurales. Esto implica una tarea doble de clasificación y regresión, lo que no se ha realizado anteriormente. El objetivo es generar modelos para dos casos de estudio diferentes, utilizando dos algoritmos de routing diferentes. Se analizan y comparan los resultados entre ellos y con el estado del arte. Los resultados muestran que las Capsule Networks con Dynamic routing logran mejores resultados que las CNN, especialmente cuando se trata de valores falsos positivos. No se observa sobreajuste en el conjunto de validación sino en el conjunto de prueba. Para resolver esto, se implementa la técnica de dropout, mejorando los resultados obtenidos en este último conjunto.
Carrasco, Davis Rodrigo Antonio. "Image sequence simulation and deep learning for astronomical object classification." Tesis, Universidad de Chile, 2019. http://repositorio.uchile.cl/handle/2250/170955.
Full textMemoria para optar al título de Ingeniero Civil Eléctrico
En esta tesis, se propone un nuevo modelo de clasificación secuencial para objetos astronómicos basado en el modelo de red neuronal convolucional recurrente (RCNN) que utiliza secuencias de imágenes como entradas. Este enfoque evita el cálculo de curvas de luz o imágenes de diferencia. Esta es la primera vez que se usan secuencias de imágenes directamente para la clasificación de objetos variables en astronomía. Otra contribución de este trabajo es el proceso de simulación de imagen. Se simularon secuencias de imágenes sintéticas que toman en cuenta las condiciones instrumentales y de observación, obteniendo una serie de películas de ruido variable, realistas, muestreadas de manera irregular para cada objeto astronómico. El conjunto de datos simulado se utiliza para entrenar el clasificador RCNN. Este enfoque permite generar conjuntos de datos para entrenar y probar el modelo RCNN para diferentes estudios astronómicos y telescopios. Además, el uso de un conjunto de datos simulado es más rápido y más adaptable a diferentes surveys y tareas de clasificación. El objetivo es crear un conjunto de datos simulado cuya distribución sea lo suficientemente cercana al conjunto de datos real, de modo que un ajuste fino sobre el modelo propuesto pueda hacer coincidir las distribuciones y resolver el problema de adaptación del dominio entre el conjunto de datos simulado y el conjunto de datos real. Para probar el clasificador RCNN entrenado con el conjunto de datos sintéticos, se utilizaron datos reales de High Cadence Transient Survey (HiTS), obteniendo un recall promedio del 85% en 5 clases, mejorado a 94% después de realizar un ajuste fino de 1000 iteraciones con 10 muestras reales por clase. Los resultados del modelo RCNN propuesto se compararon con los de un clasificador de bosque aleatorio o random forest de curvas de luz. El RCNN propuesto con ajuste fino tiene un rendimiento similar en el conjunto de datos HiTS en comparación con el clasificador de bosque aleatorio de curva de luz, entrenado en un conjunto de entrenamiento aumentado con 100 copias de 10 muestras reales por clase. El enfoque RCNN presenta varias ventajas en un escenario de clasificación de streaming de alertas astronómicas, como una reducción del preprocesamiento de datos, una evaluación más rápida y una mejora más sencilla del rendimiento utilizando unas pocas muestras de datos reales. Los resultados obtenidos fomentan el uso del método propuesto para los sistemas astronomical alert brokers que procesarán streamings de alertas generados por nuevos telescopios, como el Large Synoptic Survey Telescope (LSST). Se proponen ideas para un clasificador multibanda y un mejor simulador de imágenes en función de las dificultades encontradas en este trabajo.
Sanchez, Huapaya Alonso Sebastián, and Pinillos Sergio André Serpa. "Aplicación de redes neuronales convolucionales para la emulación del modelo psicoacústico MPEG-1, capa I, para la codificación de señales de audio." Bachelor's thesis, Universidad Peruana de Ciencias Aplicadas (UPC), 2020. http://hdl.handle.net/10757/652711.
Full textThe present work proposes 4 encoder alternatives, inspired in the MPEG-1, layer I encoder described in the ISO/IEC 11172-3 standard. The problem addressed here is the requirement of explicitly defining a psychoacoustic model to code audio, instead replacing it by neural networks. All the proposals are based on multiscale convolutional neural networks (MCNN) that emulate the psychoacoustic model 1 of the referred encoder. The networks have 32 inputs that map the 32 subbands of the sound pressure level (SPL), and a single output that corresponds to each of the 32 subbands of either the signal-to-mask ratio (SMR) or the bit allocation vector. Thus, an encoder is composed of a set of 32 neural networks. The validation process took the first 10 seconds of 15 randomly chosen songs of 10 different musical genres. The audio signal quality of the proposed encoders was compared to that of the MPEG-1, layer I encoder, using the ODG metric. The encoder whose input is the SPL and whose output is the SMR, proposed by Guillermo Kemper, yielded the best results for 96 kbps and 192 kbps. The encoder named “SBU1” had the best results for 128 kbps.
Tesis
Ayala, Niño Daniel. "Desarrollo de Algoritmos de Tratamiento de Imágenes en el Sector Agropecuario." Tesis de maestría, Universidad Autónoma del Estado de México, 2020. http://hdl.handle.net/20.500.11799/109700.
Full textRafegas, Fonoll Ivet. "Color in visual recognition: from flat to deep representations and some biological parallelisms." Doctoral thesis, Universitat Autònoma de Barcelona, 2017. http://hdl.handle.net/10803/458641.
Full textEl reconeixement visual és un dels principals problemes que la visió per computador que intenta resoldre per a la comprensió d’imatges. Persegueix respondre a la pregunta de quins objectes hi ha en una imatge. Aquest problema pot ser resolt computacionalment, usant conjunts de característiques visuals rellevants com ara fronteres, cantonades, color o altres parts més complexes dels objectes. Aquesta tesi contribueix en esbrinar com les característiques del color han de ser representades per a les tasques de reconeixement. Les característiques de les imatges poden ser extretes mitjançant dos enfocaments diferents. Una primera estratègia és definir manualment descriptors d’imatges i posteriorment utilitzar una tècnica d’aprenentatge per tal de classificar-ne el contingut (conegut com esquema pla [Kruger,2013]). En aquesta estratègia habitualment s’usen consideracions de percepció per definir unes característiques de color eficients. En aquesta tesi proposem un nou descriptor de color pla basat en la extensió de canals de color per tal de promoure la representació espaciocromàtica del contrast que supera els mètodes de l’estat de l’art. No obstant això, aquests esquemes plans flaquegen de generalitat, allunyant-se així de les capacitats dels sistemes biològics. Una segona estratègia proposa evolucionar aquests esquemes plans cap a processos jeràrquics, tal i com es desenvolupa en el còrtex visual. A més, inclou un procés automàtic per l’aprenentatge de característiques òptimes. Els esquemes profunds, i especialment les xarxes neuronals convolucionals (CNNs), han demostrat una impactant capacitat en solucionar diferents problemes visuals. No obstant això, s’escasseja de comprendre les representacions internes obtingudes com a resultat de l’aprenentatge automàtic. En aquesta tesis proposem una nova metodologia per a explorar la representació interna de les CNNs entrenades, mitjançant la definició de la Neuron Feature com a visualització de les propietats intrínseques codificades en cada una de les neurones. De manera addicional, i inspirant-nos en tècniques fisiològiques, proposem obtenir diferents índexs de selectivitat de les neurones (per exemple, color, classe, orientació o simetria, entre altres) per tal d’etiquetar i classificar la població de neurones de la CNN i comprendre les representacions apreses. Finalment, utilitzant la metodologia proposada, mostrem un estudi profund sobre com el color és representat en una xarxa específica entrenada per al reconeixement d’objectes, que competeix amb les capacitats de representació dels primats [Cadieu,2014]. Trobem diversos paral•lelismes amb els sistemes visuals biològics: (a) un important nombre de neurones selectives al color a través de totes les capes; (b) una representació de baixa freqüència i de colors oponents per a les fronteres de color; mentre que hi ha una major mostra de freqüències per a les neurones de lluminositat (comparat amb les de color) tal i com s’efectua a V1; (c) una major representació de tonalitats de color a la segona capa que s’alinea amb els mapes de tons observats a V2; (d) un fort lligam entre les característiques de color i de forma en totes les capes, anant des de característiques bàsiques a les primeres capes (V1 i V2) fins a formes relacionades amb l’objecte i el fons a les capes més profundes (V3 i V4); i (e) una forta correlació entre les neurones selectives al color i la tendència de la base de dades.
Visual recognition is one of the main problems of computer vision that tries to solve for image understanding. It pursuits to answer the question of what objects are in images. This problem can be computationally solved by using relevant sets of visual features, such as edges, corners, color or more complex object parts. This thesis contributes on how color features have to be represented for recognition tasks. Image features can be extracted following two different approaches. A first approach is defining handcrafted descriptors of images followed by a learning scheme to classify the content (named flat schemes in [Kruger,2013]). In this approach, perceptual considerations are habitually used to define efficient color features. Here we propose a new flat color descriptor based on the extension of color channels to boost the representation of spatio-chromatic contrast that overcomes state-of-the-art approaches. However, flat schemes present a lack of generality far away from the capabilities of biological systems. A second approach proposes to evolve these flat schemes to a hierarchical process, as it is performed in the visual cortex. This includes an automatic process to learn optimal features. These deep schemes, and more specially Convolutional Neural Networks (CNNs), have shown an impressive performance to solve different vision problems. However, there is a lack of understanding about the internal representation obtained, as a result of the automatic learning. In this thesis we propose a new methodology to explore the internal representation of trained CNNs by defining the Neuron Feature as a visualization of the intrinsic features encoded in each individual neuron. Additionally, and inspired by physiological techniques, we propose to compute different neuron selectivity indexes (e.g., color, class, orientation or symmetry, amongst others) to label and classify the full CNN neuron population to understand learned representations. Finally, using the proposed methodology, we show an in-depth study on how color is represented on a specific CNN, trained for object recognition, that competes with primate representational abilities [Cadieu,2014]. We found several parallelisms with biological visual systems: (a) an important number of color selectivity neurons through all the layers; (b) an opponent and low frequency representation of color oriented edges and a higher sampling of frequency selectivity in brightness than in color in 1st layer like in V1; (c) a higher sampling of color hue in the second layer aligned to observed hue maps in V2; (d) a strong color and shape entanglement in all layers going from basic features in shallower layers (V1 and V2) to object and background shapes in deeper layers (V4 and IT); and (e) a strong correlation between neuron color selectivities and color dataset bias.
Aguilar, Eduardo. "Deep Learning and Uncertainty Modeling in Visual Food Analysis." Doctoral thesis, Universitat de Barcelona, 2020. http://hdl.handle.net/10803/670751.
Full textEl desafiante problema que plantea el análisis de alimentos, la facilidad para recopilar imágenes de alimentos y sus numerosas aplicaciones para la salud y el ocio son algunos de los factores principales que han incentivado la generación de varios enfoques de visión por computadora para abordar este problema. Sin embargo, la ambigüedad alimentaria, variabilidad entre clases y similitud dentro de la clase definen un desafío real para los algoritmos de aprendizaje profundo y visión por computadora. Con la llegada de las redes neuronales convolucionales, el complejo problema del análisis visual de los alimentos ha experimentado una mejora significativa. A pesar de ello, para aplicaciones reales, donde se deben analizar y reconocer miles de alimentos, es necesario comprender mejor lo que aprende el modelo y, a partir de ello, orientar su aprendizaje en aspectos más discriminatorios para mejorar su precisión y robustez. En esta tesis abordamos el problema del análisis de imágenes de alimentos mediante métodos basados en algoritmos de aprendizaje profundo. Hay dos partes distinguibles. En la primera parte, nos centramos en la tarea de reconocimiento de alimentos y profundizamos en el modelado de incertidumbre. Primero, proponemos un nuevo modelo multi-tarea que es capaz de predecir simultáneamente diferentes tareas relacionadas con los alimentos. Aquí, ampliamos el modelo de incertidumbre homocedástica para permitir la clasificación tanto de etiqueta única como de etiquetas múltiples, y proponemos un término de regularización, que pondera conjuntamente las tareas y sus correlaciones. En segundo lugar, proponemos un novedoso esquema de predicción basado en una jerarquía de clases que considera clasificadores locales y un clasificador plano. Para decidir el enfoque a utilizar (plano o local), definimos criterios basados en la incertidumbre epistémica estimada a partir de los clasificadores de 'hijos' y la predicción del clasificador de 'padres'. Y tercero, proponemos tres nuevas estrategias de aumento de datos que analizan la incertidumbre epistémica a nivel de clase o de muestra para guiar el entrenamiento del modelo. En la segunda parte contribuimos al diseño de nuevos métodos para la detección de alimentos (clasificación food/non-food), para generar predicciones a partir de un conjunto de clasificadores de alimentos y para la detección semántica de alimentos. Primero, establecemos en estado del arte en cuanto a últimos avances en clasificación de food/non-food y proponemos un modelo óptimo basado en la arquitectura GoogLeNet, Análisis de Componentes Principales (PCA) y una Máquina de Vector de Soporte (SVM). En segundo lugar, proponemos medidas difusas para combinar múltiples clasificadores para el reconocimiento de alimentos basados en dos arquitecturas convolucionales diferentes que se complementan y de este modo, logran una mejora en el rendimiento. Y tercero, abordamos el problema del análisis automático de bandejas de alimentos en el entorno de comedores y restaurantes a través de un nuevo enfoque que integra en un mismo marco la localización, el reconocimiento y la segmentación de alimentos para la detección semántica de alimentos. Todos los métodos diseñados en esta tesis están validados y contrastados sobre conjuntos de datos de alimentos públicos relevantes y los resultados obtenidos se informan en detalle.
Acevedo, Lipes Andrea Milena. "Deep Learning System for the Automatic Classification of Normal and Dysplastic Peripheral Blood Cells as a Support Tool for the Diagnosis." Doctoral thesis, Universitat de Barcelona, 2021. http://hdl.handle.net/10803/671387.
Full textLos especialistas de laboratorio identifican visualmente muchas características morfológicas para identificar las diferentes células normales, así como los tipos de células anormales, cuya presencia en sangre periférica es evidencia de enfermedades graves. Algunas de las desventajas del análisis morfológico visual incluyen que toma mucho tiempo, necesita experiencia para realizar una revisión objetiva de los frotis y es propenso a la variabilidad entre observadores. Además, la mayoría de las descripciones morfológicas se proporcionan en términos cualitativos. Debido a lo expuesto anteriormente, es necesario establecer medidas cuantitativas. El objetivo general de esta tesis es el reconocimiento automático de células normales y células displásicas circulantes en sangre en síndromes mielodisplásicos mediante redes neuronales convolucionales y técnicas de procesamiento digital de imágenes. Para lograr este objetivo, este trabajo comenzó con el diseño y desarrollo de una base de datos Mysql para almacenar información e imágenes de pacientes y el desarrollo de un primer clasificador de cuatro grupos de células, utilizando redes neuronales convolucionales como extractores de características. Luego, se compila un conjunto de datos de alta calidad de alrededor de 17.000 imágenes de células sanguíneas normales y se utiliza para el desarrollo de un sistema de reconocimiento de ocho grupos de células sanguíneas. En este trabajo, comparamos dos enfoques de aprendizaje por transferencia para encontrar el mejor para clasificar los diferentes tipos de células. En la segunda parte de la tesis se desarrolla un nuevo modelo de red neuronal convolucional para el diagnóstico de síndromes mielodisplásicos. Este modelo fue validado mediante prueba de concepto. Se considera uno de los primeros modelos que se han construido para apoyar el diagnóstico. El trabajo final de la tesis es la integración de dos redes convolucionales en un sistema modular para la clasificación automática de células normales y anormales. La metodología y los modelos desarrollados constituyen un paso adelante hacia la implementación de un sistema modular para reconocer automáticamente todos los tipos de células en una configuración real en el laboratorio.
Pérez, Benito Francisco Javier. "Healthcare data heterogeneity and its contribution to machine learning performance." Doctoral thesis, Universitat Politècnica de València, 2020. http://hdl.handle.net/10251/154414.
Full text[ES] El análisis de la calidad de los datos abarca muchas dimensiones, desde aquellas tan obvias como la completitud y la coherencia, hasta otras menos evidentes como la correctitud o la capacidad de representar a la población objetivo. En general, es posible clasificar estas dimensiones como las producidas por un efecto externo y las que son inherentes a los propios datos. Este trabajo se centrará en la evaluación de aquellas inherentes a los datos en repositorios de datos sanitarios, como son la variabilidad temporal y multi-fuente. Los procesos suelen evolucionar con el tiempo, y esto tiene un impacto directo en la distribución de los datos. Análogamente, la subjetividad humana puede influir en la forma en la que un mismo proceso, se ejecuta en diferentes fuentes de datos, influyendo en su cuantificación o recogida. La inteligencia artificial se ha convertido en uno de los paradigmas tecnológicos más extendidos en casi todos los campos científicos e industriales. Los avances, no sólo en los modelos sino también en el hardware, han llevado a su uso en casi todas las áreas de la ciencia. Es cierto que, los problemas resueltos mediante esta tecnología, suelen tener el inconveniente de no ser interpretables, o al menos, no tanto como otras técnicas de matemáticas o de estadística clásica. Esta falta de interpretabilidad, motivó la aparición del concepto de "inteligencia artificial explicable", que estudia métodos para cuantificar y visualizar el proceso de entrenamiento de modelos basados en aprendizaje automático. Por otra parte, los sistemas reales pueden representarse a menudo mediante grandes redes (grafos), y una de las características más relevantes de esas redes, es la estructura de comunidades. Dado que la sociología, la biología o las situaciones clínicas, usualmente pueden modelarse mediante grafos, los algoritmos de detección de comunidades se están extendiendo cada vez más en el ámbito biomédico. En la presente tesis doctoral, se han hecho contribuciones en los tres campos anteriormente mencionados. Por una parte, se han utilizado métodos de evaluación de variabilidad temporal y multi-fuente, basados en geometría de la información, para detectar la variabilidad en la distribución de los datos que pueda dificultar la reutilización de los mismos y, por tanto, las conclusiones que se puedan extraer. Esta metodología demostró ser útil tras ser aplicada a los registros electrónicos sanitarios de un hospital a lo largo de 7 años, donde se detectaron varias anomalías. Además, se demostró el impacto positivo que este análisis podría añadir a cualquier estudio. Para ello, en primer lugar, se utilizaron técnicas de aprendizaje automático para extraer las características más relevantes, a la hora de clasificar la intensidad del dolor de cabeza en pacientes con migraña. Una de las propiedades de los algoritmos de aprendizaje automático es su capacidad de adaptación a los datos de entrenamiento, en bases de datos en los que el número de observaciones es pequeño, el estimador puede estar sesgado por la muestra de entrenamiento. La variabilidad observada, tras la utilización de la metodología y considerando como fuentes, los registros de los pacientes con diferente intensidad del dolor, sirvió como evidencia de la veracidad de las características extraídas. En segundo lugar, se aplicó para medir la variabilidad entre los histogramas de los niveles de gris de mamografías digitales. Se demostró que esta variabilidad estaba producida por el dispositivo de adquisición, y tras la definición de un preproceso de imagen, se mejoró el rendimiento de un modelo de aprendizaje profundo, capaz de estimar un marcador de imagen del riesgo de desarrollar cáncer de mama. Dada una base de datos que recogía las respuestas de una encuesta formada por escalas psicométricas, o lo que es lo mismo cuestionarios que sirven para medir un factor psicológico, tales como depresión, resiliencia, etc., se definieron nuevas arquitecturas de aprendizaje profundo utilizando la estructura de los datos. En primer lugar, se dise˜no una arquitectura, utilizando la estructura conceptual de las citadas escalas psicom´etricas. Dicha arquitectura, que trataba de modelar el grado de felicidad de los participantes, tras ser entrenada, mejor o la precisión en comparación con otros modelos basados en estadística clásica. Una segunda aproximación, en la que la arquitectura se diseño de manera automática empleando detección de comunidades en grafos, no solo fue una contribución de por sí por la automatización del proceso, sino que, además, obtuvo resultados comparables a su predecesora.
[CA] L'anàlisi de la qualitat de les dades comprén moltes dimensions, des d'aquelles tan òbvies com la completesa i la coherència, fins a altres menys evidents com la correctitud o la capacitat de representar a la població objectiu. En general, és possible classificar estes dimensions com les produïdes per un efecte extern i les que són inherents a les pròpies dades. Este treball se centrarà en l'avaluació d'aquelles inherents a les dades en reposadors de dades sanitaris, com són la variabilitat temporal i multi-font. Els processos solen evolucionar amb el temps i açò té un impacte directe en la distribució de les dades. Anàlogament, la subjectivitat humana pot influir en la forma en què un mateix procés, s'executa en diferents fonts de dades, influint en la seua quantificació o arreplega. La intel·ligència artificial s'ha convertit en un dels paradigmes tecnològics més estesos en quasi tots els camps científics i industrials. Els avanços, no sols en els models sinó també en el maquinari, han portat al seu ús en quasi totes les àrees de la ciència. És cert que els problemes resolts per mitjà d'esta tecnologia, solen tindre l'inconvenient de no ser interpretables, o almenys, no tant com altres tècniques de matemàtiques o d'estadística clàssica. Esta falta d'interpretabilitat, va motivar l'aparició del concepte de "inteligencia artificial explicable", que estudia mètodes per a quantificar i visualitzar el procés d'entrenament de models basats en aprenentatge automàtic. D'altra banda, els sistemes reals poden representar-se sovint per mitjà de grans xarxes (grafs) i una de les característiques més rellevants d'eixes xarxes, és l'estructura de comunitats. Atés que la sociologia, la biologia o les situacions clíniques, poden modelar-se usualment per mitjà de grafs, els algoritmes de detecció de comunitats s'estan estenent cada vegada més en l'àmbit biomèdic. En la present tesi doctoral, s'han fet contribucions en els tres camps anteriorment mencionats. D'una banda, s'han utilitzat mètodes d'avaluació de variabilitat temporal i multi-font, basats en geometria de la informació, per a detectar la variabilitat en la distribució de les dades que puga dificultar la reutilització dels mateixos i, per tant, les conclusions que es puguen extraure. Esta metodologia va demostrar ser útil després de ser aplicada als registres electrònics sanitaris d'un hospital al llarg de 7 anys, on es van detectar diverses anomalies. A més, es va demostrar l'impacte positiu que esta anàlisi podria afegir a qualsevol estudi. Per a això, en primer lloc, es van utilitzar tècniques d'aprenentatge automàtic per a extraure les característiques més rellevants, a l'hora de classificar la intensitat del mal de cap en pacients amb migranya. Una de les propietats dels algoritmes d'aprenentatge automàtic és la seua capacitat d'adaptació a les dades d'entrenament, en bases de dades en què el nombre d'observacions és xicotet, l'estimador pot estar esbiaixat per la mostra d'entrenament. La variabilitat observada després de la utilització de la metodologia, i considerant com a fonts els registres dels pacients amb diferent intensitat del dolor, va servir com a evidència de la veracitat de les característiques extretes. En segon lloc, es va aplicar per a mesurar la variabilitat entre els histogrames dels nivells de gris de mamografies digitals. Es va demostrar que esta variabilitat estava produïda pel dispositiu d'adquisició i després de la definició d'un preprocés d'imatge, es va millorar el rendiment d'un model d'aprenentatge profund, capaç d'estimar un marcador d'imatge del risc de desenrotllar càncer de mama. Donada una base de dades que arreplegava les respostes d'una enquesta formada per escales psicomètriques, o el que és el mateix qüestionaris que servixen per a mesurar un factor psicològic, com ara depressió, resiliència, etc., es van definir noves arquitectures d'aprenentatge profund utilitzant l’estructura de les dades. En primer lloc, es disseny`a una arquitectura, utilitzant l’estructura conceptual de les esmentades escales psicom`etriques. La dita arquitectura, que tractava de modelar el grau de felicitat dels participants, despr´es de ser entrenada, va millorar la precisió en comparació amb altres models basats en estad´ıstica cl`assica. Una segona aproximació, en la que l’arquitectura es va dissenyar de manera autoàtica emprant detecció de comunitats en grafs, no sols va ser una contribució de per si per l’automatització del procés, sinó que, a més, va obtindre resultats comparables a la seua predecessora.
También me gustaría mencionar al Instituto Tecnológico de la Informáica, en especial al grupo de investigación Percepción, Reconocimiento, Aprendizaje e Inteligencia Artificial, no solo por darme la oportunidad de seguir creciendo en el mundo de la ciencia, sino también, por apoyarme en la consecución de mis objetivos personales
Pérez Benito, FJ. (2020). Healthcare data heterogeneity and its contribution to machine learning performance [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/154414
TESIS
Redolfi, Javier A. "Aplicación en agricultura de precisión de esquemas actuales de reconocimiento visual." Doctoral thesis, Universidad Nacional de Córdoba Facultad de Ciencias Exactas, Físicas y Naturales, 2018. http://hdl.handle.net/11086/6564.
Full textEn esta tesis se aplican modelos de clasificación de imágenes como son vectores de Fisher y redes neuronales convolucionales a problemas de agricultura de precisión, como la clasificación de especies de plantas, variedades de semillas y uso de suelo a través de imágenes PolSAR. Con la inclusión de tales modelos se logra otorgar un mayor nivel de robustez y escalabilidad a los sistemas lo cual se traduce en un aumento en la exactitud de la solución de estos problemas.
Bolaños, Solà Marc. "Deep Multimodal Learning for Egocentric Storytelling and Food Analysis." Doctoral thesis, Universitat de Barcelona, 2021. http://hdl.handle.net/10803/671672.
Full textEl mundo del Machine Learning y la Visión por Computador ha experimentado una revolución los últimos años. La aparición de algoritmos de Deep Learning y Convolutional Neural Networks, junto con las mayores capacidades de procesamiento proporcionadas por GPU modernas y las enormes cantidades de datos anotados disponibles públicamente, han permitió un impulso en el campo como nunca antes se había visto.Estas notables mejoras logradas en el mundo del Machine Learning han llevado a la aparición de nuevos campos como el Aprendizaje Multimodal, que engloba y aprende de muchos subcampos. Además, nuevas aplicaciones han aprovechado estos avances para alcanzar altos niveles de rendimiento. La enorme mejora en los resultados de los algoritmos disponibles actualmente ha permitido no solo revolucionar el mundo académico, sino también llevar al mercado soluciones basadas en IA que parecían ciencia ficción hace apenas 10 años.Esta tesis, que está escrita como un compendio de artículos, se enfoca en profundizar en el novedoso tema del Aprendizaje Multimodal Profundo al proponer nuevos algoritmos y soluciones para problemas ya existentes y recientemente definidos. Desde la perspectiva de las aplicaciones, la mayoría de los trabajos presentados se pueden dividir en dos áreas de aplicabilidad. Por un lado, la Visión Egocéntrica y el Storytelling, que consiste en la adquisición de imágenes de la vida diaria de una persona para analizar su comportamiento y extraer patrones asociadas a estos como por ejemplo interacciones sociales, actividades y eventos, interacciones con objetos, etc. Y por otro lado, el Reconocimiento y Análisis de Alimentos, que consiste en visualmente analizar y reconocer la comida que aparece en imágenes en múltiples contextos y con diferentes niveles de complejidad, desde el reconocimiento de grupos de alimentos hasta el análisis nutricional.En ambas aplicaciones, el propósito final de los artículos propuestos es construir herramientas que brinden información que pueda conducir a una mejor calidad de vida de los usuarios.
Agarwal, Richa. "Computer aided detection for breast lesion in ultrasound and mammography." Doctoral thesis, Universitat de Girona, 2019. http://hdl.handle.net/10803/670295.
Full textEn el camp de les imatges de càncer de mama, els sistemes tradicionals de detecció assistida per ordinador (de l’anglès CAD) es van dissenyar utilitzant recursos informàtics limitats i pel·lícules de mamografia escanejades (del angles SFM) de qualitat d’imatge deficient, fet que va resultar en aplicacions poc robustes. Actualment, amb els avanços de les tecnologies, és possible realitzar imatges mèdiques en 3D i adquirir mamografies digitals (de l’anglès FFDM) d’alta qualitat. L’ultrasò automàtic de la mama (de l’anglès ABUS) ha estat proposat per adquirir imatges 3D de la mama amb escassa dependència del operador. Quan s’utilitza ABUS, la segmentació i seguiment de les lesions en el temps s ́on tasques complicades ja que la naturalesa 3D de les imatges fa que l’anàlisi sigui difícil i feixuc per els radiòlegs. Un dels objectius d’aquesta tesi és desenvolupar un marc per la segmentació semi-automàtica de lesions mamàries en volums ABUS. El volum de lesió 3D, en combinació amb l’anàlisi de la textura i el contorn, podria proporcionar informació valuosa per realitzar el diagnòstic radiològic. Tot i que els volums de ABUS són de gran interès, la mamografia de raigs X continua essent la modalitat d’imatge estàndard utilitzada per la detecció precoç del càncer de mama, degut principalment a la seva ràpida adquisició i rendibilitat. A més, amb l’arribada dels mètodes d’aprenentatge profund basats en xarxes neuronals convolucionals (de l’anglès CNN), els sistemes CAD moderns poden aprendre automàticament quines característiques de la imatge són més rellevants per realitzar un diagnòstic, fet que augmenta la utilitat d’aquests sistemes. Una de les limitacions de les CNN és que requereixen de grans conjunts de dades per entrenar, els quals són molt limitats en el camp de la imatge mèdica. En aquesta tesi, el tema de la poca disponibilitat d’imatges mediques s’aborda mitjançant dues estratègies: (i) utilitzant regions de la imatge com a entrada en comptes de les imatges de mida original, i (ii) mitjançant tècniques d’aprenentatge per transferència, en el que el coneixement après per a una determinada tasca es transfereix a una altra tasca relacionada (també conegut com a adaptació de domini). En primer lloc, la CNN entrenada en un conjunt de dades molt gran d’imatges naturals és adaptada per classificar regions de la imatge en tumor i no tumor de SFM i, en segon lloc, la CNN entrenada és adaptada per detectar tumors en FFDM. També s’ha investigat l’aprenentatge per transferència entre imatges naturals i FFDM. S’han utilitzat dos conjunts de dades públiques (CBIS-DDSM i INbreast) per aquest propòsit. En la fase final de la investigació, es proposa un marc de detecció automàtica de tumors utilitzant la mamografia original com entrada (en lloc de regions de la imatge) i que proporciona la localització de la lesió dins d’aquesta mamografia com a sortida. Per aquest propòsit s’utilitza una altra base de dades (OMI-DB). Els resultats obtinguts com a part d’aquesta tesi mostren millors rendiments en comparació amb l’estat de l’art, el que indica que els mètodes i marcs proposats tenen el potencial de ser implementats dins de sistemes CAD avançats, que poden ser utilitzats per radiòlegs en el cribratge del càncer de mama
Bernal, Moyano Jose. "Deep learning for atrophy quantification in brain magnetic resonance imaging." Doctoral thesis, Universitat de Girona, 2020. http://hdl.handle.net/10803/671699.
Full textLa cuantificación de la atrofia cerebral es fundamental en la neuroinformática ya que permite diagnosticar enfermedades cerebrales, evaluar su progresión y determinar la eficacia de los nuevos tratamientos para contrarrestarlas. Sin embargo, éste sigue siendo un problema abierto y difícil, ya que el rendimiento de los métodos tradicionales depende de los protocolos y la calidad de las imágenes, los errores de armonización de los datos y las anomalías del cerebro. En esta tesis doctoral, cuestionamos si los métodos de aprendizaje profundo pueden ser utilizados para estimar mejor la atrofia cerebral a partir de imágenes de resonancia magnética. Nuestro trabajo muestra que el aprendizaje profundo puede conducir a un rendimiento de vanguardia en las evaluaciones transversales y competir y superar los métodos tradicionales de cuantificación de la atrofia longitudinal. Creemos que los métodos transversales y longitudinales propuestos pueden ser beneficiosos para la comunidad investigadora y clínica
Banús, Paradell Núria. "New solutions to control robotic environments: quality control in food packaging." Doctoral thesis, Universitat de Girona, 2021. http://hdl.handle.net/10803/673469.
Full textEls sistemes de visió per computador i les tècniques d’intel·ligència artificial són dues àrees de recerca actives en el context de la Indústria 4.0. La seva combinació permet la reproducció de procediments humans millorant al mateix temps el rendiment dels processos. Malgrat això, per aconseguir l’automatització completa desitjada, hi ha la necessitat de noves aplicacions capaces de cobrir el màxim d’escenaris i processos industrials possibles. Una de les àrees que necessita més investigació i desenvolupament és el control de qualitat dels envasos d’aliments, i més concretament, el control del tancament i del segellat d’envasos termoformats. Les necessitats en aquesta àrea van ser identificades per TAVIL que, amb col·laboració amb GILAB, van proposar un Doctorat Industrial per investigar, desenvolupar i integrar en escenaris reals nous mètodes per millorar l’etapa d’envasat de la indústria alimentària mitjançant sistemes de visió per computador i tècniques d’intel·ligència artificial. En el context d’aquest Doctorat Industrial, s’han seguit dues línies d’investigació que es diferencien en el nivell en el qual estudien el problema. La primera línia es basa en el control de qualitat d’envasos d’aliments, mentre que la segona es basa en el control eficient de sistemes de visió per computador en escenaris industrials
Programa de Doctorat en Tecnologia
Cárdenas, Chapellín Julio José. "Inversion of geophysical data by deep learning." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS185.
Full textThis thesis presents the characterization ofmagnetic anomalies using convolutional neural networks, and the application of visualization tools to understand and validate their predictions. The developed approach allows the localization of magnetic dipoles, including counting the number of dipoles, their geographical position, and the prediction of their parameters (magnetic moment, depth, and declination). Our results suggest that the combination of two deep learning models, "YOLO" and "DenseNet", performs best in achieving our classification and regression goals. Additionally, we applied visualization tools to understand our model’s predictions and its working principle. We found that the Grad-CAM tool improved prediction performance by identifying several layers that had no influence on the prediction and the t-SNE tool confirmed the good ability of our model to differentiate among different parameter combinations. Then, we tested our model with real data to establish its limitations and application domain. Results demonstrate that our model detects dipolar anomalies in a real magnetic map even after learning from a synthetic database with a lower complexity, which indicates a significant generalization capability. We also noticed that it is not able to identify dipole anomalies of shapes and sizes different from those considered for the creation of the synthetic database. Our current work consists in creating new databases by combining synthetic and real data to compare their potential influence in improving predictions. Finally, the perspectives of this work consist in validating the operational relevance and adaptability of our model under realistic conditions and in testing other applications with alternative geophysical methods
Esta tesis presenta la caracterización de anomalías magnéticas mediante redes neuronales convolucionales, y la aplicación de herramientas de visualización para entender y validar sus predicciones. El enfoque desarrollado permite la localización de dipolos magnéticos, incluyendo el recuento delnúmero de dipolos, su posición geográfica y la predicción de sus parámetros (momento magnético, profundidad y declinación). Nuestros resultados sugieren que la combinación de dos modelos de aprendizaje profundo, "YOLO" y "DenseNet", es la que mejor se ajusta a nuestros objetivos de clasificación y regresión. Adicionalmente, aplicamos herramientas de visualización para entender las predicciones de nuestromodelo y su principio de funcionamiento. Descubrimos que la herramienta Grad-CAM mejoraba el rendimiento de la predicción al identificar varias capas que no influían enla predicción y la herramienta t-SNE confirmaba la buena capacidad de nuestro modelo para diferenciar entre distintas combinaciones de parámetros. Seguidamente, probamos nuestro modelo con datos reales para establecer sus limitaciones y su rango de aplicación. Los resultados demuestran quenuestro modelo detecta anomalías dipolares en unmapa magnético real incluso después de aprender de una base de datos sintética con una complejidad menor, lo que indica una capacidad de generalización significativa. También observamos que no es capaz de identificar anomalías dipolares de formas y tamaños diferentes a los considerados para la creación de la base de datos sintética. Nuestro trabajo actual consiste en crear nuevas bases de datos combinando datos sintéticos y reales para comparar su posible influencia en la mejora de las predicciones. Por último, las perspectivas de este trabajo consisten en validar la pertinencia operativa y la adaptabilidad de nuestro modelo en condiciones realistas y en probar otras aplicaciones con métodos geofísicos alternativos
Wolfmann, Ariel Mauricio. "Transferencia de estilo en fotografías mediante redes neuronales convolucionales." Bachelor's thesis, 2017. http://hdl.handle.net/11086/10744.
Full textPusiol, Pablo Daniel. "Redes convolucionales en comprensión de escenas." Bachelor's thesis, 2014. http://hdl.handle.net/11086/2799.
Full textPresentamos y aplicamos una técnica de extracción no-supervisada de features de imágenes (Redes Neuronales Convolucionales) al problema de comprensión de escenas. Abarcamos las sutilezas tanto para el diseño como para el entrenamiento de estos modelos. Mostramos el modelo, el entrenamiento y los resultados obtenidos para un problema específico (determinar posición discreta de jugadores de tenis), proveyendo también posibles estrategias para generalizar a otros problemas.
Pastore, Pablo Andrés. "Reconocimiento facial en imágenes." Bachelor's thesis, 2018. http://hdl.handle.net/11086/11694.
Full textEn este trabajo se abordará el problema de reconocimiento facial en imágenes utilizando redes neuronales convolucionales. El éxito actual en los resultados obtenidos por este tipo de modelos yace principalmente en la posibilidad de contar con grandes volúmenes de datos anotados para su entrenamiento. Con respecto al reconocimiento facial, la disponibilidad de bases de datos públicas para este tipo de problemas es escasa, restringiendo los avances en el área de los últimos años a grandes empresas como Facebook, Google, Baidu, etc. En nuestros experimentos, tomaremos como punto de partida una red neuronal convolucional entrenada sobre una base de datos de rostros varios órdenes de magnitud menor a aquellas utilizadas comúnmente por el estado del arte. Usaremos vectores de características obtenidos con este modelo para entrenar un mapeo bilineal mediante una función de costo conocida como Triplet Loss. El objetivo del modelo final es obtener resultados cercanos al estado del arte, pero, utilizando un conjunto de datos de entrenamiento reducido.
In this work we address the problem of facial recognition on images using convolutional neural networks. Successful results obtained by these models relies mainly on the availability of large amounts of manually annotated data for training. For the task of facial recognition, the lack of large-scale publicly available datasets has restricted most advances in the field to big companies like Facebook, Google, Baidu, etc. In our experiments, we start from a simple convolutional neural network trained on a standard facial recognition dataset several orders of magnitude smaller than those used by the state-of-the-art. We use features extracted from this model to train a bilinear map using a cost function known in the literature as Triplet Loss. The goal of such model is to get results as close as possible to those obtained by state-of-the-art models but using a much smaller training set.
Godinho, Carolina do Carmo. "Modelo de Financial Trading através de Redes Neuronais Convolucionais." Master's thesis, 2020. http://hdl.handle.net/10451/48006.
Full textActualmente a Inteligência Artificial está presente um pouco por todas as áreas, nomeadamente nos Mercados Financeiros. No entanto, neste trabalho explora-se uma metodologia que foge à regra do que tem vindo a ser desenvolvido. Através de imagens de gráficos de barras que representam o preço de fecho de ações (Dow Jones 30) e com a utilização de uma Rede Neuronal Convolucional (CNN) tentou criar-se um novo modelo/algoritmo de negociação financeira. Foi considerado o intervalo temporal de 1987-2020 para gerar as imagens, cada uma com uma janela temporal de 30 dias e estas foram o input para treinar o algoritmo da CNN com o objetivo final de determinar pontos de Buy, Sell ou Hold. Os resultados indicaram que, apesar de este ser um estudo preliminar e possivelmente umas das primeiras tentativas de uma abordagem não convencional, o algoritmo conseguiu responder de forma favorável à identificação de pontos de Trading. De notar que devido ao estado embrionário deste estudo, há muita margem para que os resultados e conclusões sejam melhoradas, tal como outros ajustes que possam combinar diferentes estratégias ou algoritmos.
Nowadays, Artificial Intelligence is present in all areas, namely in Financial Markets. However, this work explores a methodology that is an exception to the rule of what has been developed. Through images of bar chart that represent the closing price of stocks (Dow Jones 30) and using a Convolutional Neuronal Network (CNN), a new financial trading model / algorithm was created. Was considered the time interval from 1987 to 2020 to generate the images, each with a time window of 30 days and these were the input to train the CNN algorithm with the ultimate goal of determining the Buy, Sell or Hold points. The results indicate that, although this was a preliminary study and probably one of the first attempts at an unconventional approach, the algorithm was able to respond favorably to the identification of Trading points. It should be noted that due to the embryonic state of this study, there is an opportunity for the results and conclusions to be improved, as well as other adjustments that might be combined in different strategies or algorithms.
Sá, Joana Emília Costa. "Deteção de enfarte do miocárdio através de redes neuronais convolucionais." Master's thesis, 2021. http://hdl.handle.net/10400.14/33562.
Full textIntroduction: Cardiovascular diseases have a high mortality rate worldwide. The Electrocardiogram is the first-line exam in what concerns the diagnosis of this type of pathologies and, consequently, with extreme importance in the correct and immediate interpretation for a promising prognosis. Myocardial infarction is one of the electrocardiographic changes that detected in a timely manner can have a huge impact at the physiological and anatomical level of the cardiac muscle itself. The existing need for a fast and correct decision-making has led to the development of algorithms capable of detecting pathologies in the electrocardiographic signal. Methodology: In order to maximize the discriminative capacity of the different types of myocardial infarction, specific patterns have been extracted from the ECG signals to feed artificial intelligence algorithms. In order to make the best use of the artificial intelligence algorithms, a pre-processing of the entire signal was performed followed by a rigorous selection of the segments that show pathological activity for each disease. The pathological segment selection for feeding the CNN was made by comparing the segments over time with time-series-sequency model’s characteristic of myocardial infarction. Results: The precision values of the models used in the present study, presented accuracy levels above 97%, 99.39%, 99.64%, 97.76% and 98.98% for the Anterior, Anterolateral, Inferior and Inferolateral, respectively. The promising discriminative results prove that the segment model selection stage allow to perform an excellent screening of the pathological sequencies from the nonpathological time-series sequences and the CNN model is ready for detecting pathological activity over time as a new ECG signal is presented to its entries.
Agria, João Manuel Pedro. "deepSTAIl: Style Transfer for Artificial Illustrations." Master's thesis, 2020. http://hdl.handle.net/10316/92590.
Full textTransferência de estilo com redes neuronais é a versão mais recente do ramo de interpretações artísticas baseadas em imagens. Historicamente, algoritmos de estilização para interpretações não-realistas foram desenvolvidos especificamente em torno de certas primitivas. Por exemplo, uma interpretação baseada em pinceladas colocava pinceladas virtuais numa imagem, mas era desenvolvida cuidadosamente para um estilo particular de pincelada e revelava-se incapaz de simular um estilo arbitrário. Esta limitação inerente de flexibilidade, estilo e diversidade que alguns algoritmos de interpretações artísticas baseadas em imagens tinham era equilibrada pela sua capacidade de representar fielmente os estilos artísticos para os quais eram criados. A procura por novos algoritmos que respondessem a estas limitações resulta no aparecimento da transferência de estilo com redes neuronais. A introdução de redes neuronais convolucionais causou uma mudança profunda nesta velha área de investigação, e atraiu a atenção de círculos académicos e industriais.Esta dissertação tem como objectivo ultrapassar as limitações computacionais do algoritmo clássico de transferência de estilo treinando uma rede geradora para realizar a mesma tarefa centenas de vezes mais depressa. A continuação lógica de uma transferência de estilo mais rápida, que é a transferência de estilo em vídeo, é um tópico que será explorado nesta dissertação devido às suas variadas aplicações em cenários de realidade aumentada e de realidade virtual, e na indústria de animação. Para solucionar o problema de processamento de vídeo com redes neuronais, duas alternativas são consideradas: utilizar métodos do ramo de visão por computador para guiar o treino da rede, ou alterar a arquitectura da rede para aferir informação temporal e espacial ao mesmo tempo.
Neural style transfer is the most recent facet of image-based artistic rendering. Historically, stylization algorithms for non-photorealistic rendering were designed specifically around certain primitives. For example, stroke based rendering placed virtual strokes on an image, but was carefully designed for only one particular style of stroke and not capable of simulating an arbitrary style. This inherent limitation on flexibility, style and diversity some IB-AR algorithms had was balanced by their capability of faithfully depicting those certain prescribed styles. The demand for novel algorithms to address these limitations gives birth to the field of NST. The introduction of convolutional neural networks caused a paradigm shift in this long standing area of research, and attracted the attention of both academic and industrial circles. This dissertation has the goal of enabling classical neural style transfer to overcome its computational limitations by training a generative network to perform the same task hundreds of times faster. The logical continuation of faster neural style transfer, video style transfer, is a topic that will be explored due to its many possible applications in augmented reality and virtual reality scenarios, and in the animation industry. To solve the task of video processing with neural networks, two alternatives are considered: using computer vision methods to guide a network's training, or changing a networks architecture to take into account spatial and temporal information at the same time.
Dionísio, Nuno Rafael Marques. "Improving cyberthreat discovery in open source intelligence using deep learning techniques." Master's thesis, 2018. http://hdl.handle.net/10451/36434.
Full textSão cada vez mais recorrentes as intrusões cibernéticas que afetam organizações e empresas, resultando em falhas de infraestruturas críticas, fuga de informação sensível e perdas monetárias. Com um aumento de ameaças `a confidencialidade, integridade e disponibilidade dos dados, as organizações procuram informações relevantes e atempadas sobre potenciais ameaças cibernéticas `a sua infraestrutura. Esta aquisição¸ de informação é normalmente feita por um Centro de Operações de Segurança que tem por objetivo detetar e reagir a incidentes de segurança. Porém as suas capacidades de reação dependem da informação útil e atempada que este recebe sobre ameaças cibernéticas, atualizações de software urgentes e descobertas de vulnerabilidades. Para tal é necessário ter acesso a uma plataforma que seja ágil e capaz de agregar diversas fontes de dados. Ainda que a abordagem possa utilizar outras fontes de dados, o Twitter age como agregador natural de informação, sendo possível encontrar especialistas, companhias de segurança e até grupos de hackers que partilham informação sobre cibersegurança. Este fluxo de informação pode ser aproveitado por uma equipa de cibersegurança para obter informação atempada sobre possíveis ameaças cibernéticas. No entanto, mesmo focando em contas de interesse, é necessário implementar um sistema que consiga selecionar apenas os tweets que contêm informação relevante sobre a segurança de ativos presentes na infraestrutura que se quer monitorizar. Devido ao elevado fluxo de dados, da necessidade de um algoritmo eficiente e escalável, e da capacidade de adaptar o algoritmo a uma determinada infraestrutura, procurámos implementar algoritmos de aprendizagem profunda, que pertencem ao subconjunto de algoritmos de aprendizagem automática. Aprendizagem automática (Machine learning) é uma área no domínio de Inteligência Artificial que procura desenvolver algoritmos capazes de, sem intervenção direta de um agente humano, ajustar os seus parâmetros para desempenhar com maior eficácia uma determinada tarefa. Por vezes, estes algoritmos são capazes de alcançar desempenho superior `a de um agente humano que fosse efetuar uma mesma tarefa. Normalmente tais tarefas são repetitivas e envolvem uma quantidade exuberante de dados. Aprendizagem profunda (Deep learning) é uma subárea de aprendizagem automática que tem vindo a receber atenção devido `as suas capacidades. De forma geral esta é uma área, que recorrendo aos avanços no poder de computação e da quantidade crescente de dados, é capaz de treinar redes neuronais que contêm várias camadas. Este tipo de redes neuronais são usualmente chamadas de redes profundas (deep) e distinguem-se das redes mais tradicionais que agora se consideram de rasas (shallow). Redes neuronais rasas normalmente contêm apenas uma ou duas camadas escondidas e uma camada de saída. Cada camada é composta por neurónios inter-conectados que normalmente possuem a mesma funcionalidade. Por outro lado, as redes neuronais profundas tendem a possuir mais camadas escondidas, com diferentes camadas funcionais. Dois tipos de redes profundas que são frequentemente utilizadas são as redes neuronais convolucionais e as redes neuronais recorrentes. Redes neuronais convolucionais são frequentemente utilizadas para tarefas de visão computacional devido `a sua capacidade de processamento espacial. Dado uma tarefa e um conjunto de dados, este tipo de rede é capaz de aprender automaticamente várias características e padrões de uma imagem. Este tipo de arquitetura também pode ser aplicado a tarefas de processamento de texto, sendo capaz de captar relações entre diferentes sequências de palavras. O outro tipo de rede neuronal que tem obtido excelentes resultados são as redes neuronais recorrentes. Estas são frequentemente utilizadas para tarefas que envolvam uma dimensão temporal, como por exemplo o processamento de voz ou de texto. Ao contrário das redes já descritas, as redes neuronais recorrentes possuem um estado interno que age como a sua memória. Este estado de memória ´e uma camada de neurónios que mantém a sua ativação ao longo de uma determinada sequência. Por exemplo, na tarefa de processamento de texto, a rede neuronal recorrente irá receber uma palavra de cada vez. Ao processar uma palavra o estado dos neurónios que constituem uma camada da rede ´e mantido para o processamento da próxima palavra. O trabalho realizado nesta dissertação visa melhorar e estender as capacidades de um sistema, atualmente em desenvolvimento, através de algoritmos de aprendizagem profunda. O sistema atual é capaz de receber tweets e através de um classificador baseado em máquinas de vetores de suporte, selecionar os que contêm informação relevante. Apresentamos duas redes neuronais, sendo a primeira uma alternativa ao classificador existente e a segunda um complemento que permite a extração de informação relevante de uma tweet. A primeira contribuição deste trabalho é a implementação de uma rede neuronal convolucional como alternativa ao classificador de máquinas de vetores de suporte. Ao inserir uma tweet na rede, cada palavra é convertida num vetor numérico que contem uma representação semântica. Após a camada de convers˜ao temos a camada convolucional. Esta camada irá produzir mapas de características que reportam sobre a existência ou ausência de uma dada característica na tweet através da ativação dos seus neurónios. Depois, cada mapa de características ´e reduzido ao seu valor mais elevado, este valor refere-se `as ativações dos neurónios que estão inseridos na camada convolucional. Esta operação permite reduzir a complexidade computacional e eliminar informação redundante. Por fim, a camada de saída contem uma função de ativação do tipo sigmóide (softmax) que permite classificar um tweet como sendo positivo (contem informação relevante sobre ameaças de segurança) ou negativo (não contem informação relevante). Em comparação ao classificador baseado em máquinas de vetores de suporte, o nosso classificador mostra resultados superiores, nomeadamente na redução do número de falsos positivos. A segunda parte deste trabalho envolve a implementação de um modelo de reconhecimento de entidades nomeadas para extrair informação relevante dos tweets que possa ser utilizada para o preenchimento de um alerta de seguranc¸a ou um indicador de compromisso. Para este fim, utilizámos uma rede neuronal bidirecional de memória longa de curto prazo, um tipo de rede neuronal recorrente, e definimos 5 entidades que queremos encontrar (organização, produto, versões, ameaças e identificadores de repositórios de vulnerabilidades) mais uma entidade para a informação não relevante. A primeira camada desta rede é semelhante à do classificador. No entanto, este modelo contém uma camada opcional, igual à camada de conversão, que usa os carateres das palavras para criar uma matriz. Desta forma, cada palavra é representada por uma matriz em que cada vetor representa o valor semântico de um caracter. Este conjunto de vetores é enviado para uma rede neuronal bidirecional de memória longa de curto prazo secundária. A rede recebe um vetor de cada vez e no final produz um vetor que corresponde ao estado interno que representa o contexto da palavra com base nos carateres. Esta representação é adicionada ao vetor numérico da palavra de forma a enriquecer a sua representação final. Depois, os vetores são enviados para a rede neuronal bidirecional de memória longa de curto prazo principal. Ao contrário da rede anterior em que apenas se extraiu o ultimo estado, nesta rede extraímos o estado a cada intervalo de tempo (a cada palavra de uma tweet). Por fim, temos a camada de saída onde uma matriz de pontuações n × k é criada. Nesta matriz, n é o número de palavras que constituiem a frase e k o número de entidades distintas que podem ser atribuídas a uma palavra. A atribuição de uma entidade a cada palavra é feita selecionando a entidade com a pontuação mais alta. Porém, este método não considera as palavras vizinhas quando atribui uma entidade. Um módulo opcional chamado campos aleatórios condicionais é capaz de calcular uma pontuação para uma sequência inteira de entidades através da criação de uma matriz k×k, sendo k o número de entidades, que automaticamente irá aprender pontuações para a transição de uma entidade para outra. Este processo permite que o modelo seja capaz de tomar em conta não só o contexto de uma palavra mas também o contexto das palavras vizinhas. O modelo obteve bons resultados, ambas as métricas como a média harmónica F1 e a exatidão obtiveram resultados superiores a 90%, apresentando-se como uma forma viável para um sistema de extração de informação relevante sobre cibersegurança.
The cyberspace is facing a challenge regarding the increasing security threats that target companies, organizations and governments. These threats cause the failure of critical infrastructures, disclosure of private information and monetary losses. In order to guard and be prepared against cyber-attacks, a security analyst ought to be properly informed of the latest software updates, vulnerability disclosures and current cyber-threats. This requires access to a vast feed of information from various sources. One option is to pay for the access to such services. However Open Source Intelligence, which is freely available on the internet, presents a valuable alternative, specifically social media platforms such as Twitter, which are natural aggregators of information. In this dissertation, we present a pipeline that aims to improve and expand the capabilities of a cyberthreat discovery tool currently in development. This tool is capable of gathering, processing, and presenting security related tweets. For this purpose, we developed two neural networks. The first is a binary classifier based on a Convolutional Neural Network architecture. This classifier is able to identify if a tweet contains security related information about a monitored infrastructure. Once a tweet is classified as containing relevant information, it is forwarded to a Named Entity Recognition model. This model is implemented by a Bidirectional Long Short-Term Memory network and aims to locate and identify pre-defined entities in a tweet that may be used for a security alert or to fill an Indicator of Compromise. Our classifier achieves favourable results: comparing to the current Support Vector Machine binary classifier it achieves equal or superior True Positive Rate and significantly better True Negative Rate. On the other hand, our Named Entity Recognition model is also capable of achieving great results, presenting an efficient method of extracting important information from security related text, with results above 90%.
Guedes, Victor. "Deep learning aplicado a classificação de patologias da voz." Master's thesis, 2018. http://hdl.handle.net/10198/20502.
Full textA classificação de patologias relacionadas a voz utilizando conceitos de Deep Learning vem crescendo consideravelmente nos últimos anos. Bons resultados já foram obtidos para a classificação em fala sustentada com vogais, mas ainda existem poucos trabalhos relacionadas a classificação deste problema utilizando fala contínua. Por isso, é foco desta dissertação realizar a implementação dos principais modelos de Deep Learning para a classificação de patologias da voz em fala contínua, utilizando a frase alemã “Guten Morgen, wie geht es Ihnen?” da base de dados Saarbruecken Voice Database. São utilizados as patologias de disfonia, laringite e paralisia das cordas vocais, além da classe dos saudáveis, para análises multi classe e binária. Além disso, também é realizado um estudo prévio para a classificação com vogais nas mesmas patologias. O melhor resultado para as vogais é de 99% de exatidão para a implementação de um modelo LSTM com parâmetros Jitter, Shimmer e Autocorrelação, na classificação binária entre laringite e saudável. Para as frases, é realizado um estudo comparativo entre modelos de redes neuronais, convolucionais e recorrentes para os parâmetros MFCCs e Espectrogramas na escala Mel obtendo resultados de 76% de medida-F para disfonia x saudável, 68% de medida-F para laringite x saudável, 80% de medida-F para paralisia x saudável. Para classificação multi classe é obtido 59% e 40% de medida-F para 3 classes e 4 classes, respectivamente.
The classification of voice related pathologies using Deep Learning concepts has been increasing considerably in recent years. Good results have already been obtained for classification in sustained speech with vowels, but there are still few studies related to the classification of this problem using continuous speech. Therefore, the focus of this dissertation is to implement the main models of Deep Learning for the classification of voice pathologies in continuous speech, using the German phrase "Guten Morgen, wie geht es Ihnen?"From the Saarbruecken Voice Database. The pathologies of dysphonia, laryngitis and paralysis of the vocal cords, as well as the healthy class, are used for multi-class and binary analyzes. In addition, a previous study for the classification with vowels in the same pathologies is also carried out. The best result for the vowels is 99 % accuracy for the implementation of an LSTM model with parameters Jitter, Shimmer and Autocorrelation, in the binary classification between laryngitis and healthy. For the phrases, a comparative study between neural networks, convolutional and recurrent models with the parameter MFCCs and Spectrograms in the Mel scale, obtaining results of 76% F-measure for dysphonia x healthy, 68% F-measure for laryngitis x healthy, 80% F-measure for healthy x paralysis of the vocal cords. For multi-class classification is obtained 59% and 40% of F-measure for 3 classes and 4 classes, respectively.
Pereira, Rúben Gil Bernardo. "2-D Cnn for time series trend prediction." Master's thesis, 2020. http://hdl.handle.net/10451/51463.
Full textRecentemente, Redes Neurais Artificiais (RNAs) têm sido desenvolvidas e aplicadas á pre visão e classificação de séries temporais devido á sua capacidade de modelação não linear. Redes Neurais Convolucionais ( CNNs do inglês Convolutional Neural Networks), um tipo de rede neural habitualmente usada para classificação de imagens, ganharam recentemente popularidade nos mercados financeiros. Em Gudeleke, Boluk e Ozbayoglu (2017), os autores apresentam um método para prever a tendência dos preços de fecho de fundos de investimento usando uma CNN bidimensional. Os autores usaram dados de dezassete fundos de investimento distintos (Financial Select Sector SPDR ETF, Utilities Select Sector SPDR ETF, Industrial Select Sector SPDR ETF, SPDR S&P 500 ETF, Consumer Staples Select Sector SPDR ETF, iShares MSCI Germany ETF, Materials Select Sector SPDR ETF, Technology Select Sector SPDR ETF, Health Care Select Sector SPDR ETF, iShares MSCI Hong Kong ETF, iShares MSCI Canada ETF, Consumer Discret Sel Sect SPDR ETF, iShares MSCI Mexico Capped ETF, SPDR Dow Jones Industrial Average ETF, Energy Select Sector SPDR ETF, iShares MSCI Australia ETF and iShares MSCI Japan ETF) para criar imagens de (28 × 28) pixeis em nível de cinza. Estas imagens contêm 28 dias de negociação e 28 séries temporais correspondentes ao preço de fecho, volume e alguns indicadores técnicos calculados para diferentes períodos. Essas imagens são então usadas para alimentadar uma CNN bidimensional que retorna a tendência do preço de fecho do dia seguinte. Neste trabalho, um primeiro modelo foi desenvolvido a fim de reproduzir os resultados obtidos em Gudeleke, Boluk e Ozbayoglu (2017). A exatidão de 58% foi alcançada para o modelo de classificação binário, significativamente inferior ao valor de referência de 78%. Por outro lado, o nosso modelo de classificação multinomial apresentou uma melhor performance com uma exatidão de 69% em comparação com o valor de referência de 63%. Um estudo secundário tentou melhorar o desempenho dos modelos alterando a aquitetura das CNNs. Ao remover a camada de agrupamento da CNN, foram alcançados melhores resul tados em ambas as classificações binária e multinomial. No caso do modelo de classificação binária, foi observado um aumento de 6% na exatidão ( correspondente a uma exatidão de 64%). Considerando o modelo classificação multinomial, não foi identificada uma melhoria na exatidão, no entando foram observadas melhorias na precisão e na revocação para as classes de compra e venda. Ao aumentar o tamanho das imagens geradas a partir dos dados de entrada, foi observado um aumento de 5% na exatidão ( correspondente a uma exatidão de 69%) parao modelo de classificação binária. Por outro lado, ao passarmos para um modelo de previsão da tendência dos retornos semanais, um aumento de 6% na exatidão ( correspondente a uma exatidão de 75%) foi observado para o modelo de classificação binária. Já no caso do modelo de classificação multinomial, foi observada uma diminuição de 4% na exatidão ( correspondente a uma exatidão de 65%). Para além disso, valores de precisão significativamente superiores foram obtidos para duas das três classes. Finalmente, foi desenvolvido um modelo para prever a tendência dos retornos mensais. Para tal, mais uma vez, foi necessário aumentar o tamanho das imagens geradas a partir dos dados de entrada. Um aumento de 15% na exatidão ( correspondente a uma exatidão de 90%) foi observado No caso do modelo de classificação binária. Já em relação ao modelo de classificação multinomial, um aumento de exatidão de 16% foi alcançado ( correspondente a uma exatidão de 81%) juntamente com um aumento na precisão e revocação para as classes de compra e venda.
Convolution Neural Networks have recently gain popularity as time series forecasting and classification models due to their ability of non-linear modeling. In this work a classification model for predicting the trend of ETFs closing prices using a 2-D CNN was developed. The 2-D CNN was trained with labelled images generated out of the ETFs financial data. Our model were able to predict the next day, week and month price movements with 69%, 75% and 90% accuracy, respectively.
Silva, Luís Pedro Baptista. "Exploring deep learning architectures and reliability of several datasets to predict protein-protein interactions." Master's thesis, 2020. http://hdl.handle.net/10316/92577.
Full textAs proteínas são indispensáveis para os seres vivos e são a base de quase todos os processos celulares. No entanto, estas macromoléculas raramente actuam sozinhas, formando as interações proteína-proteína. Dada a sua importância biológica não é de surpreender que a sua desregulamentação seja uma das principais causas de vários estados de doença.A súbita onda de interesse nesta área de estudo motivou o desenvolvimento de métodos in silico inovadores. Apesar dos avanços óbvios nos últimos anos, a eficácia destes métodos computacionais permanece questionável. Ainda não existem evidências suficientes que apoiem o uso apenas de técnicas in silico para prever interações proteína-proteína ainda não determinadas experimentalmente. Está provado que uma das principais razões que leva a esta situação é a inexistência de um conjunto de dados de interações negativas padrão. Contrariamente à grande abundância de interações positivas disponíveis publicamente, os exemplos negativos são frequentemente gerados artificialmente, culminando em amostras tendenciosas.Nesta tese de mestrado, é apresentado um novo conjunto de dados imparciais, que não restringe em demasia a distribuição das interações negativas. Além do novo conjunto de dados, são também propostos modelos distintos de aprendizagem profunda como uma ferramenta para prever se duas proteínas individuais são capazes de interagir uma com a outra, usando exclusivamente as sequências completas de aminoácidos. Os resultados obtidos indicam firmemente que os modelos propostos são realmente uma ferramenta valiosa para prever interações proteína-proteína, principalmente quando comparados com as abordagens existentes, além de destacarem ainda que existe espaço para melhorias quando implementados em conjuntos de dados imparciais.
Proteins are indispensable to the living organisms and are the backbone of almost all the cellular processes. However, these macromolecules rarely act alone, forming the protein-protein interactions. Given their biological significance it should come as no surprise that their deregulation is one of the main causes to several disease states. The sudden surge of interest in this field of study motivated the development of innovative in silico methods. Despite the obvious advances in recent years, the effectiveness of these computational methods remains questionable. There is still not enough evidence to support the use of just in silico techniques to predict protein-protein interactions not yet experimentally determined. It is proved that one of the primary reasons leading to this situation is the non-existence of a "gold-standard" negative interactions dataset. Contrary to the high abundance of publicly available positive interactions, the negative examples are often artificially generated, culminating in biased samples. In this master thesis a new unbiased dataset is presented, that does not overly constraint the negative interactions distribution. Beyond the novel dataset, also distinct deep learning models are proposed as a tool to predict whether two individual proteins are capable of interacting with each other, using exclusively the complete raw amino acid sequences. The obtained results firmly indicate that the proposed models are actually a valuable tool to predict protein-protein interactions, principally when compared with the existing approaches, while also highlighting that there is still some room for improvement when implemented in unbiased datasets.
Outro - Portuguese Research Agency FCT, through D4 - Deep Drug Discovery and Deployment (CENTRO-01-0145-FEDER-029266).
Rodrigues, Nuno Miguel Vasconcelos. "Exploring neuroevolution fitness landscapes for optimization and generalization." Master's thesis, 2020. http://hdl.handle.net/10451/45058.
Full textPaisagens de aptidão (fitness landscapes) são um conceito útil e largamente investigado para estudar as dinâmicas de meta-heurísticas. Nas últimas duas décadas têm sido utilizadas com sucesso para estimar as capacidades de otimização de diversos tipos de algoritmos evolutivos, tal como algoritmos genéticos e programação genética. No entanto, até à data nunca foram utilizadas para estudar o desempenho de algoritmos de aprendizagem automática em dados nunca vistos durante o treino, e nunca foram aplicadas para estudar as paisagens geradas por neuroevolução. Coincidentemente, apesar de já existir há quase três décadas e ainda ser uma área de investigação com um crescimento rápido e dinâmico, a neuroevolução ainda tem falta de fundações teóricas e metodológicas, fundações essas que podem ser dadas através da aplicação de paisagens de aptidão. Esta dissertação tem como objetivo preencher estas lacunas ao aplicar paisagens de aptidão à neuroevolução, usando este conceito para inferir informação útil sobre a capacidade de aprendizagem e generalização deste método de aprendizagem automática. De forma a realizar esta tarefa, desenvolvemos e usámos um algoritmo de neuroevolução baseado em gramáticas que gera redes neuronais convolucionais, e estudámos a dinâmica de três operadores de mutação distintos usados para evoluir múltiplos aspetos das redes neuronais. De forma a caracterizar as paisagens de aptidão, estudámos a autocorrelação (autocorrelation), medida entrópica de rugosidade (entropic measure of ruggedness), nuvens de aptidão (fitness clouds), medidas de gradiente (gradient measures) e o coeficiente de declive negativo (negative slope coefficient), e ao mesmo tempo discutimos porque é que apesar de não usarmos outras medidas, tais como redes de ótimos locais (local óptima networks) e correlação aptidão distância (fitness distance correlation), estas podem providenciar resultados interessantes. Também propomos o uso de duas novas medidas de avaliação: nuvens de densidade, uma nova medida desenvolvida nesta tese com capacidade de dar informação visual sobre a distribuição de amostras, e a medida de sobreajustamento (overfitting), que é derivada de uma medida já existente e usada em programação genética. Os resultados demonstram que as medidas usadas são apropriadas e produzem resultados precisos no que toca a estimar tanto a capacidade de aprendizagem como a habilidade de generalização das configuração de neuroevolução consideradas.
Fitness landscapes are a useful and widely investigated concept for studying the dynamics of meta-heuristics. In the last two decades, they have been successfully used for estimating the optimization capabilities of different flavors of evolutionary algorithms, including genetic algorithms and genetic programming. However, so far they have not been used for studying the performance of Machine Learning (ML) algorithms on unseen data, and they have not been applied to study neuroevolution landscapes. Coincidentally, despite having existed for almost three decades and still being a dynamic and rapidly growing research field, neuroevolution still lacks theoretical and methodological foundations, which could be provided by the application of fitness landscapes. This thesis aims to fill these gaps by applying fitness landscapes to neuroevolution, using this concept to infer useful information about the learning and generalization ability of the ML method. For this task, we developed and used a grammar-based neuroevolution approach to generate convolutional neural networks, and studied the dynamics of three different mutation operators used to evolve multiple aspects of the networks. To characterize fitness landscapes, we studied autocorrelation, entropic measure of ruggedness, fitness clouds, gradient measures and negative slope coefficient, while also discussing why other measures such as local optima networks and fitness distance correlation, despite not being used, could provide interesting results. Also, we propose the use of two additional evaluation measures: density clouds, a new measure developed in this thesis that can provide visual information regarding the distribution of samples, and overfitting measure, which is derived from a measure used in genetic programming. The results show that the used measures are appropriate and produce accurate results when estimating both the learning capability and the generalization ability of the considered neuroevolution configurations.
Brás, André Filipe Pereira. "Gesture recognition using deep neural networks." Master's thesis, 2017. http://hdl.handle.net/10316/83023.
Full textEsta dissertação teve como principal objetivo o desenvolvimento de um método para realizar segmentação e reconhecimento de gestos. A pesquisa foi motivada pela importância do reconhecimento de ações e gestos humanos em aplicações do mundo real, como a Interação Homem-Máquina e a compreensão de linguagem gestual. Além disso, pensa-se que o estado da arte atual pode ser melhorado, já que esta é uma área de pesquisa em desenvolvimento contínuo, com novos métodos e ideias surgindo frequentemente.A segmentação dos gestos envolveu um conjunto de características artesanais extraídas dos dados 3D do esqueleto, as quais são adequadas para representar cada frame de qualquer sequência de vídeo, e uma Rede Neuronal Artificial para distinguir momentos de descanso de períodos de atividade. Para o reconhecimento de gestos, foram desenvolvidos 3 modelos diferentes. O reconhecimento usando as características artesanais e uma janela deslizante, que junta informação ao longo da dimensão temporal, foi a primeira abordagem. Além disso, a combinação de várias janelas deslizantes com o intuito de obter a influência de diferentes escalas temporais também foi experimentada. Por último, todas as características artesanais foram descartadas e uma Rede Neuronal Convolucional foi usada com o objetivo de extrair automaticamente as características e as representações mais importantes a partir de imagens.Todos os métodos foram testados no conjunto de dados do concurso 2014 Looking At People e o melhor alcançou um índice de Jaccard de 0.71. O desempenho é quase equivalente ao de algumas técnicas do estado da arte.
This dissertation had as the main goal the development of a method to perform gesture segmentation and recognition. The research was motivated by the significance of human action and gesture recognition in real world applications, such as Human-Machine Interaction (HMI) and sign language understanding. Furthermore, it is thought that the current state of the art can be improved, since this is an area of research in continuous developing, with new methods and ideas emerging frequently.The gesture segmentation involved a set of handcrafted features extracted from 3D skeleton data, which are suited to characterize each frame of any video sequence, and an Artificial Neural Network (ANN) to distinguish resting moments from periods of activity. For the gesture recognition, 3 different models were developed. The recognition using the handcrafted features and a sliding window, which gathers information along the time dimension, was the first approach. Furthermore, the combination of several sliding windows in order to reach the influence of different temporal scales was also experienced. Lastly, all the handcrafted features were discarded and a Convolutional Neural Network (CNN) was used with the aim to automatically extract the most important features and representations from images.All the methods were tested in 2014 Looking At People Challenge’s data set and the best one achieved a Jaccard index of 0.71. The performance is almost on pair with that of some of the state of the art techniques.
Quadros, Francisca Agra de Almeida. "Experiments in Retinal Vascular Tree Segmentation using Deep Convolutional Neural Networks." Master's thesis, 2017. http://hdl.handle.net/10316/83005.
Full textA Inteligência Artifical tem vindo a impor-se como um dos domínios mais promissores e relevantes da actualidade. Assim sendo, o seu estudo tem sido cada vez mais desenvolvido e aprofundado, gerando novas soluções nas mais diversas áreas da nossa sociedade. Em particular, na área de diagnóstico assistido por computador, tem surgido um crescente número de estudos e projectos demonstrando o interesse, cada vez maior, suscitado por este tipo de tecnologias.Esta dissertação surge neste contexto como uma tentativa de analisar e explorar a utilização de Redes Neuronais Convolucionais Profundas na segmentação da rede vascular da retina em imagens oftálmicas. Para tal, foi desenvolvido um modelo de uma Rede Neuronal Convolucional e foram executados diversos casos de treino com diferentes parâmetros, para avaliar o seu comportamento.Numa primeira fase, imagens obtidas em bases de dados de imagens online, nomeadamente DRIVE e STARE, foram ligeiramente pré-processadas e de seguida foram extraídos fragmentos de 32 por 32 pixeis para treinar a rede neuronal. Assim sendo, o algoritmo desenvolvido é supervisionado, uma vez que é utilizada informação prévia acerca dos pixeis centrais de cada fragmento para treinar a rede. Na fase seguinte, o modelo foi implementado, tendo sido testadas diversas arquitecturas (número e tipo de camadas) usando a API Keras. O procedimento até agora descrito, bem como todas as experiências realizadas, inserem-se no processo de treino. Posteriormente passou-se à fase de teste, onde o modelo final foi testado num conjunto de imagens novas para avaliar a performance do algoritmo.O classificador final obtido foi testado em 20 imagens da DRIVE tendo-se obtido uma AUC de 0.87, precisão de 80%, sensibilidade de 85% e especificidade de 79%, com um tempo de segmentação de 13 minutos, o que se traduz em cerca de 39 segundos por imagem.
Artificial Intelligence has been emerging as one of the most promising and relevant current domains. Thus, its study has been increasingly developed and deepened, generating new solutions in the most diverse areas of our society. Particularly, in the area of computer-aided diagnosis, an increasing number of studies and projects have arisen, demonstrating the growing interest raised by this type of technologies.This dissertation represents, in this context, an attempt to analyze and explore the usage of Deep Convolutional Neural Networks in the segmentation of the retinal vascular tree in ophthalmic images. To achieve such goal, a model of a Convolutional Neural Network was developed and several training cases were executed with different parameters, to evaluate its behaviour.In an early stage, the images obtained from online image databases, namely DRIVE and STARE, were slightly pre-processed and then patches of size 32 by 32 pixels were extracted to train the neural network. Therefore, the developed algorithm is supervised, once previous information about the central pixel of each patch was used to train the network. In the following phase, the model was implemented, having been tested different architectures (number and type of layers) using the Keras API. The procedure described so far, as well as all the experiments conducted, are part of the training process. Afterwards, there was a test phase, in which the model was tested in a new unseen set of images to evaluate the performance of the algorithm.The final classifier was tested on 20 images from DRIVE, having achieved an AUC of 0.87, an accuracy of 80%, a sensitivity of 85% and specificity of 79%, with a segmentation time of 13 minutes, which translates into 39 seconds per image.
Torres, Luís Henrique Magalhães Ramos. "Exploring a Siamese Neural Network Architecture for One-Shot Drug Discovery." Master's thesis, 2020. http://hdl.handle.net/10316/92189.
Full textAs redes neuronais profundas oferecem um elevado poder preditivo ao ser capazes de inferir as propriedades farmacológicas e atividades biológicas de pequenas moléculas em aplicações para descoberta de fármacos. No entanto, a quantidade de informação supervisionada disponível para treino é escassa e o passo de 'lead-optimization' apresenta um problema de 'low-data', dificultando a descoberta de novos compostos com a atividade terapêutica pretendida e respetivos análogos farmacológicos. Um requisito fundamental é a necessidade de uma grande quantidade de exemplos de treino por classe, o que nem sempre é possível em aplicações para descoberta de fármacos. Estes desafios invalidam o uso de instâncias cujas classes são desconhecidas no treino ou em dados onde o número de classes é elevado e oscila dinamicamente. O grande objetivo deste estudo é otimizar a descoberta de novos compostos partindo de um conjunto reduzido de moléculas candidatas. Assim, propomos uma arquitetura de redes neuronais paralelas implementando uma estratégia de 'one-shot learning', baseada num conjunto de redes neuronais convolucionais (CNNs) capazes de aprender a partir de um dado 'score' de semelhança entre duas moléculas devolvido por uma dada função de similaridade. Aplicando uma estratégia de 'one-shot learning', apenas necessitamos de um reduzido conjunto de instâncias por classe para treino e de um pequeno conjunto de dados e recursos computacionais para a construção de um modelo eficaz na previsão. Os resultados obtidos demonstram que o uso de um conjunto de redes neuronais convolucionais paralelas implementando uma estratégia de 'one-shot learning' conduz à obtenção de desempenhos superiores na previsão de novos compostos comparando com os modelos 'state-of-the-art'. Assim, o modelo proposto permite prever corretamente e com elevada eficácia, novos compostos e respetivos análogos farmacológicos, considerando a escassez de dados biológicos disponíveis para aplicações de descoberta e desenvolvimento de fármacos.
Deep neural networks offer a great predictive power when inferring the pharmacological properties and biological activities of small molecules in drug discovery applications. However, in the traditional drug discovery process, where supervised data is scarce, the lead-optimization step is a low-data problem, making it difficult to find molecules with the desired therapeutic activity and obtain accurate predictions for novel compounds and their pharmacological analogs. One major requirement to ensure the validity of the obtained neural network models is the need for a large number of training examples per class, which is not always feasible in drug discovery applications. This invalidates the use of instances whose classes were not considered in the training phase or in data where the number of classes is high and oscillates dynamically.The main objective of the study is to optimize the discovery of novel compounds based on a reduced set of candidate drugs. We propose a Siamese neural network architecture for one-shot classification, based on Convolutional Neural Networks (CNNs), that learns from a similarity score between two input molecules according to a given similarity function. Using a one-shot learning strategy, few instances per class are needed for training, and a small amount of data and computational resources are required to build an accurate model. The results achieved demonstrate that using a Siamese Deep Neural Network for one-shot classification leads to overall improved performance when compared to other state-of-the-art models. The proposed one-shot Siamese neural network architecture provides an accurate and reliable prediction of novel compounds considering the lack of biological data available for drug discovery tasks.
Outro - This research has been funded by the Portuguese Research Agency FCT, through D4 - Deep Drug Discovery and Deployment(CENTRO-01-0145-FEDER-029266).
Lapa, Paulo Alberto Fernandes. "Conditional random fields improve the CNN-based prostate cancer classification performance." Master's thesis, 2019. http://hdl.handle.net/10362/89470.
Full textProstate cancer is a condition with life-threatening implications but without clear causes yet identified. Several diagnostic procedures can be used, ranging from human dependent and very invasive to using state of the art non-invasive medical imaging. With recent academic and industry focus on the deep learning field, novel research has been performed on to how to improve prostate cancer diagnosis using Convolutional Neural Networks to interpret Magnetic Resonance images. Conditional Random Fields have achieved outstanding results in the image segmentation task, by promoting homogeneous classification at the pixel level. A new implementation, CRF-RNN defines Conditional Random Fields by means of convolutional layers, allowing the end to end training of the feature extractor and classifier models. This work tries to repurpose CRFs for the image classification task, a more traditional sub-field of imaging analysis, on a way that to the best of the author’s knowledge, has not been implemented before. To achieve this, a purpose-built architecture was refitted, adding a CRF layer as a feature extractor step. To serve as the implementation’s benchmark, a multi-parametric Magnetic Resonance Imaging dataset was used, initially provided for the PROSTATEx Challenge 2017 and collected by the Radboud University. The results are very promising, showing an increase in the network’s classification quality.
Cancro da próstata é uma condição que pode apresentar risco de vida, mas sem causas ainda corretamente identificadas. Vários métodos de diagnóstico podem ser utilizados, desde bastante invasivos e dependentes do operador humano a métodos não invasivos de ponta através de imagens médicas. Com o crescente interesse das universidades e da indústria no campo do deep learning, investigação tem sido desenvolvida com o propósito de melhorar o diagnóstico de cancro da próstata através de Convolutional Neural Networks (CNN) (Redes Neuronais Convolucionais) para interpretar imagens de Ressonância Magnética. Conditional Random Fields (CRF) (Campos Aleatórios Condicionais) alcançaram resultados muito promissores no campo da Segmentação de Imagem, por promoverem classificações homogéneas ao nível do pixel. Uma nova implementação, CRF-RNN redefine os CRF através de camadas de CNN, permitindo assim o treino integrado da rede que extrai as características e o modelo que faz a classificação. Este trabalho tenta aproveitar os CRF para a tarefa de Classificação de Imagem, um campo mais tradicional, numa abordagem que nunca foi implementada anteriormente, para o conhecimento do autor. Para conseguir isto, uma nova arquitetura foi definida, utilizando uma camada CRF-RNN como um extrator de características. Como meio de comparação foi utilizada uma base de dados de imagens multiparamétricas de Ressonância Magnética, recolhida pela Universidade de Radboud e inicialmente utilizada para o PROSTATEx Challenge 2017. Os resultados são bastante promissores, mostrando uma melhoria na capacidade de classificação da rede neuronal.
Fernandes, Soraia Hermínia Aguiar Afonso. "Identification of residues deposited outside of the deposition equipment, using video analytics." Master's thesis, 2021. http://hdl.handle.net/10071/23947.
Full textNas áreas onde a produção de resíduos é excessiva, por vezes ocorre a deposição indevida em torno dos equipamentos de deposição de lixo, exigindo mais esforço por parte das equipas de recolha destes resíduos. Nesta dissertação é proposto um sistema de reconhecimento de imagem para a deteção e classificação de resíduos fora dos equipamentos de deposição existentes para o mesmo. A principal motivação é facilitar o trabalho de recolha dos resíduos na cidade de Lisboa. De forma a possibilitar o desenvolvimento de algoritmos que possam vir a ser úteis na automatização de tarefas em diferentes áreas de intervenção, a Câmara Municipal de Lisboa criou um repositório, denominado ‘LxDataLab’, contendo vários conjuntos de dados. Estes dados, por sua vez são submetidos a um processo pré-processamento e por fim são submetidas para deteção e classificação dos resíduos. Assim é proposto um método de classificação e identificação de resíduos utilizando redes neuronais para análise de imagens: a primeira abordagem consistiu no treino de uma rede neuronal convolucional de aprendizagem profunda (CNN) desenvolvida especificamente para classificar resíduos; numa segunda abordagem foi treinada uma CNN utilizando um modelo pré-treinado MobileNetV2. Nesta última abordagem, o treino foi mais rápido em relação à abordagem anterior, e o desempenho na deteção da classe e da quantidade de resíduos nas imagens foi superior. A taxa de acerto para as classes de resíduos selecionadas variou nos 80% para o conjunto de teste. Após a deteção e classificação dos resíduos nas imagens são geradas anotações nas mesmas.
Penacho, Catarina Barradas Casteleiro. "Avaliação Setorial de Qualidade e Deteção de Artefactos em Retinografias." Master's thesis, 2018. http://hdl.handle.net/10316/86690.
Full textAtualmente, devido ao aumento da população envelhecida, existe crescimento no número de casos de patologias na retina. Na medida em que estas doenças podem vir a ser tratadas ou até prevenidas, é fundamental detetar antecipadamente, diagnosticar e ter uma avaliação permanente do paciente. Uma das abordagens utilizadas para monitorizar as doenças de forma não invasiva, é o recurso a fotografias digitais da retina avaliadas por um oftalmologista. Contudo, esta requer bastantes profissionais desta área médica e grandes quantidades de armazenamento. Uma resolução prática e económica em termos de custos e tempo é a avaliação automatizada de retinografias digitais. Porém, cerca de 10%-20% das retinografias tiradas nestes exames são consideradas não-classificáveis, sendo difícil ou impossível de realizar o diagnóstico exato do paciente. Neste contexto, são propostos dois métodos distintos. O primeiro incide na alteração de um algoritmo já existente de classificação de qualidade usando indicadores genéricos de imagem, de forma a analisar setores oculares individualmente. Após a segmentação do disco ótico, da fóvea e da área restante, as regiões são classificadas em termos de cor, foco, contraste, iluminação e qualidade global. Um estudo sobre o raio das regiões a tomar, bem como substituições dos classificadores utilizados e a incorporação de descritores de textura foram realizados de forma a adaptar o método original. Após as modificações necessárias, o algoritmo de setorização segmentou corretamente as retinografias e, no geral, foi melhorada a sua performance. A segunda solução consiste num método de classificação de artefactos recorrendo a redes neuronais convolucionais. Foram consideradas cinco classes possíveis: imagens contendo artefactos de reflexão de luz, imagens desfocadas, contendo sobrexposição luminosa, iluminação insuficiente ou imagens com boa qualidade. Diferentes arquiteturas e valores de parâmetros foram testados, de forma a garantir o melhor desempenho. Implementado o modelo e utilizando 4000 imagens de teste, a exatidão do modelo foi apenas de 77.32%. No entanto, para a classe indicadora de boa qualidade foi obtida uma precisão de 99.13%, uma sensibilidade de 99.375% e uma especificidade de 99.81%. Apesar de avaliarem aspectos distintos, ambos os métodos enunciados melhoram o acto de aquisição de retinografias em rastreios oftalmológicos, facilitando o processo de diagnóstico.
Currently, due to an increase in the aging population, there is a rise in the number of cases of pathologies in the retina. Since these diseases can be treated or prevented, it is essential to detect in advance, diagnose and evaluate the patient continuously. One of the approaches used to monitor diseases in a non-invasive way, is to resort to digital retinal photographs evaluated by an ophthalmologist. However, for this purpose is necessary plenty of professionals of this medical field and a large amount of storage. A practical and economic solution in terms of costs and time is the automated evaluation of digital retinographies. However, about 10%-20% of the images taken from these exams are considered not classifiable because it is impossible to carry out a precise diagnosis of the patient. In this context, two different solutions are proposed.The first proposed solution focuses on altering an already existing quality classification algorithm using generic image indicators, to analyse ocular sectors individually. After the segmentation of the optical disc, fovea and of the remaining area, the regions are classified in terms of colour, focus, contrast, lighting and overall quality. A study on the election of the radius of the considered regions, as well as the replacement of the classifiers and an incorporation of textural features were carried out in order to adapt the original method. After the necessary modifications were made, the sectorization algorithm segmented correctly the retinographies and, in general, the proposed classifiers offered a better performance than the classifiers of the source project.The second solution consists of an artefacts classification method using convolutional neural networks. Five possible classes were considered: imagens with light reflection artefacts, blurry images, containing overexposure, insufficient lighting and good quality images. Different architectures and parameter values were tested to ensure the best performance. After implementing the model and using 4000 test images, it was obtained an accuracy of only 77.32%. However, for the good quality indicator class it was obtained an accuracy of 99.13%, a sensitivity of 99.375% and a specificity of 99.81%.Although these approaches evaluate distinct characteristics, both methods improve the process of acquisition of retinographies in ophthalmologic screenings, facilitating the diagnostic process.
Martins, Beatriz Alves. "NeuVision: Development of an ultrasonic and image system for vision replacement." Master's thesis, 2020. http://hdl.handle.net/10451/47935.
Full textThe increase in average life expectancy has led to an increase in chronic diseases, and diseases associated with vision are especially prominent. In 2020, there are an estimated 276 million people living with visual impairments. Several devices exist to assist the blind; however, they do not address all user needs. Thus, it is necessary to understand what the remaining needs are and what are the technologies that can be used to develop a new device that allows the users to do their daily life activities. The main objective of this dissertation was to develop an ultrasound- and image-based vision replacement system. This device aims to detect obstacles above the waistline, guide the user, identify everyday objects necessary for navigation and transmit information via audio, and be aesthetically pleasing and easy to use. To detect obstacles above the waistline ultrasound sensors HC-SR04 were used together with and a Raspberry Pi Zero as a processing unit. To identify daily objects, the Intel RealSense Depth Module D430 was used to captured images of the environment which were then processed by deep learning algorithms. Deep learning comprises the choice and organisation of the database, implementation in MATLAB and the evaluation of the algorithms. The implementation in MATLAB consisted of carrying out transfer learning with AlexNet and Faster R-CNN. It was used an open-access database that contained the necessary categories and hand-annotated images. With the implemented algorithms, integration tests were carried out with the D430 module The main objectives of this project have been achieved. Ultrasonic sensors accurately detect distances to obstacles, informing the user and preventing collisions. Deep learning algorithms allowed to detect and identify the objects; although not all detectors performed well, it was possible to conclude that by creating a database adapted to each user, it will be possible to improve these results.
Neves, Fábio Miguel Simões. "Transferring kowledge to improve classification of Tuberculosis in chest X-rays." Master's thesis, 2021. http://hdl.handle.net/10451/48553.
Full textA Tuberculose (TB) continua a ser um dos principais problemas de saúde global na actualidade, com especial incidência em países de terceiro mundo pertencentes a África e Sudoeste Asiático, que somam 84% dos 1.5 milhões de óbitos derivados de TB durante o ano de 2017. A interpretação de Raio-X é um indicador forte no diagnóstico de TB que, quando combinado com outros indicadores como tosse, febre ou outros sintomas suspeitos, pode levar a um diagnóstico bastante preciso. A interpretação de uma imagem de Raio-X requer a competência de um Médico Radiologista experiente, um requisito limitado especialmente considerando a incidência de TB em países de terceiro mundo. Esta interpretação pode ser facilitada através do uso de Redes Neuronais Convolucionais (CNN) que, quando treinadas correctamente, conseguem ultrapassar o desempenho de profissionais de saúde. No entanto, o correcto treino de CNN requer largas quantidades de imagens classificadas, um recurso inexistente no domínio público para TB. O uso de Aprendizagem por Transferência, de fácil implementação para CNNs, é uma solução bastante popular na implementação de CNNs para a interpretação de imagens médicas, contornando os largos requisitos de imagens. Contudo, a sua comum implementação tende a não usar uma abordagem eficaz, e poucos trabalhos exploram as vantagens do uso de Aprendizagem por Transferência. Este trabalho procura explorar o uso de Aprendizagem por Transferência para a optimização do treino de CNNs em conjuntos de dados de TB bastante limitados. A exploração passa pelo uso de Bases de Referência Aleatórias e treinadas no grande conjunto de dados ImageNet, de modo a explorar as vantagens do uso de Aprendizagem por Transferência. Além destes, cinco Bases de Referência adicionais são treinadas em dois conjuntos de Raio-X de larga escala, o ChestX-ray8 e o CheXpert, na tentativa de optimizar a transferência de conhecimento para a classificação de TB. O treino de modelos em TB faz uso do conjunto de dados \Shenzhen Hospital X-ray Set", no qual os modelos são treinados, validados e testados. O conjunto de dados \Montgomery Hospital X-ray Set" é usado apenas para teste. O resultado deste trabalho são 155 classificadores de TB, para os quais os melhores resultados são atingidos usando uma Base de Referência treinada no conjunto completo de CheXpert, atingindo um valor mediano de 0.65 de WAF, e 0.77 de AUROC, no conjunto de teste externo. Adicionalmente, este trabalho verifica resultados mais optimistas pelas medidas de AUROC. Esta diferença resulta do limite usado para sumarizar o output das redes, para o qual este trabalho sugere uma estimativa alternativa usando um número limitado de dados de teste que acaba por melhorar os resultados de WAF, aproximando-os das medidas de AUROC.
Tuberculosis (TB) continues to be one of the main sources of global health concern, with increased incidence in third world countries in Africa and Southwest Asia, which account for 84% of the 1.5 million deaths due to TB during the year of 2017. The interpretation of X-ray is a strong indicator in the diagnosis of TB which, when combined with other indicators such as cough, fever or other suspicious symptoms, can lead to a very accurate diagnosis. The interpretation of an X-ray image requires the expertise of an experienced Radiologist, a limited resource emphasized by the incidence of TB in third world countries. This interpretation can be assisted through the use of Convolutional Neural Networks (CNN) which, when properly trained, can surpass the performance of health professionals. However, the correct training of CNN requires large amounts of classified images, a resource that does not exist in the public domain for TB. The use of Transfer Learning is a very popular solution when implementing CNNs for the interpretation of medical images, bypassing the wide requirements of images. However, its common implementation tends to not use an effective approach, and few studies explore the advantages of using Transfer Learning. This work seeks to explore the use of Transfer Learning for the optimization of CNN training in very limited TB datasets. Exploration involves the use of Random Baselines and Baselines trained on the large dataset ImageNet, exploring the advantages of Transfer Learning. In addition to these, five additional Baselines are trained on two large-scale X-ray sets, the ChestX-ray8 and the CheXpert, in an attempt to optimize the transfer of knowledge for the classification of TB. The training of models for TB uses the \Shenzhen Hospital X-ray Set" dataset for training, validation and testing. The \Montgomery Hospital X-ray Set" dataset is used for testing purposes only. The result of this work is 155 TB classifiers, for which the best results are achieved using a Baseline trained in the complete set of CheXpert, reaching a median value of 0.65 WAF, and 0.77 of AUROC, on the external test set. Additionally, this work verifies more optimistic results for AUROC measures. This difference results from the threshold used to summarize the output of the networks, for which this work suggests an alternative estimate using a limited number of test data that ends up improving the results of WAF, bringing them closer to the AUROC measures.
Mbongo, Nzakiese. "Estruturas de aprendizagem supervisionada para pesquisa multimédia." Master's thesis, 2020. http://hdl.handle.net/10400.6/10816.
Full textAs it was written in the title ”Supervised learning structures for multimedia research”. This work is aimed at researching and detecting a specific person within the videos. We also present how the technique of deep learning by artificial neural networks can detect a character through videos, this technique of detecting a character in a video is a very interesting field of study because of its complexity in multiple objects present in the data under analysis , from cartoon videos, we used a database separated by two data groups, including the set of frames that contains the character to be detected and another set that does not contain the character, that is, it contains other objects and entities that it is not the character or person that we want to locate your presence. In this case, the formation labels or tags of our two specific frame states can be ”missing or present character” in the video, however 0 (zero) represents the absence of the character and 1 (one) marks its existence in the sequence video frames; this means that we have a set of raw data of 20h and 20 minutes containing fast and normal movements and they are all cartoon videos, that is, the use case was the search for animated characters in cartoon videos, for the sake of ease in arranging data sets. We must, at all costs, recognize a character (in our case it was The avatar korra) that we imagine to detect in the video sequences, thus using the 3D convolutional neural network, trained to detect abnormal actions in the surveillance videos. The supervised learning algorithm finally allowed this work to detect the individual. It is a difficult task that requires the extraction of significant spatiotemporal characteristics to capture the necessary information. The 3D Convolutional Network (C3D) encodes video streams using a fully convolutional threedimensional network, and this network generates regions of temporary candidates containing objects in the regions selected for specific activities. Finally, we analyzed the error case observed, as an attempt to perceive the data patterns that led the networks to such erroneous conclusions.
Gerardo, Pedro Carvalho. "Expressão e Reconhecimento de Emoções para Crianças Autistas." Master's thesis, 2019. http://hdl.handle.net/10316/87825.
Full textAutismo é um distúrbio neurológico caracterizado pelo comprometimento da interação social, comunicação verbal e não-verbal e comportamento restritivo e repetitivo. Muitas vezes, é difícil para indivíduos com autismo interpretar e até expressar emoções básicas como felicidade ou tristeza. Além disso, manter o contacto visual com outra pessoa pode tornar-se uma tarefa árdua. É extremamente difícil analisar o olhar, tornando-se penoso interpretar o que a outra pessoa está a tentar expressar. Embora tenham algumas carências, é bem conhecido que pessoas com autismo podem aprender e superar algumas dessas ambiguidades. Na presente dissertação foi desenvolvido um ambiente que pode ser usado para ensinar estes indivíduos a expressar emoções básicas. Para tal, foi desenvolvidos um conjunto de jogos sérios, onde um sistema de reconhecimento automático de expressões faciais (RAEF) é usado. Este trabalho é marcado por uma pesquisa detalhada sobre os conceitos e metodologias existentes por trás dos sistemas RAEF, bem como uma avaliação da sua eficácia. Os modelos desenvolvidos foram testados, a fim de escolher o mais adequado para o reconhecimento de expressões faciais. Aqui, foi explorado o valor da aprendizagem profunda, focando nos recentes avanços tecnológicos, particularmente com Redes Neuronais Convolucionais (RNC). Etapas incrementais foram realizadas de forma a implementar a melhor solução para a arquitectura da rede. A presente dissertação teve o contributo de diversas entidades, que permitiram avaliar o software e jogos desenvolvidos.
Autism is a neurodevelopmental disorder characterized by impaired social interaction, impaired verbal and non-verbal communication, and restricted and repetitive behavior. It is often difficult for autistic individuals to interpret and even express human basic emotions like happiness and sadness. In addition, maintain gaze interaction with another person is not an easy task for autistic patients. They often find it extremely difficult to interpret a person's gaze, making it hard to follow it and interpret what the other person is trying to point out. Although they have these impairments, it is well known that people with autism can learn and overcome to some degree these ambiguities.The proposed work focused on developing an environment, which can be used to teach these individuals how to express basic emotions. In order to achieve this a series of serious games were created where an Automatic Facial Expression Recognition (AFER) system is used. This work is marked by a detailed research about the concepts and the existent methodologies behind the AFER systems, as well as an evaluation of their effectiveness. Additionally, relevant models were tested, in order to choose the most adequate for facial expressions recognition. Here, we explored the value of Deep Learning by focusing on recent technological breakthroughs, particularly with Convolutional Neural Networks (CNN). Incremental steps were made in order to deploy the better solution to the network architecture. This dissertation had the contribution of several entities that allowed us to evaluate the software and games developed.
Monteiro, Nelson Rodrigo Carvalho. "End-to-End Deep Learning Approach for Drug-Target Interaction Prediction." Master's thesis, 2019. http://hdl.handle.net/10316/87296.
Full textA descoberta de potenciais Interações Fármaco-Alvo é uma etapa determinante no processo de descoberta e reposicionamento de fármacos, uma vez que a eficácia do tratamento antibiótico disponível está a diminuir, provocado pelo aumento da sua utilização indevida. Apesar dos esforços colocados nos métodos tradicionais in vivo ou in vitro, o investimento financeiro farmacêutico foi reduzido ao longo dos anos. Desta forma, estabelecer métodos computacionais eficazes, é decisivo para encontrar novos propósitos clínicos para os fármacos disponíveis (leads) num tempo considerável.Abordagens bem sucedidas, incluindo aprendizagem de máquina e profunda, foram apresentadas para resolver e identificar corretamente novos leads e DTIs, contudo, raramente são utilizados, em conjunto, dados estruturais e sequências de proteínas. Neste trabalho, propomos um modelo de arquitetura de aprendizagem profunda, que explora a habilidade particular das Redes Neuronais Convolucionais para automaticamente presumir e identificar regiões sequenciais e estruturais, e extrair representações 1D das sequências de proteínas (sequências de aminoácidos) e das SMILES strings dos compostos. Estas representações podem ser interpretadas como caraterísticas que expressam dependências locais ou padrões e, que por sua vez, podem ser usadas numa Rede Neural Completamente Conectada, funcionando como um classificador binário.Os resultados alcançados demonstram que usar CNNs para obter representações dos dados, em vez dos descritores tradicionais, levam a um aumento do desempenho. O método proposto de aprendizagem profunda de ponta a ponta superou os métodos tradicionais de aprendizagem de máquina na classificação correta de interações positivas e negativas, alcançando elevados valores de sensibilidade (0.861) e especificidade (0.961).
The discovery of potential Drug-Target Interactions is a determining step in the drug discovery and repositioning process, as the effectiveness of the currently available antibiotic treatment, arisen from the increased misuse, is declining. Although putting efforts on the traditional in vivo or in vitro methods, pharmaceutical financial investment has been reduced over the years. Thus, establishing effective computational methods is decisive to find new clinical purposes for the available drugs (leads) in a reasonable amount of time.Successful approaches, including machine and deep learning, have been presented to solve and correctly identify new leads and DTIs, but seldom protein sequences and structured data are used together. In this work, we propose a deep learning architecture model, which exploits the particular ability of Convolutional Neural Networks to automatically surmise and identify important sequential and structural regions and extract 1D representations from protein sequences (amino acid sequences) and compounds SMILES strings. These representations can be interpreted as features that express local dependencies or patterns that can be used in a Fully Connected Neural Network, acting as a binary classifier.The achieved results demonstrate that using CNNs to obtain representations of the data, instead of the traditional descriptors, lead to improved performance. The proposed end-to-end deep learning method outperformed traditional machine learning approaches in the correct classification of both positive and negative interactions, reaching high scores of sensitivity (0.861) and specificity (0.961).
Outro - Projeto financiado pela Fundação para a Ciência e Tecnologia: D4 - Deep Drug Discovery and Deployment (CENTRO-01-0145-FEDER-029266)
Rodrigues, Rodrigo Pedrosa. "Estimating Optical Flow using Convolutional Neural Networks in Reconfigurable Logic." Master's thesis, 2020. http://hdl.handle.net/10316/90110.
Full textEsta dissertação explora o mapeamento da arquitetura de uma rede neuronal convolucional(RNC) em lógica reconfigurável. O objetivo final é existir computação de Fluxo Ótico (FO) atravésde RNCs numa FPGA. Esta plataforma não está limitada a esta RCN específica, é open-source epode ser expandida para funcionalidades extra e diferentes tipos de RCN.Fluxo ótico é o mapeamento de movimento entre duas imagens da mesma cena e pode ser muitoimportante para várias aplicações no campo de Visão por Computador. Dar a capacidade the ”ver”movimento a uma máquina pode ser muito útil. A exatidão de resultados é importante, mas dadoos requisitos de tempo-real de muitas aplicações, o tempo de computação é um fator chave. O objetivoé explorar diferentes compromissos entre complexidade de hardware, tempo de computaão,consumo de potência e precisão ao usar uma FPGA. Recentemente RCNs têm superado métodostradicionais. FPGAs têm vindo a emergir como uma plataforma crescente e neste trabalho,vamos explorar se existe vantagem numa plataforma destas em vez da mais convencional PlacaGráfica (GPU). Ao providenciar um framework que permite flexibilidade entre diferentes arquiteturasde RCNs estamos a permitir uma maneira mais fácil de trabalhar neste campo ao usarem estetipo de plataforma. Como objetivo final de computar flúxo ótico com RCNs, o nosso trabalhofoca-se numa arquitetura específica base, a FlowNet-S, que fornece uma arquitetura simples masrobusta para o seu tamanho. Ao usar um projeto open-source previamente desenvolvido chamadoPipeCNN, a expansão de algumas das suas funcionalidades fez que fosse possível usar em estimaçãode fluxo ótico. O PipeCNN é um framework baseado em OpenCL para FPGAs que permitea implantação de RCNs de classificação em placas suportadas pela Intel ou Xilinx. Usa o Caffecomo base para extraír os pesos e informação relativa à sua estrutura. Uma RCN que consigaestimar fluxo ótico necessita de diferentes tipos de camadas que não estavam contempladas noframework original. As novas camadas, Transposta de Convolução e Concatenação abrem novaspossibilidades no uso do PipeCNN.Aprendemos que o flúxo ótico pode ser computado numa FPGA and que é uma plataformapromissória. Apesar de ainda não conseguir atingir os tempos de computação de Placas Gráficas,consegue ter precisão similar e consumir menos potência. Ainda existem otimizações possíveisque podem reduzir a lacuna entre ambas as plataformas.
This dissertation explores the mapping of a convolutional neural network (CNN) architectureonto reconfigurable logic. The end goal is to enable the computation of optical flow using CNNson an FPGA. This platform is not constrained to a specific CNN, it is open-source and can beextended for extra functionality and different CNN types.Optical flow is the mapping of movement between two images of the same scene and can bevery important for several applications in the Computer Vision field. Giving the ability of ”seeing”movement to a machine can be very useful. The results accuracy is important, but given thereal-time requirements of many applications, computation time is a key factor. The goal is to exploretrade-offs between hardware complexity, computation time, power, energy consumption andprecision using an FPGA.Recently CNNs have surpassed traditional computer vision methods. FPGAs have been emergingas a rising platform and in this work, we’re exploring if there’s advantages to a platform likethis instead of the more conventional Graphical Power Unit (GPU). By providing a frameworkthat allows flexibility between different CNN architectures we are allowing an easier way for peopleto work in this field using this type of platform. With the end goal of computing optical flowwith CNNs, our work focuses on a specific base architecture, the FlowNet-S, that provides a simplebut robust architecture for its size. Using a previously developed open-sourced project calledPipeCNN, the expansion of some of its functionalities made it possible to use in optical flow estimation.PipeCNN is an FPGA OpenCL based framework that allows the deployment of classificationCNNs in Intel or Xilinx supported boards. It uses Caffe as its base to extract weight and layerdeployment information. A CNN that can estimate optical flow requires different types of layerswhich were not contemplated in the original framework. The added Transposed Convolution layerand the Concatenation layer open new possibilities for the use of PipeCNN.We have learned that optical flow can be computed with an FPGA and that there are advantages tothis system. Although it still doesn’t meet the computation timings of GPUs, it can have similaraccuracy while spending less power. There are still optimizations possible which could reduce theexisting gap between both platforms.
Tiago, Cristiana Ferreira. "Deep learning for cardiac MR images analysis." Master's thesis, 2018. http://hdl.handle.net/10451/36461.
Full textAtualmente os indicadores da função cardíaca, tais como o Volume Sistólico (VS), a Fração de Ejeção (FE) e o Débito Cardíaco (DC), são calculados a partir de exames de Tomografia Axial Computorizada (TAC) ou ecocardiografias usando softwares clínicos cuja utilização requer a experiência do utilizador que seleciona pontos e áreas da imagem relevantes para o cálculo final. As imagens usadas são, geralmente, obtidas na zona da aorta ou considerando o plano anatómico que segue o eixo curto (EC) cardíaco, i.e., o plano transversal, capturando apenas ambos os ventrículos. A quantificação destes indicadores através de imagens de Ressonância Magnética Cardíaca (RMC) também é possível, embora não seja tão usada devido ao elevado custo do exame por paciente, uma vez que esta modalidade fornece imagens com melhor informação anatómica sobre as estruturas cardíacas sendo o Ventrículo Esquerdo (VE) a mais importante uma vez que é a partir desta cavidade que o sangue flui para todo o corpo devido à ação contrativa do miocárdio. Mesmo utilizando a RMC como modalidade de imagem, o plano mais utilizado continua a ser o transversal. Tendo em conta os progressos tecnológicos que hoje em dia se verificam, seria de grande utilidade o desenvolvimento de um software clínico para avaliar os parâmetros cardíacos acima referidos, entre outros, com a mínima interação do utilizador desde que se adquirem as imagens até que se faz o cálculo final dos valores dos indicadores. Sendo que o plano de imagem mais usado é o do EC e a maioria dos resultados provenientes de grupos de investigação nesta área consideram imagens com esta vista, ou seja, apenas com ambos os ventrículos. A obtenção de imagens segundo o EC passa por fazê-lo situando o plano em várias posições entre o ápice e o plano que inclui a válvula mitral, permitindo reconstruir o volume do VE. No entanto as imagens correspondentes ao plano da válvula e ao do ápice são complicadas de adquirir, o que afeta o valor final do volume. Para ultrapassar esta dificuldade, neste projeto foram utilizadas imagens cujo plano anatómico contém o eixo longo (EL) cardíaco. Nesta situação, existem 2 planos que permitem visualizar aurículas e ventrículos na mesma imagem, o plano longitudinal e o sagital. Consoante o escolhido, conseguem produzir-se 3 tipos de vistas diferentes, sempre seguindo o EL, onde se podem visualizar 2, 3 ou 4 cavidades cardíacas simultaneamente. Nas imagens das duas cavidades distingue-se o ventrículo e a aurícula esquerda, nas de três distinguem-se estas duas estruturas mais uma porção da aorta e nas de quatro é possível observar os dois ventrículos e as duas aurículas. Este projeto tem como principal objetivo analisar imagens de RMC obtidas segundo o EL do coração levando à quantificação dos parâmetros VS, FE e DC reduzindo ao máximo a interação do utilizador com o software. Para tal, são usados métodos de DL. No que toca ao desempenho de tarefas cognitivas, a melhor solução passa por utilizar o cérebro humano e todos os conhecimentos a ele associados. No entanto, por vezes, as tarefas cognitivas em questão são desafiadoras, complicadas e demoradas e nestas circunstâncias é benéfica a utilização de ferramentas que simulem o funcionamento do cérebro, deixando o utilizador livre para realizar outras funções ao mesmo tempo. Assim apareceu a Inteligência Artificial (IA) que permite modelar o comportamento e funções do cérebro humano através da criação de neurónios artificiais assim como das sinapses, ou seja, do comportamento fisiológico que explica a transmissão de informações entre neurónios, sob a forma de Redes Neuronais Convolucionais (RNCs). Estas RNCs permitem simular a inteligência humana assim como o processo de aprendizagem. Durante os anos 80 e 90 apareceram as primeiras redes de neurónios artificiais, redes estas que não continham tantos neurónios como o cérebro humano mas que revelaram uma elevada capacidade para resolver problemas de classificação, como por exemplo fazer a distinção entre uma imagem de um paciente doente e de um saudável, e regressão, criando uma nova área, a de Machine Learning (ML). Já durante os anos 2000 o DL apareceu, onde se podem encontrar redes com mais neurónios com capacidade para resolver problemas mais complexos e de maneira mais independente, como por exemplo segmentar vários órgãos numa só imagem, sendo muito utilizados nas mais variadas áreas do conhecimento incluindo o processamento de imagens médicas. Estes métodos de DL apresentam resultados muito próximos daqueles obtidos por especialistas. A metodologia aqui usada passa por criar RNCs e treiná-las de modo a segmentarem o VE em qualquer tipo de imagem de RMC obtida segundo o EL do coração. O treino de uma rede neuronal passa por apresentar-lhe um elevado e variado número deste tipo de imagens onde o VE já se encontra identificado, isto é, já têm “legendas” e deixá-la procurar características que a própria rede considera mais importantes de modo a conseguir segmentar uma nova imagem, nunca antes vista durante a fase de treino. Neste projeto foram desenvolvidas várias RNCs, treinadas durante diferentes períodos de tempo e sujeitas a imagens com diferentes vistas e “legendas”, prevendo diferentes estruturas. Para atingir os objetivos deste projeto e quantificar os indicadores da função cardíaca é crucial saber o volume do VE que pode ser derivado a partir da área e do comprimento do EL do VE. Estas duas últimas variáveis são obtidas através dos resultados de segmentação das várias RNCs. Foram treinadas 8 redes diferentes: duas redes que segmentam o contorno do VE (U-Net_20000 e U-Net_50000), cinco que prevêem a área desta estrutura (U-Net_FilledMasks_20000, U-Net_FilledMasks_50000, U-Net_2CH, U-Net_3CH e U-Net_4CH) e uma que identifica 3 pontos chave numa imagem obtida segundo o EL (8th trained U-Net). Ambas as redes que segmentam o contorno do VE, a que identifica os 3 pontos chave e duas das que prevêem a área do VE foram treinadas com recurso a um conjunto de imagens onde se viam 2, 3 ou 4 câmaras cardíacas, sendo que as restantes 3 foram treinadas usando conjuntos de imagens com vistas específicas. De modo a desenvolver o software que não dependa do utilizador para quantificar o VS, FE e DC, começou por usar-se o resultado da segmentação dos 3 pontos chave: o ápice do coração e os 2 pontos que definem o segmento de reta entre os limites da válvula mitral, obtendo as suas coordenadas de modo a medir o EL do ventrículo. De seguida, e usando as segmentações da área do VE em adição ao previamente calculado comprimento do eixo, foi calculado o volume do VE e, consequentemente, os indicadores da função cardíaca. Novas imagens de RMC obtidas segundo o EL do coração foram utilizadas para avaliar tanto o potencial da utilização de métodos de DL na segmentação deste tipo de imagens como o desempenho das RNCs e deste software independente de um utilizador, com os resultados a mostrar que: (i) é mais complicado prever com exatidão pequenas áreas nas imagens do que grandes, daí as segmentações do contorno do VE não serem tão precisas quanto as da área, (ii) devido à conclusão anterior e ao facto dos resultados obtidos relativamente à segmentação das áreas do VE a partir de imagens obtidas segundo o EL estarem nivelados com os resultados considerados como estado-da-arte para esta tarefa, foram usadas as predições das áreas em detrimento dos contornos na criação do software independente do utilizador, (iii) até à data é-me desconhecida a existência de uma RNC que detete os 3 pontos chave aqui mencionados sendo que os resultados obtidos são satisfatórios e facilitam a criação do já mencionado software, (iv) os valores finais dos parâmetros cardíacos estão de acordo com os valores estabelecidos para referência e não dependem da proveniência da segmentação final da área do ventrículo esquerdo. Concluindo, o objetivo inicial do projeto foi alcançado havendo espaço para futuras correções nomeadamente através da criação de “legendas” para as imagens mais exatas, de novas RNCs ou alteração das já existentes de modo as que as predições sejam semelhantes às produzidas por humanos ou utilização da mesma metodologia para analisar imagens de RMC obtidas segundo o EC do coração. Devido ao tempo extra disponível, foi treinada uma nona RNC para, desta vez, resolver um problema de regressão. De modo a tentar avaliar qualitativamente o grau de oclusão das artérias coronárias, artérias estas que são responsáveis pela perfusão do miocárdio, foi utilizado o Modelo de Tofts (MT) para tentar prever o valor do parâmetro que representa a taxa de fluxo de sangue dos vasos para as células do tecido, neste caso do miocárdio a partir da evolução temporal de 2 sinais fisiológicos: da concentração do agente de contraste que entra no tecido e daquela que de facto se mede dentro deste. Treinando a rede neuronal com várias amostras geradas computacionalmente destes sinais, os resultados obtidos mostram que os valores previstos para o parâmetro mencionado não diferem muito dos originais, havendo, mesmo assim, margem de manobra para melhorar esta rede de regressão, e que a partir deste parâmetro é possível visualizar graficamente a condição da perfusão na zona do tecido em causa, o miocárdio, havendo uma conexão com o nível de oclusão das artérias coronárias.
In the current days cardiac functional parameters are measured from Computed Tomography (CT) scans or from echocardiographies using clinical softwares that rely on an experienced user to select relevant points and areas in the images. The used images are usually collected in the aorta or following a Short Axis (SA) cardiac plane. The parameters’ quantification through Cardiac Magnetic Resonance (CMR) is also possible since this imaging modality provides better anatomical information about the left ventricle (LV) and when this is the chosen modality to obtain the heart images, the SA plane is, again, the most commonly used. It would be useful to have a clinical software to quantify the more relevant cardiac functional parameters such as Stroke Volume (SV), Ejection Fraction (EF) and Cardiac Output (CO) with minimal user interaction from the image acquisition part to the final quantification of these parameters. Even though the most used plane to acquire images is the SA and the majority of the scientific results concern this image view, its usage presents a disadvantage when trying to quantify the LV volume. The SA images are acquired from the apex of the heart to the valve plane of the LV and then are used to extrapolate the LV volume. However, these 2 boundary positions are the most complicated to obtain and it affects the final value of the volume. To avoid this difficulty, in this project the considered plane was the Long Axis (LA) one, where one can see the apex and the valve points, and this plane was set in different areas of the heart producing three different views: the 2 Chamber Long Axis (2 CH-LA), the 3 Chamber Long Axis (3 CH-LA) and the 4 Chamber Long Axis (4 CH-LA) view. This project aims to analyze the three different kinds of LA CMR images leading to the SV, EF and CO quantification while reducing the user interaction with the software. To achieve it Deep Learning (DL) methods, which belong to the Artificial Intelligence (AI) area and model the human brain behavior and function by creating artificial neurons as well as synapses in the form of Convolutional Neural Networks (CNNs), were developed and explored. These DL methods can perform classification tasks yielding results similar to the ones obtained by humans. To quantify the parameters there is a quantity which is crucial to have, the LV volume. The followed methodology consisted in create CNNs and train them to perform the classification task of segmenting the LV in any LA image. The network training is realized by presenting a wide variety of labeled LA images, i.e. images where the area to segment, the LV, is already indicated, to the CNN and let it learn what to look for in a new image to correctly segment it. From the network LV area prediction it was possible to derivate the LV volume and from this quantify the SV, EF and CO. The results of this methodology allow to analyze the CNNs’ performance and the final parameters’ values obtained from real patients’ data in order to derive a conclusion about the DL potential to segment LA images and the creation of a user independent framework that could be translated into a clinical software.
Madeira, Ana Abrantes de Abreu. "Intelligent System for Fire Detection." Master's thesis, 2020. http://hdl.handle.net/10316/92216.
Full textA detecção de um incêndio na sua fase inicial pode mitigar amplamente as suas consequências. Com os desenvolvimentos na área da tecnologia de captura de imagens e a consequente melhoria da qualidade das imagens obtidas, torna-se hoje em dia possível o desenvolvimento de sistemas de identificação visual de incêndios. O presente trabalho apresenta um sistema inteligente de reconhecimento de fumo e fogo que pode ser aplicado a imagens capturadas por câmaras de smartphones. Este sistema destina-se a ser integrado numa aplicação que permitirá reportar incêndios por meio de dados crowdsourced. No âmbito do desenvolvimento do sistema, diferentes técnicas de deep learning para classificação de imagens e detecção de objetos foram implementadas e testadas, considerando duas abordagens distintas de reconhecimento de objetos de imagem: classificação de imagens e detecção de objetos. As fases de treino e avaliação dos modelos são também documentadas no presente trabalho, assim como todas as etapas de pré e pós-processamento consideradas. Para o desenvolvimento das diferentes abordagens de detecção de objetos e classificação de imagens, são propostos diferentes datasets para o treino e avaliação dos modelos ResNet e YOLO, específicos para o problema de reconhecimento de fumo e fogo em imagens. Destacam-se os datasets anotados propostos para treino e teste de modelos YOLO, que podem ser usados em futuros projetos de deteção de fumo e fogo. O sistema proposto apresenta resultados promissores para a detecção de objetos das classes Fire e Smoke em imagens estáticas. Com a abordagem de detecção proposta, é também possível obter bons resultados na classificação das imagens, atribuindo uma classe a cada imagem com base nos objetos detectados, através do método de pós-processamento proposto.
The early detection of a fire can largely mitigate its harmful consequences. With the developments in the area of image capture technology and the consequent improvement in image quality, it is now possible to develop systems for visual identification of fire indicators. The present work presents an intelligent fire and smoke recognition system that can be applied to images captured by smartphone cameras. This system is to be integrated into an application that will allow the reporting of fires using crowdsourced data.Different deep learning techniques for image classification and object detection were implemented and tested, considering two distinct image object recognition approaches: image classification and object detection. The models' training and evaluation phases are documented in the present thesis as well as all the pre-processing and post-processing steps that were taken into account. As part of the development of fire detection and classification approaches, different datasets are proposed to train and evaluate ResNet and YOLO models, specific to the fire and smoke recognition problem. The proposed annotated datasets for YOLO models stand out, which can be used in future smoke and fire detection projects. The proposed system presents promising results for detecting objects of the Fire and Smoke classes in still images. With the proposed detection approach, it is also possible to obtain good results for image classification, assigning a class to each image based on the detected objects with the proposed post-processing method.
Outro - FCT - FireLoc
Pereira, Gisele. "Deep Learning techniques for the evaluation of response to treatment in Hogdkin Lymphoma." Master's thesis, 2018. http://hdl.handle.net/10316/86276.
Full textO Linfoma de Hodgkin é uma neoplasia que tem origem no sistema linfático, afetando atualmente cerca de 8.500 pessoas, apenas nos Estados Unidos. Os tratamentos desta neoplasia incluem radioterapia, quimioterapia, entre outros. A avaliação da resposta ao tratamento é realizada através de exames de imagiologia, em particular, Tomografia por Emissão de Positrões combinada com Tomografia Computorizada.A interpretação destas imagens é uma tarefa laboriosa e propensa a erro humano, para além de estar sujeita a alguma variabilidade, levando à determinação de diferentes diagnósticos. Estes problemas podem ser minimizados pela utilização de modelos de aprendizagem automática que, sendo baseados numa componente de machine learning associada a técnicas de processamento de imagem, auxiliam na interpretação de imagens médicas. O Deep Learning é uma técnica de machine learning e é atualmente uma área de relevo na análise de imagens médicas.O principal objetivo desta tese é desenvolver uma abordagem baseada em Deep Learning para avaliar a resposta ao tratamento em pacientes com Linfoma de Hodgkin. Para esse fim, uma abordagem de processamento de imagem integrando técnicas de Deep Learning (nomeadamente Redes Neuronais Convolucionais) foi desenvolvida. Adicionalmente, para segmentar áreas especialmente afetadas pelo tumor, três métodos de co-registo foram explorados e comparados: co-registo baseado em intensidade, translação rígida seguida de co-registo baseado em intensidade e co-registo coarse seguido de fine-tuning.Os resultados foram obtidos a partir de dados de 163 doentes com Linfoma de Hodgkin acompanhados no IPO-Porto. A abordagem experimental atingiu um erro absoluto médio de 0.88 e um erro médio absoluto médio de 0.99 na classificação dos exames em 5 classes da escala de Deauville. Além disso, o módulo que considera o co-registo coarse seguido de fine-tuning provou ser uma abordagem adequada para a avaliação do tratamento, alcançando uma precisão de 91%.
Hodgkin Lymphoma is a malignancy originated in the lymphoid system when a lymphocyte becomes abnormal that currently affects 8,500 people only in the United States. Treatment often includes radiation therapy, chemotherapy, immunotherapy or stem cell transplant. The evaluation and response assessment of the received treatment have been performed by imaging examination, in particular, Positron Emission Tomography combined with Computed Tomography.The interpretation of these medical images is a laborious task, besides being subject to variability, leading to the determination of different diagnoses. These problems can be minimized by the use of automatic learning models which, based on a component of machine learning associated with image processing techniques, assist medical image interpretation. Deep Learning is a specialized form of machine learning and is one of the current research keys in this area. To the best of our knowledge, there is no available study evaluating the response to treatment in Hodgkin Lymphoma patients using Deep Learning techniques. The main objective of this thesis is to develop a Deep Learning-based approach to evaluate the response to the received treatment in Hodgkin Lymphoma patients, in order to assess the effectiveness of the therapy. To that end, an image processing approach integrating deep learning classifiers (Convolutional Neural Networks) was developed. Furthermore, three main registration methods were explored: intensity-based registration, rigid translation followed by intensity-based registration, and coarse registration followed by fine-tuning.The results obtained from a real dataset of 163 patients with Hodgkin Lymphoma from IPO-Porto achieved 0.88 of mean absolute error and 0.99 of average mean absolute error in classifying the exams into the 5 classes Deauville scale. Moreover, the module considering coarse registration with fine-tuning proved to be a suitable approach for treatment assessment, achieving an accuracy of 91%.
Morais, António Manuel Delgado. "Robust Neural Networks." Master's thesis, 2021. http://hdl.handle.net/10316/96170.
Full textA utilização crescente de sistemas baseados em Aprendizagem Computacional (AC) em contextos seguros-críticos tem levado a um aumento da preocupação associada à fiabilidade dos modelos e algoritmos utilizados. Apesar da sua elevada eficiência, estes modelos podem cometer erros com consequências graves. Estas falhas são com frequência atribuíveis a algum tipo de defeito na arquitetura do modelo ou a falta de dados de treino. Contudo, existem ocasiões em que estes erros acontecem devido a falhas aleatórias de hardware. De forma a limitar os efeitos destes tipos de falhas, vários métodos foram desenvolvidos e aplicados a modelos de AC com o objetivo de aumentar a sua tolerância a falhas. Modelos baseados em Redes Neuronais Profundas (RNPs), particularmente Redes Neuronais Convolucionais (RNCs), são especialmente significativos devido à sua utilização em contextos sensíveis como a condução autónoma ou aplicações médicas.Neste projeto, estudamos a eficiência de métodos existentes para melhorar a tolerância a falhas de RNCs, como Dropout, Redundância, Ranger e Stimulated Dropout. Utilizamos quatro conjuntos de dados de complexidade variável que representam aplicações diversas de modelos de AC, uma delas num contexto seguro-crítico. Para além disto, combinamos alguns destes métodos de tolerância a falhas em abordagens híbridas.Para medir a tolerância a falhas dos modelos de AC, idealizamos e implementamos um processo experimental utilizável com qualquer modelo que utiliza a framework ucXception para injetar falhas durante a fase de testagem.A nossa avaliação dos métodos testados mostra que apenas o Ranger e Stimulated Dropout melhoram de forma consistente a tolerância a falhas de modelos de AC baseados em RNCs. Destes dois métodos, Stimulated Dropout mostra uma maior melhoria na tolerância a falhas; contudo, o elevado custo computacional deste método torna a sua utilização desafiante em arquiteturas modernas na sua forma atual, e mais investigação é necessária para melhorar o seu desempenho.
The growing usage of Machine Learning (ML) based systems in safety-critical contexts has prompted increased concerns over the reliability of the models and algorithms used. Despite their effectiveness, these models can make mistakes with serious consequences. These failures are often attributable to some sort of defect in the model architecture or lack of training data. Other times, however, these errors happen due to random hardware faults. To limit the effects of the latter, several methods have been developed and applied to ML models with the goal of increasing their fault tolerance. Models based on Deep Neural Networks (DNNs), particularly Convolutional Neural Networks (CNNs), are especially significant due to their applications in safety-conscious tasks such as autonomous driving or medical environments.In this work, we study the effectiveness of existing methods in improving the fault tolerance of CNNs, such as Dropout, Redundancy, Ranger and Stimulated Dropout. We use four datasets of varying complexity that represent diverse applications of ML models, one of which in a safety-critical context. In addition, we combine some of these fault tolerance methods into hybrid approaches. To measure the fault tolerance of ML models, we devise and implement a model-agnostic experimental process that uses the ucXception framework to inject faults during the testing phase.Our evaluation of the tested methods shows that only Ranger and Stimulated Dropout consistently improve the fault tolerance of CNN-based ML models. Of these two methods, Stimulated Dropout shows the largest improvement in fault tolerance; however, the high computational costs of this method make its use a challenge for modern architectures in its current form, and further research is required to improve its performance.
H2020
Morais, António Manuel Delgado. "Robust Neural Networks." Master's thesis, 2021. http://hdl.handle.net/10316/96114.
Full textA utilização crescente de sistemas baseados em Aprendizagem Computacional (AC) em contextos seguros-críticos tem levado a um aumento da preocupação associada à fiabilidade dos modelos e algoritmos utilizados. Apesar da sua elevada eficiência, estes modelos podem cometer erros com consequências graves. Estas falhas são com frequência atribuíveis a algum tipo de defeito na arquitetura do modelo ou a falta de dados de treino. Contudo, existem ocasiões em que estes erros acontecem devido a falhas aleatórias de hardware. De forma a limitar os efeitos destes tipos de falhas, vários métodos foram desenvolvidos e aplicados a modelos de AC com o objetivo de aumentar a sua tolerância a falhas. Modelos baseados em Redes Neuronais Profundas (RNPs), particularmente Redes Neuronais Convolucionais (RNCs), são especialmente significativos devido à sua utilização em contextos sensíveis como a condução autónoma ou aplicações médicas.Neste projeto, estudamos a eficiência de métodos existentes para melhorar a tolerância a falhas de RNCs, como Dropout, Redundância, Ranger e Stimulated Dropout. Utilizamos quatro conjuntos de dados de complexidade variável que representam aplicações diversas de modelos de AC, uma delas num contexto seguro-crítico. Para além disto, combinamos alguns destes métodos de tolerância a falhas em abordagens híbridas.Para medir a tolerância a falhas dos modelos de AC, idealizamos e implementamos um processo experimental utilizável com qualquer modelo que utiliza a framework ucXception para injetar falhas durante a fase de testagem.A nossa avaliação dos métodos testados mostra que apenas o Ranger e Stimulated Dropout melhoram de forma consistente a tolerância a falhas de modelos de AC baseados em RNCs. Destes dois métodos, Stimulated Dropout mostra uma maior melhoria na tolerância a falhas; contudo, o elevado custo computacional deste método torna a sua utilização desafiante em arquiteturas modernas na sua forma atual, e mais investigação é necessária para melhorar o seu desempenho.
The growing usage of Machine Learning (ML) based systems in safety-critical contexts has prompted increased concerns over the reliability of the models and algorithms used. Despite their effectiveness, these models can make mistakes with serious consequences. These failures are often attributable to some sort of defect in the model architecture or lack of training data. Other times, however, these errors happen due to random hardware faults. To limit the effects of the latter, several methods have been developed and applied to ML models with the goal of increasing their fault tolerance. Models based on Deep Neural Networks (DNNs), particularly Convolutional Neural Networks (CNNs), are especially significant due to their applications in safety-conscious tasks such as autonomous driving or medical environments.In this work, we study the effectiveness of existing methods in improving the fault tolerance of CNNs, such as Dropout, Redundancy, Ranger and Stimulated Dropout. We use four datasets of varying complexity that represent diverse applications of ML models, one of which in a safety-critical context. In addition, we combine some of these fault tolerance methods into hybrid approaches. To measure the fault tolerance of ML models, we devise and implement a model-agnostic experimental process that uses the ucXception framework to inject faults during the testing phase.Our evaluation of the tested methods shows that only Ranger and Stimulated Dropout consistently improve the fault tolerance of CNN-based ML models. Of these two methods, Stimulated Dropout shows the largest improvement in fault tolerance; however, the high computational costs of this method make its use a challenge for modern architectures in its current form, and further research is required to improve its performance.
H2020
Rodrigues, Diogo Manuel de Castro. "Integrating Vision and Language for Automatic Face Descriptions." Master's thesis, 2018. http://hdl.handle.net/10316/86752.
Full textNesta dissertação, para criar um exemplo único de um sistema de face para texto e texto para face foi integrado visão por computador e processamento de linguagem natural. O propósito é fornecer uma solução que permita ajudar os seres humanos a realizar funções com maior qualidade e de forma mais rápida. Assim sendo pretende-se criar um sistema que possa ser usado, por exemplo, para descrever rostos para pessoas com deficiência visual ou para gerar rostos a partir de descrições para investigações criminais. No entanto trata-se apenas de uma versão preliminar, na medida em que o curto tempo disponível para a sua realização não permitiu alcançar a ambiciosa proposta. De forma a atingir este objectivo, foi criado um sistema com a capacidade de descrever textualmente imagens faciais e por outro lado, gerar automaticamente imagens faciais a partir de descrições textuais. O sistema é dividido em duas partes, a primeira tem como função prever atributos das imagens faciais através de uma rede neuronal convolucional. Estes são utilizados como base para o modelo de geração de linguagem natural, gerando descrições textuais numa metodologia baseada em regras. A segunda parte, usa uma técnica simples de extração de palavras chave para analisar o texto e identificar os atributos nessa descrição. Seguidamente, o sistema usa uma rede generativa adversarial para gerar uma imagem facial com o conjunto das características desejadas. Os atributos são usados como base no nosso método, uma vez que representam um identificador dominante que transmite características sobre um rosto com eficácia.Os resultados demonstraram, mais uma vez, que os métodos CNN e GAN são atualmente as melhores opções para, tarefas de reconhecimento e geração de imagens, respectivamente. Esta conclusão destá assente nos resultados convincentes. Por outro lado, os métodos de processamento de linguagem natural apesar de terem funcionado bem, de acordo com os objectivos, os seus resultados são menos notáveis, especialmente o modelo de geração de linguagem natural. Este trabalho propõe uma solução fiável e funcional para resolver este sistema complexo, no entanto é uma área que merece uma extensa investigação e desenvolvimento.
In this dissertation, computer vision and Natural Language Processing (NLP) are integrated to create a unique example of a face-to-text and text-to-face system. Its intention is to provide a solution that can help humans to perform their jobs with better quality and with a quick response. The aim is to create a system that can be used, for example, to describe faces for visually impaired people or to generate faces from descriptions for criminal investigations. However, this is a preliminary version as it is an ambitious goal to be achieved during the time available for its realization.To accomplish this motivation, a system was created with the capability of describing, textually, facial images, along with the ability to automatically generate face images from text descriptions. The system is divided into two sub-systems. The first part predicts attributes from the face images through a Convolutional Neural Network (CNN) method that are used, further, as a base to the Natural Language Generation (NLG) model. The descriptions are generated on a rule-based methodology. The second part of the system uses a simple keyword extraction technique to analyze the text and identify the attributes on that description. After that, it uses a conditional Generative Adversarial Network (GAN) to generate a facial image with a specific set of desired attributes. The reason why attributes are used as a base on the method is because they are a dominant identifier that can efficiently transmit characteristic about a face. The results demonstrate, once again, that either CNN and GAN methods are presently the best options for recognition and generation tasks, respectively. This conclusion is due to their convincing results. On the other hand, the NLP methods worked well for their purposes. However, its results are less remarkable, especially the NLG model. This work proposes a reliable and functional solution for solving this complex system. Nevertheless, this area needs an extensive investigation and development.