To see the other types of publications on this topic, follow the link: Visión artificial.

Dissertations / Theses on the topic 'Visión artificial'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Visión artificial.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Gómez, Bruballa Raúl Álamo. "Exploiting the Interplay between Visual and Textual Data for Scene Interpretation." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/670533.

Full text
Abstract:
L'experimentació en aprenentatge automàtic en escenaris controlats i amb bases de dades estàndards és necessària per a comparar el rendiment entre algoritmes avaluant-los sota les mateixes condicions. Però també és necessària l'experimentació en com es comporten aquests algoritmes quan són entrenats amb dades menys controlades i aplicats a problemes reals per indagar en com els avanços en recerca poden contribuir a la nostra societat. En aquesta tesi, experimentem amb els algoritmes més recents de visió per ordinador i processament del llengua natural aplicant-los a la interpretació d'escenes multimodals. En particular, investiguem en com la interpretació automàtica d'imatges i text es pot explotar conjuntament per resoldre problemes reals, enfocant-nos en aprendre de dades de xarxes socials. Encarem diverses tasques que impliquen informació visual i textual, discutim les seves particularitats i reptes i exposem les nostres conclusions experimentals. Primer treballem en la detecció de text en imatges. A continuació, treballem amb publicacions de xarxes socials, fent servir els subtítols textuals associats a imatges com a supervisió per apendre característiques visuals, que apliquem a la cerca d'imatges semàntica amb consultes multimodals. Després, treballem amb imatges de xarxes socials geolocalitzades amb etiquetes textuals associades, experimentant en com fer servir les etiquetes com a supervisió, en cerca d'imatges sensible a la localització, i en explotar la localització per l'etiquetatge d'imatges. Finalment, encarem un problema de classificació específic de publicacions de xarxes socials formades per una imatge i un text: Classificació de discurs de l'odi multimodal.
La experimentación en aprendizaje automático en escenarios controlados y con bases de datos estándares es necesaria para comparar el desempeño entre algoritmos evaluándolos en las mismas condiciones. Sin embargo, también en necesaria experimentación en cómo se comportan estos algoritmos cuando son entrenados con datos menos controlados y aplicados a problemas reales para indagar en cómo los avances en investigación pueden contribuir a nuestra sociedad. En esta tesis experimentamos con los algoritmos más recientes de visión por ordenador y procesado del lenguaje natural aplicándolos a la interpretación de escenas multimodales. En particular, investigamos en cómo la interpretación automática de imagen y texto se puede explotar conjuntamente para resolver problemas reales, enfocándonos en aprender de datos de redes sociales. Encaramos diversas tareas que implican información visual y textual, discutimos sus características y retos y exponemos nuestras conclusiones experimentales. Primeramente trabajamos en la detección de texto en imágenes. A continuación, trabajamos con publicaciones de redes sociales, usando las leyendas textuales de imágenes como supervisión para aprender características visuales, que aplicamos a la búsqueda de imágenes semántica con consultas multimodales. Después, trabajamos con imágenes de redes sociales geolocalizadas con etiquetas textuales asociadas, experimentando en cómo usar las etiquetas como supervisión, en búsqueda de imágenes sensible a localización, y en explotar la localización para el etiquetado de imágenes. Finalmente, encaramos un problema de clasificación específico de publicaciones de redes sociales formadas por una imagen y un texto: Clasificación de discurso del odio multimodal.
Machine learning experimentation under controlled scenarios and standard datasets is necessary to compare algorithms performance by evaluating all of them in the same setup. However, experimentation on how those algorithms perform on unconstrained data and applied tasks to solve real world problems is also a must to ascertain how that research can contribute to our society. In this dissertation we experiment with the latest computer vision and natural language processing algorithms applying them to multimodal scene interpretation. Particularly, we research on how image and text understanding can be jointly exploited to address real world problems, focusing on learning from Social Media data. We address several tasks that involve image and textual information, discuss their characteristics and offer our experimentation conclusions. First, we work on detection of scene text in images. Then, we work with Social Media posts, exploiting the captions associated to images as supervision to learn visual features, which we apply to multimodal semantic image retrieval. Subsequently, we work with geolocated Social Media images with associated tags, experimenting on how to use the tags as supervision, on location sensitive image retrieval and on exploiting location information for image tagging. Finally, we work on a specific classification problem of Social Media publications consisting on an image and a text: Multimodal hate speech classification.
APA, Harvard, Vancouver, ISO, and other styles
2

Salvi, Joaquim. "An approach to coded structured light to obtain three dimensional information." Doctoral thesis, Universitat de Girona, 1998. http://hdl.handle.net/10803/7714.

Full text
Abstract:
The human visual ability to perceive depth looks like a puzzle. We perceive three-dimensional spatial information quickly and efficiently by using the binocular stereopsis of our eyes and, what is mote important the learning of the most common objects which we achieved through living. Nowadays, modelling the behaviour of our brain is a fiction, that is why the huge problem of 3D perception and further, interpretation is split into a sequence of easier problems. A lot of research is involved in robot vision in order to obtain 3D information of the surrounded scene. Most of this research is based on modelling the stereopsis of humans by using two cameras as if they were two eyes. This method is known as stereo vision and has been widely studied in the past and is being studied at present, and a lot of work will be surely done in the future. This fact allows us to affirm that this topic is one of the most interesting ones in computer vision.

The stereo vision principle is based on obtaining the three dimensional position of an object point from the position of its projective points in both camera image planes. However, before inferring 3D information, the mathematical models of both cameras have to be known. This step is known as camera calibration and is broadly describes in the thesis. Perhaps the most important problem in stereo vision is the determination of the pair of homologue points in the two images, known as the correspondence problem, and it is also one of the most difficult problems to be solved which is currently investigated by a lot of researchers. The epipolar geometry allows us to reduce the correspondence problem. An approach to the epipolar geometry is describes in the thesis. Nevertheless, it does not solve it at all as a lot of considerations have to be taken into account. As an example we have to consider points without correspondence due to a surface occlusion or simply due to a projection out of the camera scope.
The interest of the thesis is focused on structured light which has been considered as one of the most frequently used techniques in order to reduce the problems related lo stereo vision. Structured light is based on the relationship between a projected light pattern its projection and an image sensor. The deformations between the pattern projected into the scene and the one captured by the camera, permits to obtain three dimensional information of the illuminated scene. This technique has been widely used in such applications as: 3D object reconstruction, robot navigation, quality control, and so on. Although the projection of regular patterns solve the problem of points without match, it does not solve the problem of multiple matching, which leads us to use hard computing algorithms in order to search the correct matches.
In recent years, another structured light technique has increased in importance. This technique is based on the codification of the light projected on the scene in order to be used as a tool to obtain an unique match. Each token of light is imaged by the camera, we have to read the label (decode the pattern) in order to solve the correspondence problem. The advantages and disadvantages of stereo vision against structured light and a survey on coded structured light are related and discussed. The work carried out in the frame of this thesis has permitted to present a new coded structured light pattern which solves the correspondence problem uniquely and robust. Unique, as each token of light is coded by a different word which removes the problem of multiple matching. Robust, since the pattern has been coded using the position of each token of light with respect to both co-ordinate axis. Algorithms and experimental results are included in the thesis. The reader can see examples 3D measurement of static objects, and the more complicated measurement of moving objects. The technique can be used in both cases as the pattern is coded by a single projection shot. Then it can be used in several applications of robot vision.
Our interest is focused on the mathematical study of the camera and pattern projector models. We are also interested in how these models can be obtained by calibration, and how they can be used to obtained three dimensional information from two correspondence points. Furthermore, we have studied structured light and coded structured light, and we have presented a new coded structured light pattern. However, in this thesis we started from the assumption that the correspondence points could be well-segmented from the captured image. Computer vision constitutes a huge problem and a lot of work is being done at all levels of human vision modelling, starting from a)image acquisition; b) further image enhancement, filtering and processing, c) image segmentation which involves thresholding, thinning, contour detection, texture and colour analysis, and so on. The interest of this thesis starts in the next step, usually known as depth perception or 3D measurement.
APA, Harvard, Vancouver, ISO, and other styles
3

Carbonell, Nuñez Manuel. "Neural Information Extraction from Semi-structured Documents." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/671583.

Full text
Abstract:
Sectors com la informació i tecnologia d'assegurances, finances i legal, processen un continu de factures, justificants, reclamacions o similar diàriament. L'èxit en l'automatització d'aquestes transaccions es basa en l'habilitat de digitalitzar correctament el contingut textual així com incorporar la comprensió semàntica. Aquest procés, conegut com Extracció d'Informació (EI) consisteix en diversos passos que són, el reconeixement de el text, la identificació d'entitats nomenades i en ocasions en reconèixer relacions entre aquestes entitats. En el nostre treball vam explorar models neurals multi-tasca a nivell d'imatge i de graf per solucionar els passos d'aquest procés de forma unificada. En el camí, vam estudiar els beneficis i inconvenients d'aquests enfocaments en comparació amb mètodes que resolen les tasques seqüencialment per separat.
Sectores como la información y tecnología de seguros, finanzas y legal, procesan un continuo de facturas, justificantes, reclamaciones o similar diariamente. El éxito en la automatización de estas transacciones se basa en la habilidad de digitalizar correctamente el contenido textual asi como incorporar la comprensión semántica. Este proceso, conococido como Extracción de Información (EI) consiste en varios pasos que son, el reconocimiento del texto, la identificación de entidades nombradas y en ocasiones en reconocer relaciones entre estas entidades. En nuestro trabajo exploramos modelos neurales multi-tarea a nivel de imagen y de grafo para solucionar los pasos de este proceso de forma unificada. En el camino, estudiamos los beneficios e inconvenientes de estos enfoques en comparación con métodos que resuelven las tareas secuencialmente por separado.
Sectors as fintech, legaltech or insurance process an inflow of million of forms, invoices, id documents, claims or similar every day. The success in the automation of these transactions depends on the ability to correctly digitize the textual content as well as to incorporate semantic understanding. This procedure, known as information extraction (IE) comprises the steps of localizing and recognizing text, identifying named entities contained in it and optionally finding relationships among its elements. In this work we explore multi-task neural models at image and graph level to solve all steps in a unified way. While doing so we find benefits and limitations of these end-to-end approaches in comparison with sequential separate methods.
APA, Harvard, Vancouver, ISO, and other styles
4

Murrugarra, Ortiz Lhester. "Sistema mecatrónico para determinar automáticamente las dimensiones de anchovetas usando visión artificial." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/19706.

Full text
Abstract:
Este trabajo plantea el desarrollo de un sistema mecatrónico sumergible que trabaje junto a un computador en una embarcación. El proyecto tiene como propósito indicarle al operario si el cardumen se puede pescar según las reglas impuestas por el Instituto del Mar Peruano (IMARPE) y por el Ministerio de Producción (PRODUCE). Dichas instituciones indican que solo se puede pescar un cardumen donde la cantidad de juveniles, especies con menos de 12cm, sea menor al 10% del cardumen (MINISTERIO DE PRODUCCIÓN, 2015). Para ello, el vehículo sumergible (ROV) del sistema cuenta con cámaras estereoscópicas, las cuales son capaces de medir la longitud en centímetros de las imágenes tomadas. En el presente proyecto, se grabará un video del cardumen y este será enviado a la estación en tierra, donde el computador será el encargado de realizar el procesamiento y dar los resultados al usuario. El documento inicia una recopilación de información referente a la temática del sistema propuesto, presentando el estado del arte, el marco teórico y posibles interesados. Luego, se realiza un estudio de los requerimientos del proyecto, los procesos internos que este debe realizar, se proponen soluciones y se mejora la solución ganadora. Finalmente, se realizaron las modificaciones necesarias al ROV (a nivel mecánico y electrónico) y se desarrolló el algoritmo de procesamiento de imágenes. Este trabajo ha sido elaborado con la finalidad de sentar las bases para desarrollar proyectos que mejoren el uso de los recursos marinos sin dañarlos. Dado que el proyecto es bastante amplio y el procesamiento de las imágenes puede volverse muy complejo, se considera que el presente trabajo puede ser complementado y mejorado por especialistas en procesamiento de imágenes y en temas de diseño de vehículos sumergibles.
Trabajo de investigación
APA, Harvard, Vancouver, ISO, and other styles
5

Rivera, Mujica Elvira del Carmen. "Supervisión y control de un proceso industrial autónomo de pintado aplicando lógica difusa y visión artificial." Bachelor's thesis, Universidad Ricardo Palma, 2014. http://cybertesis.urp.edu.pe/handle/urp/1175.

Full text
Abstract:
En el presente trabajo de tesis se desarrolló un prototipo de supervisión y control autónomo de pintado haciendo uso de un algoritmo de inteligencia artificial lógica difusa, con dos entradas y una salida. Para lo cual, se preparó el prototipo haciendo uso de cámaras Webcam para la captura de imágenes en tiempo real. Además, se utilizó una PC con el Controlador Difuso diseñado en LabVIEW. Es así, que la imagen capturada en el modelo RGB fue convertida al modelo de color CYMK, y para lo cual el algoritmo de Lógica Difusa determinó la cantidad de color requerida salvo en el caso que hubiera ocurrido un error, sea por falta de color o el exceso de este, se hacía uso de la segunda variable de entrada del controlador. Los resultados obtenidos en este trabajo fueron en que la captura de imagen, siempre intervino el problema de la iluminación, así como también de las características de las tintas, los cuales hacían que varíen los resultados finales. Además, si bien el algoritmo de Lógica Difusa se convirtió en una herramienta muy versátil, y fácil de modificarla en caso de que se hubiera requerido cambiar su uso o aplicación, aun así, los resultados no son muy precisos. La etapa final se realizó controlando aisladamente unas válvulas solenoides, en un tiempo de apertura y cierre en daba paso a la liberación de cada pintura correspondiente a los colores Negro, Cian, Magenta, Amarillo y Blanco o Luminancia. Este último fue considerado como adicional por el brillo que existe en la imagen capturada.
APA, Harvard, Vancouver, ISO, and other styles
6

Valdivia, Arias César Javier. "Diseño de un sistema de visión artificial para la clasificación de chirimoyas basado en medidas." Master's thesis, Pontificia Universidad Católica del Perú, 2016. http://tesis.pucp.edu.pe/repositorio/handle/123456789/7849.

Full text
Abstract:
El desarrollo de este trabajo, presenta el diseño de un sistema de visión artificial, capaz de medir Annona Cherimola Mill (Chirimoya) del ecotipo Aurora, las cuales provienen de la comunidad de Callahuanca, para posteriormente clasificar aquellas que cumplan con una dimensión de 10 x 12 cm empleando para la etapa de procesamiento: Ajuste de contraste y para la etapa de segmentación, Cierre, Apertura y Código Cadena; los métodos seleccionados cumplen con los tiempos de computo de diseño. Fue posible clasificar exitosamente 91 de 91 Chirimoyas de Categorías Extra y Primera estudiadas con un 100% de efectividad, una precisión de medida de 0,35mm y un error permisible de 2,18mm. Las pruebas se efectuaron en un prototipo diseñado para tal motivo y no en el equipo final; el error obtenido durante las pruebas es menor al establecido en los requerimientos en cuanto a la selección del fruto. En la memoria descriptiva, se presentan los cálculos referentes a la selección del dispositivo de captura, lentes y requerimientos de la iluminación empleando la metodología de diseño VDI-2221. El control del banco de pruebas, empleado para validar los algoritmos realizados, se realizó con un PLC y para realizar el procesamiento de imágenes, se optó por un computador de escritorio con procesador Intel R Core i5 CPU 2.53GHz junto con una cámara con comunicación USB 3.0. El diseño mecánico-eléctrico no es motivo de estudio en la presente investigación.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
7

BUENDIA, RIOS ANGHELLO ARTURO 711753, and RIOS ANGHELLO ARTURO BUENDIA. "Navegación Autónoma de un vehículo Pequeño en Interiores Empleando Visión Artificial y Diferentes Sensores." Tesis de maestría, Universidad Autónoma del Estado de México, 2017. http://hdl.handle.net/20.500.11799/68536.

Full text
Abstract:
En este trabajo se presenta una propuesta para la navegación en interiores de un robot pequeño, con arquitectura de vehículo con ruedas. Para la navegación autónoma se implementa un algoritmo de planeación de trayectorias en donde se toma información del entorno para reconocimiento de objetos mediante técnicas de visión artificial y sensores de proximidad para medición y cálculo de la distancia entre el robot y los posibles obstáculos encontrados, de esta forma se recalcula la trayectoria necesaria para evitar choques. Por otra parte, se trabaja la optimización del tiempo y seguridad de navegación, ajustando la velocidad en función de la rugosidad del suelo, a saber: 1) avance rápido en superficies de alta rugosidad, 2) avance lento en superficies de baja rugosidad, posibilitando la disminución del deslizamiento de las ruedas y mejorando el cálculo, por odometría, de la posición del robot dentro de su entorno. Se presentan las técnicas de extracción de características y las arquitecturas y tipos de redes neuronales artificiales empleados tanto para el reconocimiento de objetos como de los tipos de texturas. Se muestran los resultados obtenidos al realizar pruebas de navegación en diferentes entornos en interiores en donde se presentan tanto los tiempos de recorrido como la distancia entre la posición deseada y la posición final del robot. Las pruebas se realizan en la plataforma robótica LEGO Mindstorm EV3.
Beca para estudios de posgrado CONACyT No. de cuenta: 1530015
APA, Harvard, Vancouver, ISO, and other styles
8

NIETO, GONZALEZ JOSE LUIS 786642, and GONZALEZ JOSE LUIS NIETO. "Detección de incendios mediante identificación de humo con visión artificial en condiciones de iluminación variable." Tesis de maestría, Universidad Autónoma del Estado de México, 2018. http://hdl.handle.net/20.500.11799/95189.

Full text
Abstract:
La detección de humo en áreas abiertas representa una gran dificultad para los medios convencionales para detección de incendios. Mientras que la mayoría de los dispositivos utilizados para monitorear la presencia de fuego, están diseñados para trabajar en contacto con alguno producto de la combustión, como la temperatura o la concentración de humo en el aire, las herramientas basadas en Visión Artificial aprovechan las características ópticas del fuego o del humo, permitiendo realizar el monitoreo y la detección de incendios a mayor distancia. Sin embargo, las condiciones de captura de las imágenes complica el proceso. Diferentes niveles de iluminación, condiciones climáticas, así como la presencia de otros objetos móviles reducen el nivel de exactitud de los algoritmos existentes para la detección de humo. El presente proyecto se enfoca en presentar una propuesta de algoritmo para detección de humo mediante Visión Artificial que afronta el problema de la variación en las detecciones debida a los cambios de iluminación ambiental. Con este propósito, se diseñó un algoritmo compuesto por distintas etapas que analizan las imágenes en busca de características estáticas o dinámicas del humo. El algoritmo propuesto es descrito en el quinto capítulo de este trabajo escrito. Inicialmente, parte de una etapa de pre-procesamiento que permite ajustar la resolución de las imágenes extraídas desde un video de entrada, balancear la iluminación de las imágenes y etiquetarlas para evaluar la herramienta. Posteriormente, se emplea una etapa que realiza la detección de movimiento, una de análisis de la dirección del movimiento, otra más para el análisis de la información obtenida en espacio de Wavelets y un par de etapas complementarias que analizan el color en espacio RGB y YCbCr. Finalmente, los resultados son evaluados por una etapa clasificadora basada en la herramienta AdaBoost, para realizar la toma de decisiones y notificar sobre una detección de incendio. El algoritmo propuesto es evaluado a partir de los criterios de exactitud Sensibilidad (el porcentaje de detecciones correctas realizadas) y Especificidad (el porcentaje de no- detecciones correctamente realizadas). Los resultados de exactitud descritos en el sexto capítulo del presente trabajo escrito, se contrastan con los obtenidos por otros algoritmos replicados a partir del estado del arte. A partir de los casos de prueba planteados para cada escenario de iluminación evaluado, se identificó una reducción en la variación de los resultados, es decir, el cambio en los porcentajes de sensibilidad y especificidad en diferentes condiciones de iluminación, es menor al obtenido por los algoritmos replicados.
APA, Harvard, Vancouver, ISO, and other styles
9

Sobrado, Malpartida Eddie Ángel. "Sistema de visión artificial para el reconocimiento y manipulación de objetos utilizando un brazo robot." Master's thesis, Pontificia Universidad Católica del Perú, 2003. http://tesis.pucp.edu.pe/repositorio/handle/123456789/68.

Full text
Abstract:
En este proyecto, un brazo robot permitirá seleccionar objetos (tornillos, tuercas, llaveros, etc) que se encuentran en una mesa, independiente de la posición y orientación. El problema se aborda mediante un esquema de Visión Artificial consistente en 6 etapas: obtención de la imagen, preprocesamiento, segmentación, extracción de características, clasificación y manipulación con el brazo robot.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
10

Wang, Yaxing. "Transferring and learning representations for image generation and translation." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/669579.

Full text
Abstract:
La generació d'imatges és una de les tasques més atractives, fascinants i complexes de la visió per computador. Dels diferents mètodes per la generació d'imatges, les xarxes generatives adversaries (o també anomenades ""GANs"") juguen un paper crucial. Els mètodes generatius més comuns basats en GANs es poden dividir en dos apartats. El primer, simplement anomenat generatiu, utilitza soroll aleatori i sintetitza una imatge per tal de seguir la mateixa distribució que les imatges d'entrenament. En el segon apartat trobem la traducció d'imatge a imatge, on el seu objectiu consiteix en transferir la imatge d'un domini origen a un que és indistingible d'un domini objectiu. Els mètodes d'aquesta categoria de traducció d'imatge a imatge es poden subdividir en emparellats o no emparellats, depenent de si requereixen que les dades siguin emparellades o no. En aquesta tesi, l'objectiu consisteix en resoldre alguns dels reptes tant en la generació d'imatges com en la traducció d'imatge a imatge. Les GANs depenen en gran part de l'accés a una gran quantitat de dades, i fallen al generar imatges realistes a partir del soroll aleatori quan s'apliquen a dominis amb poques imatges. Per solucionar aquest problema, la solució proposada consisteix en transferir el coneixement d'un model entrenat a partir d'un conjunt de dades amb moltes imatges (domini origen) a un entrenat amb dades limitades (domini objectiu). Hem trobat que tant les GANs com les GANs condicionals poden beneficiar-se dels models entrenats amb grans conjunts de dades. Els nostres experiments mostren que transferir el discriminador és més important que fer-ho per el cas del generador. Utilitzar tant el generador com el discriminador resulta en un millor rendiment. No obstant, aquest mètode sufreix d'overfitting, donat que actualitzem tots els paràmetres per adaptar el mètode a les dades de l'objectiu. Proposem una arquitectura nova, feta a mesura per tal de resoldre la transferència de coneixement per el cas de dominis objectius amb molt poques imatges. El nostre mètode explora eficientment quina part de l'espai latent està més relacionat amb el domini objectiu. Adicionalment, el mètode proposat és capaç de transferir el coneixement a partir de múltiples GANs pre-entrenades. Tot i que la traducció de imatge a imatge ha conseguit rendiments extraordinaris, ha d'enfrentarse a diferents problemes. Primer, per el cas de la traducció entre dominis complexes (on les traduccions són entre diferents modalitats) s'ha vist que els mètodes de traducció de imatge a imatge requereixen dades emparellades. Demostrem que únicament quan algunes de les traduccions disposen de la informació (i.e. durant l'entrenament), podem inferir les traduccions restants (on les parelles no estan disponibles). Proposem un mètode nou en el cual alineem diferents codificadors y decodificadors d'imatge d'una manera que ens permet obtenir la traducció simplement encadenant el codificador d'origen amb el decodificador objectiu, encara que aquests no hagin interactuat durant la fase d'entrenament (i.e. sense disposar d'aquesta informació). Segon, existeix el esbiaixament en la traducció de imatge a imatge. Els datasets esbiaixats inevitablement contenen canvis no desitjats, això es deu a que el dataset objectiu té una distribució visual subjacent. Proposem l'ús de restriccions semàntiques curosament dissenyades per reduir els efectes de l'esbiaixament. L'ús de la restricció semàntica implica la preservació de les propietats de les imatges desitjades. Finalment, els mètodes actuals fallen en generar resultats diversos o en realitzar transferència de coneixement escalable a un únic model. Per aliviar aquest problema, proposem una manera escalable i diversa per a la traducció de imatge a imatge. Utilitzem el soroll aleatori per el control de la diversitat. La escalabilitat és determinada a partir del condicionament de la etiqueta del domini.
La generación de imágenes es una de las tareas más atractivas, fascinantes y complejas en la visión por computador. De los diferentes métodos para la generación de imágenes, las redes generativas adversarias (o también llamadas ""GANs"") juegan un papel crucial. Los modelos generativos más comunes basados en GANs se pueden dividir en dos apartados. El primero, simplemente llamado generativo, utiliza como entrada ruido aleatorio y sintetiza una imagen que sigue la misma distribución que las imágenes de entrenamiento. En el segundo apartado encontramos la traducción de imagen a imagen, cuyo objetivo consiste en transferir la imagen de un dominio origen a uno que es indistinguible del dominio objetivo. Los métodos de esta categoria de traducción de imagen a imagen se pueden subdividir en emparejados o no emparejados, dependiendo de si se requiere que los datos sean emparejados o no. En esta tesis, el objetivo consiste en resolver algunos de los retos tanto en la generación de imágenes como en la traducción de imagen a imagen. Las GANs dependen en gran parte del acceso a gran cantidad de datos, y fallan al generar imágenes realistas a partir de ruido aleatorio cuando se aplican a dominios con pocas imágenes. Para solucionar este problema, proponemos transferir el conocimiento de un modelo entrenado a partir de un conjunto de datos con muchas imágenes (dominio origen) a uno entrenado con datos limitados (dominio objetivo). Encontramos que tanto las GANs como las GANs condicionales pueden beneficiarse de los modelos entrenados con grandes conjuntos de datos. Nuestros experimentos muestran que transferir el discriminador es más importante que hacerlo para el generador. Usar tanto el generador como el discriminador resulta en un mayor rendimiento. Sin embargo, este método sufre de overfitting, dado que actualizamos todos los parámetros para adaptar el modelo a los datos del objetivo. Para ello proponemos una arquitectura nueva, hecha a medida para resolver la transferencia de conocimiento en el caso de dominios objetivo con muy pocas imágenes. Nuestro método explora eficientemente qué parte del espacio latente está más relacionado con el dominio objetivo. Adicionalmente, el método propuesto es capaz de transferir el conocimiento a partir de múltiples GANs pre-entrenadas. Aunque la traducción de imagen a imagen ha conseguido rendimientos extraordinarios, tiene que enfrentarse a diferentes problemas. Primero, para el caso de la traducción entre dominios complejos (cuyas traducciones son entre diferentes modalidades) se ha observado que los métodos de traducción de imagen a imagen requieren datos emparejados. Demostramos que únicamente cuando algunas de las traducciones disponen de esta información, podemos inferir las traducciones restantes. Proponemos un método nuevo en el cual alineamos diferentes codificadores y decodificadores de imagen de una manera que nos permite obtener la traducción simplemente encadenando el codificador de origen con el decodificador objetivo, aún cuando estos no han interactuado durante la fase de entrenamiento (i.e. sin disponer de dicha información). Segundo, existe el problema del sesgo en la traducción de imagen a imagen. Los conjuntos de datos sesgados inevitablemente contienen cambios no deseados, eso se debe a que el dataset objetivo tiene una distribución visual subyacente. Proponemos el uso de restricciones semánticas cuidadosamente diseñadas para reducir los efectos del sesgo. El uso de la restricción semántica implica la preservación de las propiedades de imagen deseada. Finalmente, los métodos actuales fallan en generar resultados diversos o en realizar transferencia de conocimiento escalables a un único modelo. Para aliviar este problema, proponemos una manera escalable y diversa para la traducción de imagen a imagen. Para ello utilizamos ruido aleatorio para el control de la diversidad. La escalabilidad es determinada a partir del condicionamiento de la etiqueta del dominio.
Image generation is arguably one of the most attractive, compelling, and challenging tasks in computer vision. Among the methods which perform image generation, generative adversarial networks (GANs) play a key role. The most common image generation models based on GANs can be divided into two main approaches. The first one, called simply image generation takes random noise as an input and synthesizes an image which follows the same distribution as the images in the training set. The second class, which is called image-to-image translation, aims to map an image from a source domain to one that is indistinguishable from those in the target domain. Image-to-image translation methods can further be divided into paired and unpaired image-to-image translation based on whether they require paired data or not. In this thesis, we aim to address some challenges of both image generation and image-to-image generation. GANs highly rely upon having access to vast quantities of data, and fail to generate realistic images from random noise when applied to domains with few images. To address this problem, we aim to transfer knowledge from a model trained on a large dataset (source domain) to the one learned on limited data (target domain). We find that both GANs and conditional GANs can benefit from models trained on large datasets. Our experiments show that transferring the discriminator is more important than the generator. Using both the generator and discriminator results in the best performance. We found, however, that this method suffers from overfitting, since we update all parameters to adapt to the target data. We propose a novel architecture, which is tailored to address knowledge transfer to very small target domains. Our approach effectively explores which part of the latent space is more related to the target domain. Additionally, the proposed method is able to transfer knowledge from multiple pretrained GANs. Although image-to-image translation has achieved outstanding performance, it still faces several problems. First, for translation between complex domains (such as translations between different modalities) image-to-image translation methods require paired data. We show that when only some of the pairwise translations have been seen (i.e. during training), we can infer the remaining unseen translations (where training pairs are not available). We propose a new approach where we align multiple encoders and decoders in such a way that the desired translation can be obtained by simply cascading the source encoder and the target decoder, even when they have not interacted during the training stage (i.e. unseen). Second, we address the issue of bias in image-to-image translation. Biased datasets unavoidably contain undesired changes, which are due to the fact that the target dataset has a particular underlying visual distribution. We use carefully designed semantic constraints to reduce the effects of the bias. The semantic constraint aims to enforce the preservation of desired image properties. Finally, current approaches fail to generate diverse outputs or perform scalable image transfer in a single model. To alleviate this problem, we propose a scalable and diverse image-to-image translation. We employ random noise to control the diversity. The scalabitlity is determined by conditioning the domain label.
APA, Harvard, Vancouver, ISO, and other styles
11

Ortiz, Castillo Jonathan. "Sistema de visión artificial humanoide para reconocimiento de formas y patrones de objetos, aplicando redes neuronales y algoritmos de aprendizaje automático." Bachelor's thesis, Universidad Ricardo Palma, 2015. http://cybertesis.urp.edu.pe/handle/urp/1138.

Full text
Abstract:
Esta tesis, desarrolla un sistema de Visión Artificial el cual detecta objetos bajo un ambiente a campo abierto de terreno arenoso, con un fondo incierto bajo ciertas condiciones de luminosidad, brillo saturación, contraste. Para ello se desarrolló un sistema el cual permite ver la profundidad y la distancia la cual se encuentra determinado punto de la imagen de la cámara respecto al mundo real, todo por medio de algoritmos computacionales y teoría de Visión estereoscópica, aproximándose así a un sistema de Visión artificial Humanoide al percibir la profundidad y el reconocimiento de objetos bajo el concepto que se presenta en el libro “A Humanoid Vision System for Versatile Interaction” escrita por Yasuo K., Sebastien R., Oliver S., Gorgon C. & Akihiko N. También se desarrolló un sistema el cual permite identificar el objeto objetivo, ya sea para su posterior manipulación, o posterior acción del sistema, lo cual se implementó una red neuronal Multicapa el cual permite diferenciar de entre 3 objetos, el final deseado. El uso de la Red Neuronal Artificial guarda un papel muy importante. Las conexiones entre neuronas tienen pesos asociados que representan la influencia de una sobre la otra. Si dos neuronas no están conectadas, el correspondiente peso de enlace es cero. Esencialmente, cada una envía su información de estado multiplicado por el correspondiente peso a todas las neuronas conectadas con ella. Luego cada una, a su vez, suma los valores recibidos desde sus dendritas para actualizar sus estados respectivos. Se emplea normalmente un conjunto de ejemplos representativos de la transformación deseada para "entrenar" el sistema, que, a su vez, se adapta para producir las salidas deseadas cuando se lo evalúa con las entradas "aprendidas". Para la percepción de profundidad, se realizó con un tablero de ajedrez, al identificar las esquinas de cada cuadrado ubicados cada 2.54 cm a una distancia de la cámara de 79cm medidos en real, obteniendo resultados muy aproximados entre [71 – 75] cm con un error de hasta 4 cm. Esto sin embargo se puede corregir aplicando mayor uso de imágenes para lectura y calibración de cámara y luego aplicar los algoritmos de estereoscopía. Éste error, es aceptable por ejemplo en sistemas de prevención de choques en los autos, los cuales tienen un retrovisor pantalla en su panel principal, mostrándose en el screen la distancia del obstáculo detectado respecto al auto a fin de evitar malas maniobras o choques. De esta manera en este proyecto de tesis se demuestra la identificación de objetos, y la percepción de la profundidad con el tablero de ajedrez.
APA, Harvard, Vancouver, ISO, and other styles
12

de, Souza César Roberto. "Action recognition in videos: data-efficient approaches for supervised learning of human action classification models for video." Doctoral thesis, Universitat Autònoma de Barcelona, 2018. http://hdl.handle.net/10803/565827.

Full text
Abstract:
En aquesta dissertació, explorem diferents maneres de reconèixer accions humanes en fragments de vídeo. Ens centrem sobretot en l'eficiència amb les dades, investigant i proposant nous mètodes que permetin evitar la laboriosa i lenta anotació de dades de forma manual. A la primera part d'aquesta dissertació, comencem analitzem els millors models preexistents, comparant les seves diferències i similituds amb la finalitat d'identificar d'on provenen els seus punts forts. Aprofitant aquesta informació, procedim a millorar el rendiment en classificació d'aquests models senzills a nivells que podrien competir amb xarxes neuronals profundes mitjançant la introducció d'arquitectures híbrides de classificació de vídeo. Aquestes arquitectures estan basades en representacions no supervisades dissenyades amb característiques espai-temporals degudament escollides a mà i després classificades per xarxes neuronals profundes supervisades. En els nostres experiments mostrem que el model híbrid que proposem combina el millor d'ambdós mons: per una banda és més eficient amb les dades (entrenat entre 150-10,000 fragments de vídeos curts); i per l'altra, millora significativament els resultats dels models existents, incloent models profunds entrenats en milions d'imatges i vídeos etiquetats manualment. A la segona part de la dissertació, investiguem la generació de dades d'entrenament sintètiques per al reconeixement d'accions, ja que recentment s'han mostrat resultats prometedors en una varietat d'altres tasques en visió per computador. Proposem un model generatiu paramètric interpretable de vídeos d'acció humana que es basa en la generació procedimental i altres tècniques de gràfics per computador existents en els motors dels videojocs moderns. Generem un conjunt sintètic de vídeos d'accions humanes diverses, realistes i físicament plausibles, anomenats PHAV (Procedural Human Action Videos). Aquest conjunt de dades conté un total de 39,982 vídeos, amb més de 1,000 exemples per cadascuna de les 35 categories d'acció. La nostra proposta no es limita a les seqüències de captura de moviment existents, i definim procedimental 14 accions sintètiques. Després, presentem arquitectures profundes d'aprenentatge de representacions multi-tasca per fusionar vídeos sintètics i reals, fins i tot quan les categories d'acció difereixen. Els nostres experiments en comparats amb els altres mitjançant els punts de referència UCF-101 i HMDB-51 suggereixen que la combinació del gran conjunt de vídeos sintètics que proposem amb petits conjunts de dades del món real pot millorar el rendiment, superant els models generatius de vídeo no supervisats recentment desenvolupats.
En esta disertación, exploramos diferentes formas de realizar reconocimiento de acciones humanas en vídeos. Nos enfocamos en la eficiencia de los datos, proponiendo nuevos enfoques que alivian la necesidad de anotarlos manualmente, tarea muy laboriosa y subjetiva, sujeta a errores. En la primera parte de esta disertación, comenzamos analizando modelos anteriores de vanguardia, comparando sus diferencias y similitudes con el fin de identificar de dónde vienen sus verdaderas fortalezas. Aprovechando esta información, procedemos a aumentar la precisión de la clasificación basada en modelos diseñados por un experto a niveles que rivalizan con las redes neuronales profundas. Presentamos arquitecturas híbridas de clasificación de vídeo basadas en representaciones espaciotemporales generales y no supervisadas, cuidadosamente diseñadas como características de entrada a redes neuronales profundas supervisadas. Los experimentos que presentamos muestran que nuestro modelo híbrido combina lo mejor de ambos mundos: es eficiente en datos (entrenado en 150 a 10,000 vídeos cortos) y mejora significativamente en el estado del arte, incluyendo modelos profundos entrenados en millones de imágenes etiquetadas manualmente y videos. En la segunda parte de esta tesis, investigamos la generación de datos sintéticos de entrenamiento para el reconocimiento de acciones, ya que recientemente este paradigma ha mostrado resultados prometedores en muchas otras tareas de visión por computador. Basándonos en técnicas de gráficos por computador, proponemos un modelo paramétrico e interpretable para generar vídeos de acciones humanas. Los vídeos que generamos son diversos, realistas y físicamente plausibles; llamamos PHAV (de "Procedural Human Action Videos") al conjunto de vídeos. PHAV contiene un total de 39,982 videos, con más de 1,000 ejemplos para cada acción, contemplando 35 acciones diferentes. Nuestro enfoque no se limita a las secuencias de captura de movimiento existentes, ya que también definimos procedimentalmente 14 acciones sintéticas. Luego presentamos arquitecturas profundas para el aprendizaje de representaciones de tareas múltiples que mezclan vídeos sintéticos y reales, incluso si las categorías de acción son diferentes. Nuestros experimentos en los conjuntos de datos UCF-101 y HMDB-51 sugieren que la combinación de PHAV con pequeños conjuntos de datos del mundo real puede aumentar la precisión del reconocimiento, superando el estado del arte de los modelos no supervisados de generación de vídeos.
In this dissertation, we explore different ways to perform human action recognition in video clips. We focus on data efficiency, proposing new approaches that alleviate the need for laborious and time-consuming manual data annotation. In the first part of this dissertation, we start by analyzing previous state-of-the-art models, comparing their differences and similarities in order to pinpoint where their real strengths comes from. Leveraging this information, we then proceed to boost the classification accuracy of shallow models to levels that rival deep neural networks. We introduce hybrid video classification architectures based on carefully designed unsupervised representations of handcrafted spatiotemporal features classified by supervised deep networks. We show in our experiments that our hybrid model combine the best of both worlds: it is data efficient (trained on 150 to 10,000 short clips) and yet improved significantly on the state of the art, including deep models trained on millions of manually labeled images and videos. In the second part of this research, we investigate the generation of synthetic training data for action recognition, as it has recently shown promising results for a variety of other computer vision tasks. We propose an interpretable parametric generative model of human action videos that relies on procedural generation and other computer graphics techniques of modern game engines. We generate a diverse, realistic, and physically plausible dataset of human action videos, called PHAV for "Procedural Human Action Videos". It contains a total of 39,982 videos, with more than 1,000 examples for each action of 35 categories. Our approach is not limited to existing motion capture sequences, and we procedurally define 14 synthetic actions. We then introduce deep multi-task representation learning architectures to mix synthetic and real videos, even if the action categories differ. Our experiments on the UCF-101 and HMDB--51 benchmarks suggest that combining our large set of synthetic videos with small real-world datasets can boost recognition performance, outperforming fine-tuning state-of-the-art unsupervised generative models of videos.
APA, Harvard, Vancouver, ISO, and other styles
13

Fornas, García David. "Aplicación de la visión artificial a la manipulación robótica en el contexto de la intervención subacuática." Doctoral thesis, Universitat Jaume I, 2019. http://hdl.handle.net/10803/665797.

Full text
Abstract:
En esta tesis se describe un sistema integral para la manipulación de objetos guiada por visión en escenarios subacuáticos en el contexto de la arqueología. El sistema propuesto consiste en la reconstrucción en 3D del entorno, el modelado geométrico aproximado del escenario y los objetos que rodean al robot, la especificación y supervisión del agarre utilizando métodos de Interación Humano-Robot y la ejecución del agarre. Se ha demostrado el uso de los diferentes componentes en simulación y en entornos reales de dificultad creciente. Así, se han realizado experimentos en el laboratorio Interactive and Robotic Systems Lab en un tanque de agua dulce, pruebas de integración en la piscina del Centro de Investigación en Robótica Submarina y experimentos de campo en el mar dentro del puerto de Sant Feliu de Guíxols.
This thesis describes an integral framework for visually guided manipulation of objects in underwater scenarios in the archaeology case of use. The proposed framework is used to perform the reconstruction of a 3D point cloud from the robot environment, compute the geometric model of the objects and background of the scene, specify and supervise the grasping through Human-Robot Interaction, and execute the grasping. The different components have been validated in simulation and in increasingly complex real scenarios. Experiments have been performed in the water tank of the Interactive and Robotic Systems Lab, in the pool of the Centro de Investigación en Robótica Submarina with the integration of the vehicle and in seawater at the harbour of Sant Feliu de Guíxols.
APA, Harvard, Vancouver, ISO, and other styles
14

Palacín, Silva María Victoria. "Visión artificial aplicada al monitoreo automatizado del proceso de cloración para mejorar la calidad del agua." Bachelor's thesis, Chiclayo, 2011. http://tesis.usat.edu.pe/jspui/handle/123456789/333.

Full text
Abstract:
El presente trabajo de investigación tiene como principal objetivo además de cumplir con los requisitos que exige la escuela de ingeniería de sistemas y computación de la USAT, ofrecer una alternativa eficiente a las empresas industriales en uno de sus procesos más importantes: la cloración del agua. La situación problemática que llevó a la presente propuesta fue: el alto índice de error en las mediciones de cloro, la demora en el proceso así, como los costos que la misma implica. Además de problemas de índole legal al no almacenar los resultados de las mediciones por dos años, como indican las leyes del país. Debido a esta situación problemática se optó por implementar un sistema de visión artificial con redes neuronales que permita la automatización de las mediciones de nivel de cloro dentro del proceso de cloración. La metodología que se utilizó para el desarrollo fue la metodología de visión artificial, propuesta por (Kong y Nilsson 2005). Esta propuesta estuvo justificada desde el punto de vista científico, porque se llevó a cabo una contrastación de hipótesis que permitió verificar el logro de los indicadores, desde un punto de vista tecnológico porque se aplicó una tecnología emergente y automatizable para un proceso industrial, desde el punto de vista social dado indirectamente mejora la calidad de los productos que serán ingeridos por personas, y económicamente dado que representa un ahorro en el proceso de cloración. Lográndose los objetivos de: reducción de tiempo en las mediciones, disminución del error de las mediciones, almacenamiento permanente de los resultados, disminución del esfuerzo humano y minimización de costos del proceso.
APA, Harvard, Vancouver, ISO, and other styles
15

Roig, Hernández Ana Belén. "Medida y análisis de movimientos y vibraciones mediante sistemas de bajo coste basados en visión artificial." Doctoral thesis, Universidad de Alicante, 2014. http://hdl.handle.net/10045/41426.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Palacín, Silva María Victoria, and Silva María Victoria Palacín. "Visión artificial aplicada al monitoreo automatizado del proceso de cloración para mejorar la calidad del agua." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2011. http://tesis.usat.edu.pe/handle/usat/536.

Full text
Abstract:
El presente trabajo de investigación tiene como principal objetivo además de cumplir con los requisitos que exige la escuela de ingeniería de sistemas y computación de la USAT, ofrecer una alternativa eficiente a las empresas industriales en uno de sus procesos más importantes: la cloración del agua. La situación problemática que llevó a la presente propuesta fue: el alto índice de error en las mediciones de cloro, la demora en el proceso así, como los costos que la misma implica. Además de problemas de índole legal al no almacenar los resultados de las mediciones por dos años, como indican las leyes del país. Debido a esta situación problemática se optó por implementar un sistema de visión artificial con redes neuronales que permita la automatización de las mediciones de nivel de cloro dentro del proceso de cloración. La metodología que se utilizó para el desarrollo fue la metodología de visión artificial, propuesta por (Kong y Nilsson 2005). Esta propuesta estuvo justificada desde el punto de vista científico, porque se llevó a cabo una contrastación de hipótesis que permitió verificar el logro de los indicadores, desde un punto de vista tecnológico porque se aplicó una tecnología emergente y automatizable para un proceso industrial, desde el punto de vista social dado indirectamente mejora la calidad de los productos que serán ingeridos por personas, y económicamente dado que representa un ahorro en el proceso de cloración. Lográndose los objetivos de: reducción de tiempo en las mediciones, disminución del error de las mediciones, almacenamiento permanente de los resultados, disminución del esfuerzo humano y minimización de costos del proceso.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
17

Martínez, José Juan Manuel. "Sistema de Visión Artificial para la Detección y Corrección de Posturas en Ejercicios realizados por Fisicoculturistas." Tesis de Licenciatura, Universidad Autónoma del Estado de México, 2018. http://hdl.handle.net/20.500.11799/95190.

Full text
Abstract:
Hasta la fecha de elaboración de este documento no se ha identificado alguna herramienta tecnológica que permita definir y garantizar que el fisicoculturista realice de manera correcta los ejercicios de su plan de entrenamiento. Un problema general es que cada gimnasio cuenta con sólo un instructor por turno de trabajo; esto implica que el experto no se encuentre al pendiente de la ejecución en cada individuo, dando como resultado lesiones, sobre entrenamiento o carencia de estímulo muscular, efectos contrarios al esperado por dicha actividad. Actualmente hay cierto interés por imitar, de manera artificial, las capacidades y sentidos naturales de los seres humanos. Entre algunos ejemplos se contemplan: la vista, con el reconocimiento de objetos o patrones, el seguimiento del cuerpo humano y la captura de movimiento (Mo Cap). Para ello se hace uso de herramientas computacionales, como los llamados exergame, que incitan el movimiento del usuario ante entornos virtuales, y la programación de algoritmos que intentan dar solución a estos problemas. A partir de los dos puntos anteriores, se ha propuesto este proyecto como área de oportunidad en el ámbito tecnológico-computacional. El objetivo de dicho proyecto de tesis es desarrollar un sistema de Visión Artificial interactivo, que permita reconocer y seguir los movimientos de los fisicoculturistas para determinar si sus posturas son correctas en tiempo real, mediante la posición de sus articulaciones en el sistema de ejes de tres dimensiones. Se contempla la creación de un algoritmo que permite una comparativa de la posición que presenta el usuario y las preestablecidas en el sistema, haciendo uso del dispositivo de captura de movimiento Kinect. El resultado es una herramienta computacional que apoya a los fisicoculturistas a estimular de forma correcta los músculos involucrados en cada ejercicio, evitando las posibles consecuencias negativas a corto o largo plazo que puedan surgir de una mala práctica.
APA, Harvard, Vancouver, ISO, and other styles
18

Silva, Obregón Gustavo Manuel. "Efficient algorithms for convolutional dictionary learning via accelerated proximal gradient." Master's thesis, Pontificia Universidad Católica del Perú, 2019. http://hdl.handle.net/20.500.12404/13903.

Full text
Abstract:
Convolutional sparse representations and convolutional dictionary learning are mathematical models that consist in representing a whole signal or image as a sum of convolutions between dictionary filters and coefficient maps. Unlike the patch-based counterparts, these convolutional forms are receiving an increase attention in multiple image processing tasks, since they do not present the usual patchwise drawbacks such as redundancy, multi-evaluations and non-translational invariant. Particularly, the convolutional dictionary learning (CDL) problem is addressed as an alternating minimization between coefficient update and dictionary update stages. A wide number of different algorithms based on FISTA (Fast Iterative Shrinkage-Thresholding Algorithm), ADMM (Alternating Direction Method of Multipliers) and ADMM consensus frameworks have been proposed to efficiently solve the most expensive steps of the CDL problem in the frequency domain. However, the use of the existing methods on large sets of images is computationally restricted by the dictionary update stage. The present thesis report is strategically organized in three parts. On the first part, we introduce the general topic of the CDL problem and the state-of-the-art methods used to deal with each stage. On the second part, we propose our first computationally efficient method to solve the entire CDL problem using the Accelerated Proximal Gradient (APG) framework in both updates. Additionally, a novel update model reminiscent of the Block Gauss-Seidel (BGS) method is incorporated to reduce the number of estimated components during the coefficient update. On the final part, we propose another alternative method to address the dictionary update stage based on APG consensus approach. This last method considers particular strategies of theADMMconsensus and our first APG framework to develop a less complex solution decoupled across the training images. In general, due to the lower number of operations, our first approach is a better serial option while our last approach has as advantage its independent and highly parallelizable structure. Finally, in our first set of experimental results, which is composed of serial implementations, we show that our first APG approach provides significant speedup with respect to the standard methods by a factor of 1:6 5:3. A complementary improvement by a factor of 2 is achieved by using the reminiscent BGS model. On the other hand, we also report that the second APG approach is the fastest method compared to the state-of-the-art consensus algorithm implemented in serial and parallel. Both proposed methods maintain comparable performance as the other ones in terms of reconstruction metrics, such as PSNR, SSIM and sparsity, in denoising and inpainting tasks.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
19

DAVILA, GARCIA JORGE RODRIGO 783566, and GARCIA JORGE RODRIGO DAVILA. "Sistema experto con visión artificial para la identificación de insectos descortezadores en especies de pino de los estados forestales más importantes de México." Tesis de maestría, Universidad Autónoma del Estado de México, 2019. http://hdl.handle.net/20.500.11799/98774.

Full text
Abstract:
Debido a las condiciones climáticas que se presentan hoy en día la aparición y propagación descontrolada de plagas y enfermedades en los bosques de pino se ha incrementado considerablemente, lo que representa un riesgo para la conservación de los ecosistemas forestales, la provisión de los servicios ambientales y la productividad del sector forestal. El Programa Nacional Forestal 2014-2018 identificó que una de las problemáticas en éste Sector son las plagas y enfermedades que atacan a los ecosistemas forestales ocasionando su deterioro, teniendo como consecuencia costos por pérdida de oportunidades económicas, de funcionamiento de los ecosistemas, de biodiversidad y de servicios ambientales. Derivado de lo anterior, uno de los principales problemas a los que se enfrenta el sector forestal es la detección oportuna y combate de plagas y enfermedades en los ecosistemas forestales. Bajo este contexto, este trabajo abordará la problemática enfocándose en la detección oportuna de plagas de insectos descortezadores de los géneros Dendroctonus e Ips en los bosques de pino debido a que los bosques de pino son una de las principales superficies de vegetación forestal presentes en el país. Para lograr la identificación oportuna es necesario contar con conocimientos avanzados que permitan discernir entre lo normal y anormal, identificando las características de la plaga presente en los árboles de pino.
CONACyT, beca con número de registro 783566
APA, Harvard, Vancouver, ISO, and other styles
20

Rosado, Rodrigo Pilar. "Formas latentes: protocolos de visión artificial para la detección de analogías aplicados a la catalogación y creación artísticas." Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/300302.

Full text
Abstract:
Del mismo modo que Maria Zambrano (1989), esta tesis considera que la pintura “es un lugar privilegiado donde detener la mirada” (p. 11). La pintura relaciona al hombre con lo que le rodea. La autora no se posiciona ante ella como teórica del arte, ni como crítica, sino como creadora. Zambrano nos explica que sólo es posible la creación para el que sabe mirar, poniendo especial atención en las sombras “para desvelar el enigma que encierra la pintura” (p. 12). Nos habla de ver desde dentro tras haber mirado el cuadro desde fuera. El presente trabajo de investigación se aproxima a las imágenes digitales de obras de arte desde el interior, valiéndose de protocolos de visión artificial. Frecuentemente la creatividad es acumulativa; suma, enriquece un ámbito de trabajo. A menudo el creador se siente extraño en su dominio, se cuestiona las tradiciones y se sumerge en las nuevas posibilidades que le proporcionan las técnicas, la mezcla de disciplinas. El artista y la necesidad de innovar a lo largo de la historia son una constante y así las revoluciones tecnológicas han comportado cambios en la representación de la realidad. Muchos artistas han sido capaces de utilizar en su favor los nuevos avances de su época; la perspectiva, los estudios de las propiedades de la luz y del color, la fotografía, el cine, el vídeo, la web, etc. Si en el año 1990 fue el proyecto Genoma, en el 2013 se han iniciado investigaciones multi­millonarias transcendentales para el estudio del cerebro humano. Por un lado, desde Esta­dos Unidos, el proyecto BRAIN (Brain Research through Advancing Innovative Neurotech­nologies) pretende hacer un mapa de cada neurona del cerebro humano y por otro lado,desde la Unión europea, arranca el proyecto HBP (Human Brain Project) que tienen como objetivo simular el cerebro a través de supercomputadores. Es seguro que en las próximas décadas la inteligencia artificial será fundamental y a su vez una fuente inestimable de nue­vas herramientas destinadas a la extracción y producción automática de conocimiento, de las cuales los artistas se podrán beneficiar. La visión por computador o visión artificial es un subcampo de la Inteligencia Artificial cuyo objetivo es programar a un ordenador para que “entienda” o “interprete” una escena o las características de una imagen. En este ámbito concreto, los investigadores se enfrentan a dos grandes problemas: en primer lugar a las limitaciones que supone registrar las carac­terísticas de las imágenes en un código abstracto, en segundo lugar a la dificultad de ela­borar interpretaciones a partir de este código generado. Para superar estos inconvenientes se han creado multitud de metodologías y se evalúan sus rendimientos. El objetivo de esta tesis es desarrollar un programa informático que implemente algoritmos de visión por computador que permitan, de manera automática, buscar analogías formales en grandes colecciones de imágenes de obras de artista abstractas, basadas únicamente en su contenido visual y sin poyo de anotación textual alguna. De esta manera se espera obtener una herramienta de utilidad tanto en la producción artística como en el análisis de obras de arte. En el capítulo 1, tras presentar las motivaciones personales que mueven este proyecto, se ponen de manifiesto las enormes diferencias que existen entre el lenguaje visual y el len­guaje verbal o textual; tanto a nivel de lectura como de interpretación, y la importancia que tendría la posibilidad de “dar voz a las imágenes” accediendo directamente a su contenido visual, sin el auxilio de textos y contextos. Se presentan como antecedentes del análisis de las formas, por un lado a D’Arcy Went­worth desde la biología, como estudioso de la descripción de la forma en términos físico-matemáticos, y por otro lado, desde la psicología, al estructuralismo y la Gestalt como precedentes de estudio de la sintaxis visual y el problema del significado contenido en las artes visuales; cómo y qué comunican las artes. El objeto de estudio de esta tesis son colecciones de obras de arte abstractas y se apela a la mirada del artista como recolector y productor de formas y analogías de sentido a partir de su entorno, utilizando principios estadísticos desde el momento en que observa la di­versidad, la procesa y abstrae el modelo que considera significativo. En cuanto a la interpretación del arte, al discurso que puede desprenderse del análisis de sus colecciones, se recuerda el intento visionario de Aby Warburg que, con su Atlas Mne­mosyne, ya intentó construir una memoria de la civilización europea en función únicamen­te del contenido de sus imágenes, sin apenas relato de apoyo. En este mismo capítulo se realiza un recorrido para situar la utilización en la actualidad de las metodologías de visión artificial en el análisis de obras de arte, precisando su profuso empleo en tareas de autentificación o para descubrir los métodos y herramientas utiliza­das en la historia de la pintura. En un apartado concreto se especifican los antecedentes de aplicación de estas técnicas en la clasificación de imágenes de artistas, algunos con la intención de categorizar estilos pictóricos, pero todos ellos aplicando métodos de apren­dizaje automático que requieren una clasificación previa realizada por expertos. Las novedades que aporta nuestro planteamiento en este contexto serían; por un lado la búsqueda de formas latentes en colecciones de arte abstracto, y por otro, la aplicación de un método totalmente automático que no requiere intervención previa de nadie para es­tablecer la taxonomía visual. Se anticipa el hecho de que la aplicación de la metodología objeto de estudio en la presente tesis para el análisis de arte abstracto es novedosa ya que no se encuentran antecedentes y únicamente se ha puesto a prueba en la clasificación de escenas naturales (fotografías de paisajes, escenas de interior, paisajes urbanos, detección de objetos). En estos contextos se han obtenido excelentes resultados que animan a la extensión de su uso. En nuestra hipótesis se presupone que en una colección de obras de artista abstractas existen constantes visuales, correlaciones formales que son susceptibles de ser calculadas mediante estas técnicas de visión por computador. La imagen como superficie de significado es explorada por la mirada artificial y el sentido viene dado por criterios matemáticos de similitud. En el capítulo 2 se explica exhaustivamente la metodología con el apoyo de los Anexos A y B, en los que se incluyen la formulación matemática y la terminología más empleada, respectivamente. Se explora un modelo concreto de descripción de imágenes utilizado en visión artificial cuyo enfoque consiste en colocar una malla regular de puntos de interés en la imagen y seleccionar alrededor de cada uno de sus nodos una región de píxeles para la que se calcula un descriptor invariante a la transformación de la imagen, que tiene en cuenta los gradientes de grises encontrados. Analizando las distancias entre el conjunto de descrip­tores de toda la colección de imágenes, se pueden agrupar en función de su similitud y estos grupos resultantes pasarán a determinar lo que llamamos palabras visuales. El total de palabras visuales de una colección de imágenes genera un vocabulario visual concreto del conjunto. El método se denomina Bag-of-Words (BoW, bolsa de palabras) porque re­presenta una imagen como una colección desordenada de características visuales locales . Se detalla la implementación de una nueva descripción de las características de la imagen que sí tiene en cuenta la distribución espacial, y posteriormente se explica cómo, una vez construido el vocabulario visual de la colección de imágenes, es posible obtener un nivel más de información utilizando modelos estadísticos que son capaces de discriminar patro­nes de distribución entre estas palabras. En este mismo capítulo se explican también en detalle otro tipo de descriptores que se han utilizado en la tesis para obtener unos resultados comparativos; los descriptores de textura de Haralick. En el capítulo 3, en primer lugar se pormenorizan los cuatro algoritmos desarrollados en la presente tesis: el de categorización supervisada, el de categorización no supervisada, el de agrupación basado en descriptores de textura de Haralick y el de cálculo de la distancia de Bhattacharyya. El uso de estas herramientas puede hacerse extensivo en el futuro al estudio de otras colecciones de obras de arte: proporcionando un punto de vista auxiliar, ampliando y facilitando las relaciones que se establecen entre obras de un mismo artista y diferentes periodos, y entre artistas de diferentes épocas. En segundo lugar, en el capítulo 3 del presente estudio se comentan las particularidades de los resultados obtenidos al aplicar los algoritmos informáticos en las colecciones de obras de arte a las que se ha tenido acceso en la tesis. Los tres experimentos que se han realizado en el presente estudio han sido: primero, un análisis sobre la colección de 2846 imágenes fotográficas que el artista Miquel Planas utiliza como fondo de ideación artística en el que, en primera instancia se etiquetó manualmente el conjunto de datos para entre­nar al sistema y así poder predecir la clasificación de imágenes problema; después, sobre la misma colección de imágenes, un estudio de clasificación totalmente automática en la que el sistema es capaz por si solo de detectar las categorías formales existentes; y por último se detallan los resultados de aplicar esta última metodología sobre la colección de 434 imágenes digitalizadas de pintura y obra gráfica (gran parte perteneciente a libros de artista) de Antoni Tàpies que posee su Fundación en Barcelona (Tàpies, 2001). El paso de imagen fotográfica a imagen de obra pictórica supone un nuevo grado de complejidad para el sistema dado que ya no se trata de imágenes extraídas directamente de la reali­dad en la que las palabras visuales se corresponden con elementos naturales como agua, piedras o cielo, sino que son construcciones del artista, lo que supone un reto mayor de categorización. En este capítulo también se especifican los resultados de aplicar métodos basados en distancias matemáticas entre imágenes en la colección de Tàpies y con ellos se dibuja un dendograma de toda la colección que resulta muy informativo acerca de las relaciones formales que se establecen entre grupos de imágenes y sobre su grado de similitud. Para finalizar se muestran y se comentan las agrupaciones obtenidas en base a los descriptores de textura de Haralick y se comparan con los resultados previos hallados con los descriptores invariantes a la transformación de la imagen. Finalmente en el capítulo 4 se describen y discuten las aportaciones y conclusiones de la tesis y se realizan propuestas para futuras aplicaciones.
This thesis supports María Zambrano’s notion that the world within a painting is “a special place to stop and stare”. Painting relates people to the world around them and Zambrano understood this from the point of view of the creator rather than the scholar or critic. To create, she argued, you need to be able to look; and to look, you need to pay special attention to the shadows, which is where we “unveil the enigma that is closed inside painting”. Zambrano talked about seeing paintings “from the inside” after looking at them from outside.By using computer vision techniques to study the digitised images of large painting collec­tions, the present study could also be said to examine paintings from the inside. Creation is often informed by accretion. Things come together and a line of activity is gradually embellished. But when the line becomes too narrow for comfort, the creator questions traditional practices and finds new techniques and hybrid disciplines. Throughout history, creating art and being innovative have been inseparable and this is why revolutions in technology are closely tied to our changing representation of reality. Many artists have found their own uses for technological innovation, whether borrowing from the advances in the early study of perspective, from the periods in history when light and colour were researched or from the advent of photography, film, video and the Internet. If 1990 was the year of the Human Genome Project, 2013 will be remembered for the US launch of the billion-dollar BRAIN Initiative (Brain Research through Advancing Innovative Neurotechnologies), which eventually hopes to map every neuron in the human brain, and the beginning of the EU’s equally costly Human Brain Project, which is creating new IT plat­forms in the field of brain simulation. In the decades to come, R&D in artificial intelligence is likely to generate a wide array of applications to extract and produce knowledge, which artists will be able to turn to their favour. A particularly important area of development will be computer vision, a subfield of artificial intelligence which programs computers to “understand” or “interpret” the content of a given scene or feature-rich image. Computer vision research currently faces two key issues: the limitations involved in recording the features of a given image in an abstract code and the difficulty of then interpreting the codes. The various models that have been developed and tested to negotiate these problems are regularly discussed and assessed in the literature. The objective of this thesis is to develop a series of computer vision programs to search for analogies in large datasets—in this case, collections of images of abstract paintings—based solely on their visual content without textual annotation. In this way, the researchers hope to develop a tool both for producing and analysing works of art. Chapter 1 begins by outlining the personal reasons why this research was undertaken and describes the major differences between visual language and verbal or textual language,evidenced by how we read and interpret each. It discusses the value to be derived from “letting images speak for themselves” and having direct access to the visual content of ab­stract paintings without textual annotation or contexts. It discusses antecedents in the history of the study of visual patterns, citing biologist D’Arcy Wentworth Thompson (who used physics and mathematics to study pattern-formation in the natural world), the visual syntax practised by structuralism and gestalt psychologies (which organise the elements in images into various groups), and the subject of how meaning is contained and expressed in the visual arts today. The researchers then describe the basic material this thesis uses—large collections or data­sets of images of abstract paintings—and proposes that in abstract art the painter’s eye becomes the eye of a gatherer and producer of patterns and analogies culled from that person’s immediate environment. It argues that artists use essentially statistical principles from the moment they observe diversity to the time they process and finally abstract this into models they consider meaningful. About how art is interpreted and the discourse that emerges from the analysis of art collec­tions, the researchers recall the visionary attempt by Aby Warburg’s Bilderatlas Mnemosyneto reconstruct an account of European civilisation almost solely on the basis of pictures and photographs, with hardly any recourse to textual annotation. Chapter 1 also observes that computer vision has already been employed to examine works of art, whether in the extensive use of fractal analysis in authentication studies or in the computer vision algorithms that help researchers study painters’ methods and tools in different periods of art history. One section describes the use of these techniques to clas­sify artists’ paintings, for example to group paintings by pictorial style, in all cases applying machine learning techniques to a prior classification performed by art experts. As the researchers then explain, this thesis finds two new uses for computer vision techniques in art. First, it proposes that computer vision can help detect latent patterns in collections of abstract paintings; second, the method it develops to establish a visual taxonomy is totally automated and requires no previous intervention. The researchers argue that this application is novel and that, to date, any similar research has been limited to natural scene classification (with photographs of landscapes, interiors, cityscapes) and object detection.But the excellent results in these areas have encouraged the present study, whose premise is the following: any collection of abstract art will contain visual constants and formal correlations that can be computed with computer vision techniques, and these can incorporate mathematical similarity to explore an abstract painting as a surface of meaning. Chapter 2 provides a thorough account of the research methodology and is supported by appendices A and B, which describe the most important mathematical formulae and termi­nology, respectively. This chapter studies a specific model for describing pictures with computer vision. This consists in positioning a regular mesh of interest points in the image and selecting, around each mesh node, a region of pixels to be assigned a descriptor that remains invariant under different transformations and anticipates grayscale. By analysing the distances between the set of descriptors across the entire image collection, images can be grouped by similarity and groups can determine what we call ‘visual words’, meaning the arrays of pixels within an image that would correspond to the words within a text. The total number of visual words in a collection of images generates a visual vocabulary specific to that collection.In the literature, this is referred to as the Bag-of-Words model (hereafter, BoW) because it ignores spatial relationships and simply represents the image as a disordered bag of local visual features. Next, the chapter describes the implementation of a new description of the features of the image that captures spatial information. It explains how, once the visual vocabulary of the collection of images has been constructed, another level of information can be obtained using statistical models which discriminate distribution patterns between the visual words. Finally, this chapter also reports on the use of Haralick’s texture descriptor to obtain comparative results. Chapter 3 starts by presenting the four algorithms developed in this thesis: the algorithm for supervised classification, the algorithm for unsupervised classification, the algorithm based on Haralick’s texture descriptor and the algorithm for calculating Bhattacharyya‘s distance. In future studies of other art collections, the use of these instruments may become more widespread, providing a helpful point of view, broadening and facilitating the asso­ciations established between the works of the same artist in different periods or between different artists and periods. Chapter 3 then considers the results obtained by applying the algorithms to specific art col­lections. Three experiments were performed. First, the researchers analysed a set of 2846 photographs used by the artist Miquel Planas as a basis for artistic ideation, manually labelling the dataset to train the system to predict the classification of problematic images. Second, the same collection of images was subjected to a totally automated classification study in which the system autonomously detected the existing formal categories. Third, this same procedure was applied to a collection of 434 digitised images, mainly art book reproduc­tions, of paintings and graphic works by Antoni Tàpies that belonged to the Tàpies Foundation in Barcelona (Tàpies, 2001). In this third experiment, the progression from photographs (Planas) to abstract paintings (Tàpies) Involved a new and complex challenge, given that the system had to classify images whose visual words (pixel arrays) did not identify natural features of the real world (‘water’, ‘stones’, ‘sky’) but rather the artist’s abstract constructions. This chapter also reports on the results of applying methods based on mathematical distances between images in the Tàpies collection and draws a dendogram of all the collec­tion. This provides valuable insight on the formal relationships between groups of images and their degree of similarity. Chapter 3 concludes by analysing the groupings obtained with Haralick’s texture descriptor compared with the prior findings obtained with descriptors that remained invariant under different transformations. Finally, Chapter 4 discusses the contribution made by this study, draws conclusions and proposes future applications.
APA, Harvard, Vancouver, ISO, and other styles
21

Moreno, García Carlos Francisco. "Learning the Consensus of Multiple Correspondences between Data Structures." Doctoral thesis, Universitat Rovira i Virgili, 2016. http://hdl.handle.net/10803/396142.

Full text
Abstract:
En aquesta tesi presentem un marc de treball per aprendre el consens donades múltiples correspondències. S'assumeix que les diferents parts involucrades han generat aquestes correspondències per separat, i el nostre sistema actua com un mecanisme que calibra diferents característiques i considera diferents paràmetres per aprendre les millors assignacions i així, conformar una correspondència amb la major precisió possible a costa d'un cost computacional raonable. Aquest marc de treball de consens és presentat en una forma gradual, començant pels desenvolupaments més bàsics que utilitzaven exclusivament conceptes ben definits o únicament un parell de correspondències, fins al model final que és capaç de considerar múltiples correspondències, amb la capacitat d'aprendre automàticament alguns paràmetres de ponderació. Cada pas d'aquest marc de treball és avaluat fent servir bases de dades de naturalesa variada per demostrar efectivament que és possible tractar diferents escenaris de matching. Addicionalment, dos avanços suplementaris relacionats amb correspondències es presenten en aquest treball. En primer lloc, una nova mètrica de distància per correspondències s'ha desenvolupat, la qual va derivar en una nova estratègia per a la cerca de mitjanes ponderades. En segon lloc, un marc de treball específicament dissenyat per a generar correspondències al camp del registre d'imatges s'ha modelat, on es considera que una de les imatges és una imatge completa, i l'altra és una mostra petita d'aquesta. La conclusió presenta noves percepcions de com el nostre marc de treball de consens pot ser millorada, i com els dos desenvolupaments paral·lels poden convergir amb el marc de treball de consens.
En esta tesis presentamos un marco de trabajo para aprender el consenso dadas múltiples correspondencias. Se asume que las distintas partes involucradas han generado dichas correspondencias por separado, y nuestro sistema actúa como un mecanismo que calibra distintas características y considera diferentes parámetros para aprender las mejores asignaciones y así, conformar una correspondencia con la mayor precisión posible a expensas de un costo computacional razonable. El marco de trabajo de consenso es presentado en una forma gradual, comenzando por los acercamientos más básicos que utilizaban exclusivamente conceptos bien definidos o únicamente un par de correspondencias, hasta el modelo final que es capaz de considerar múltiples correspondencias, con la capacidad de aprender automáticamente algunos parámetros de ponderación. Cada paso de este marco de trabajo es evaluado usando bases de datos de naturaleza variada para demostrar efectivamente que es posible tratar diferentes escenarios de matching. Adicionalmente, dos avances suplementarios relacionados con correspondencias son presentados en este trabajo. En primer lugar, una nueva métrica de distancia para correspondencias ha sido desarrollada, la cual derivó en una nueva estrategia para la búsqueda de medias ponderadas. En segundo lugar, un marco de trabajo específicamente diseñado para generar correspondencias en el campo del registro de imágenes ha sido establecida, donde se considera que una de las imágenes es una imagen completa, y la otra es una muestra pequeña de ésta. La conclusión presenta nuevas percepciones de cómo nuestro marco de trabajo de consenso puede ser mejorada, y cómo los dos desarrollos paralelos pueden converger con éste.
In this work, we present a framework to learn the consensus given multiple correspondences. It is assumed that the several parties involved have generated separately these correspondences, and our system acts as a mechanism that gauges several characteristics and considers different parameters to learn the best mappings and thus, conform a correspondence with the highest possible accuracy at the expense of a reasonable computational cost. The consensus framework is presented in a gradual form, starting from the most basic approaches that used exclusively well-known concepts or only two correspondences, until the final model which is able to consider multiple correspondences, with the capability of automatically learning some weighting parameters. Each step of the framework is evaluated using databases of varied nature to effectively demonstrate that it is capable to address different matching scenarios. In addition, two supplementary advances related on correspondences are presented in this work. Firstly, a new distance metric for correspondences has been developed, which lead to a new strategy for the weighted mean correspondence search. Secondly, a framework specifically designed for correspondence generation in the image registration field has been established, where it is considered that one of the images is a full image, and the other one is a small sample of it. The conclusion presents insights of how our consensus framework can be enhanced, and how these two parallel developments can converge with it.
APA, Harvard, Vancouver, ISO, and other styles
22

Romero, Cortijo Anna Maria. "Mapeado y localización topológicos mediante información visual." Doctoral thesis, Universidad de Alicante, 2013. http://hdl.handle.net/10045/30275.

Full text
Abstract:
En los últimos años, la solución al problema del SLAM (Simultaneous Localization and Mapping, Localización y Mapeado Simultáneo) ha sido ampliamente tratado ya que es una de las tareas más importantes dentro del campo de la robótica móvil. El SLAM consiste en crear el mapa del entorno desconocido por el cual el robot se está moviendo y, al mismo tiempo, localizar a dicho robot dentro del mapa. La gran mayoría de las soluciones aportadas por la literatura actual permiten el uso de cualquier sensor que capture información del entorno. A pesar de no ofrecer la misma precisión que un láser 3D, las cámaras están siendo cada vez más utilizadas para la resolución de problemas de SLAM y navegación además, se está produciendo un auge en el uso de cámaras omnidireccionales (cámaras que capturan imágenes de 360#) ya que la información capturada (conocida como características visuales) es mucho mayor que la que ofrece una cámara normal. Aunque se puede utilizar visión para resolver el SLAM de tipo métrico (construye mapas donde se conoce la posición exacta de los obstáculos y del robot), las soluciones que utilizan visión para resolver el SLAM topológico son más comunes. El SLAM topológico se basa en la construcción del mapa de forma similar a la forma en que los humanos nos orientamos en nuestro entorno. En el SLAM topológico se construyen mapas topológicos que representan el entorno como una serie de puntos (zonas, regiones, localizaciones) donde es posible encontrar al robot y almacenan las relaciones de vecindad entre los distintos puntos del mapa, es decir, permite conocer cómo llegar de un punto a otro del entorno. En esta tesis proponemos el uso de imágenes omnidireccionales para resolver el problema del mapeado y la localización topológica a partir de dos aproximaciones distintas: la primera desde una perspectiva incremental y no supervisada y la segunda des del enfoque del aprendizaje supervisado. El primer método que proponemos es un algoritmo de localización y mapeado topológico incremental y no supervisado basado en información viii visual. El mapa creado por dicho algoritmo es un grafo donde los puntos (zonas) del entorno se representan por nodos y las relaciones de vecindad son las aristas del grafo. Puesto que el algoritmo utiliza imágenes omnidireccionales, los nodos agrupan todas aquellas imágenes que describen la misma escena y, por tanto, comparten características visuales parecidas. Así, para la construcción de mapas topológicos con información visual, el algoritmo de mapeado topológico necesita resolver en primer lugar el problema de reconocimiento de escenas o cierre de ciclo. Nuestro algoritmo de comparación de imágenes se basa en la estructura local que forman las características visuales para establecer cuáles son los emparejamientos de características válidos. Para eliminar los falsos positivos que aparecen al emparejar las características individualmente, planteamos la utilización de grafos como estructuras que proporcionan información útil sobre las relaciones de vecindad de las características o puntos invariantes. De este modo comprobamos la consistencia no solamente de un único emparejamiento, sino la de un conjunto de características que tienen algún tipo de relación. El segundo método propuesto es un algoritmo de aprendizaje supervisado que selecciona las mejores características que describen a cada nodo y un algoritmo de localización basado en el mapa topológico aprendido. En los mapas topológicos cada nodo está compuesto por varias imágenes que describen una zona del entorno. La selección de una única imagen para definir el nodo puede no ser suficiente para describirlo en su totalidad, mientras que el uso de todas las imágenes puede consumir un tiempo prohibitivo. Nuestro método de aprendizaje del mapa topológico selecciona las mejores características (entre todas las imágenes de cada nodo) que describen a los nodos. El algoritmo de localización utiliza las características seleccionadas para determinar cuál es el nodo del mapa al que pertenece la imagen capturada. Para conseguir los mejores resultados en los dos métodos propuestos, estudiaremos diferentes algoritmos de segmentación de la imagen en regiones además de los algoritmos de extracción de características visuales más utilizados en la literatura.
APA, Harvard, Vancouver, ISO, and other styles
23

Ivorra, Martínez Eugenio. "Desarrollo de técnicas de visión hiperespectral y tridimensional para el sector agroalimentario." Doctoral thesis, Universitat Politècnica de València, 2015. http://hdl.handle.net/10251/48541.

Full text
Abstract:
En la industria alimentaria, como en cualquier otra industria, la mejora de sus procesos productivos es un factor clave para mantener su competitividad e incrementar sus beneficios. Para cumplir este objetivo es necesario incorporar nuevos métodos que mejoren la calidad y eficiencia de estos procesos. Además, en los alimentos actuales cada vez hay una mayor distancia entre el lugar de producción del alimento y el lugar donde se consume aumentando las posibilidades de que se contamine o exista una incertidumbre acerca de su estado. Esto exige sistemas de calidad que puedan inspeccionar el 100% de los alimentos de una forma económica y no destructiva. En esta tesis se propone utilizar para ello técnicas hiperespectrales y tridimensionales. Se ha hecho una revisión del estado del arte de las diferentes técnicas de obtención de información tridimensional así como de sus usos en la industria alimentaria. En base a ello, se han seleccionado las técnicas basadas en luz estructurada (SL), estéreo-visión y tiempo de vuelo (TOF) como las técnicas más apropiadas. Se ha realizado una comparativa entre SL y TOF para la medida en línea de producción de 3 alimentos de origen animal y 3 de origen vegetal. De este estudio se concluye que ambas técnicas son válidas teniendo unos R2 CV medios de 0.85 el TOF y de 0.94 el SL para estimar el volumen de las muestras. Se profundizó en el estudio de SL mediante la resolución del problema de segmentación de raíces en tubérculos. Se trata de un problema difícil de resolver por técnicas clásicas de visión por computador en 2D debido a que las raíces tienen un color muy parecido a los tubérculos. Este problema se resolvió utilizando un modelo Adaboost que clasificó los puntos tridimensionales en raíces o puntos de superficie basándose en un vector de descriptores 3D. En este estudio, se llegó a alcanzar un porcentaje de acierto del 94%. Otro problema resuelto fue la determinación de la compacidad de racimos de uva basándose en descriptores 3D usando técnicas de estéreo visión. Se trata de un componente de calidad complicado de estimar debido al problema de subjetividad ya que actualmente se realiza de forma manual por un panel de expertos siguiendo el descriptor de la OIV Nº204. El método semi-automático desarrollado utiliza nuevos descriptores 3D y un modelo SVM, obteniendo un R2 en predicción de 0.8 para 100 racimos de 10 variedades diferentes. Por otro lado, se ha desarrollado una metodología para la obtención de resultados a partir de imágenes hiperespectrales. Esta metodología se ha aplicado en 3 casos prácticos de diferentes alimentos para medir su frescura, entendiendo frescura como el grado de deterioro de los alimentos respecto a la calidad inicial de los mismos. La frescura actualmente se estima de forma analítica como una combinación de una serie de análisis físico-químicos destructivos. Mediante la captura de imágenes hiperespectrales en el rango SW-NIR se estimó la frescura de los siguientes alimentos en sus envases comerciales con distintos tipos de procesado: pechugas de pollo fileteadas, pavo cocido, jamón cocido y salmón ahumado. Se empezó con la aplicación básica de la metodología desarrollada en el pavo y el jamón cocidos donde se consiguieron unos resultados medios de validación cruzada de R2 0.93 y de 0.9 respectivamente utilizando dos modelos PLSDA para correlar el tiempo con los espectros adquiridos. El siguiente caso práctico se realizó en pechugas de pollo, donde se amplió la metodología básica efectuando una selección de longitudes de onda mediante el algoritmo IPLSDA que redujo de 54 a 13 las variables al mismo tiempo que mejoró los resultados de los modelos PLSDA para estimar la frescura de R2 CV 0.77 a 0.85. También se estudió la influencia del film en cuanto al análisis de frescura con técnicas hiperespectrales, donde se concluyó que éste únicamente atenúa el espectro sin afectar a los resultados. En el último caso práctico se determinó si el salmón ahumado estaba caducado mediante imágenes hiperespectrales. Este caso se enfocó en la fase de segmentación espacial donde se obtuvo los espectros del tejido magro y del tejido graso por separado. Para ello se transformó la imagen hiperespectral a una imagen 2D en RGB empleando un modelo calculado del sistema hiperespectral. Una vez transformadas a imágenes 2D, se segmento la imagen mediante un algoritmo basado en segmentación por color. Se obtuvo un resultado de R2 CV=0.83 con la segmentación espacial propuesta. En este estudió se demostró la necesidad de realizar una buena segmentación espacial en los casos en que las muestras no son homogéneas como es el caso de los diferentes tejidos del salmón. La principal aportación de la tesis es la metodología desarrollada para la combinación de técnicas 3D e hiperespectrales en el sector alimentario. La gran ventaja que se consigue con estos nuevos procedimientos es disponer de una resolución espacial elevada mediante las técnicas 3D y una muy buena resolución espectral con las técnicas hiperespectrales. En esta tesis se presentan dos de las muchas posibilidades de unir ambas técnicas. En la primera de ellas se analizó la información tridimensional del proceso de fermentación de masas de harina. Esta información tridimensional se empleó para distinguir entre harinas supuestamente iguales (según los análisis realizados en la industria) que se comportaron de forma distinta durante la fermentación. Mediante la metodología desarrollada que emplea ambas técnicas, se consiguió predecir a partir de la información hiperespectrales el comportamiento dinámico que tuvo la muestra durante la fermentación. El conocimiento de este comportamiento es de gran interés puesto que por ejemplo permite ahorrar dinero agrupando muestras con tiempos similares de fermentación o seleccionando mejor la materia prima. El segundo caso donde se investigó y desarrolló esta conjunción de técnicas se basó en aprovechar la gran resolución espacial obtenida de las técnicas 3D. Concretamente, se utilizó en la fase de segmentación espacial al procesar imágenes hiperespectrales de dorada. El objetivo de la segmentación en base a la información tridimensional fue obtener la información espectral de zonas específicas del pescado como los ojos donde se puede estimar mejor la frescura. Los resultados de R2 CV fueron de 0.844 al correlacionar los espectros obtenidos de los ojos con el tiempo mediante un PLSDA. El desarrollo de estas técnicas tendrá un gran impacto en la industria agroalimentaria en un futuro próximo, ya que supone una clara innovación tecnológica respecto a realizar análisis físico-químicos destructivos en un subconjunto de las muestras. Estas técnicas permiten realizar el control de calidad y de seguridad de todas las muestras de forma no destructiva mejorando por tanto la calidad, rapidez, seguridad, fiabilidad y coste de los diferentes procesos de la industria alimentaria.
Ivorra Martínez, E. (2015). Desarrollo de técnicas de visión hiperespectral y tridimensional para el sector agroalimentario [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/48541
TESIS
APA, Harvard, Vancouver, ISO, and other styles
24

Sanz, Kirbis David. "Aplicación de las técnicas de visión artificial como herramientas de expresión audiovisual en el campo del cine interactivo." Doctoral thesis, Universitat Politècnica de València, 2014. http://hdl.handle.net/10251/36531.

Full text
Abstract:
En este estudio práctico sobre nuevas estrategias de lenguaje audiovisual se utilizan sistemas innovadores de hardware y software de visión artificial a la hora de buscar otras aplicaciones artísticas de los recursos cinematográficos tanto en la adquisición (encuadre, movimientos, fuera de campo, etc.) como en el montaje (fundidos, cortes, elipsis, metáforas, etc.). La hipótesis que aquí se propone es que las herramientas y técnicas de visión artificial pueden ser utilizadas para generar nuevos lenguajes audiovisuales en el campo del cine interactivo. Para demostrar esta hipótesis se siguen una serie de pasos consecutivos que han permitido llevar una investigación progresiva sobre la base de un estudio de referentes artísticos. A partir de este estudio se han sintetizado una serie de conceptos clave identificados tanto en las obras artísticas como en los debates críticos referenciados. Con estos conceptos como guía se han elaborado una serie de estudios experimentales previos al desarrollo de los prototipos que finalmente componen el sistema completo expuesto al público tras ser finalizado. Tanto de las pruebas de campo de los estudios experimentales como de la exposición del prototipo final se extrajeron una serie de conclusiones a modo de evaluación de los resultados globales del estudio. Finalmente, a partir de estas conclusiones se han perfilado posibles líneas futuras de investigación. Como resultado, por una parte se han obtenido relaciones entre sonido e imagen que son singulares en el empleo de recursos como el ritmo de cambio de plano, la interdependencia sonido-imagen o el tipo de sincronía sonido-imagen en comparación con los audiovisuales desarrollados habitualmente por otros medios en contextos similares; por otra parte se ha demostrado, por medio de una serie de experimentos de campo, que depositar parcialmente la responsabilidad creativa de audiovisuales en un dispositivo automático puede proporcionar nuevas experiencias estéticas al espectador.
Sanz Kirbis, D. (2014). Aplicación de las técnicas de visión artificial como herramientas de expresión audiovisual en el campo del cine interactivo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/36531
TESIS
APA, Harvard, Vancouver, ISO, and other styles
25

Mauri, Loba César. "Avances en sistremas interactivos para personas con parálisis cerebral." Doctoral thesis, Universitat Rovira i Virgili, 2014. http://hdl.handle.net/10803/306266.

Full text
Abstract:
La Paràlisi Cerebral és la discapacitat motora més comuna durant la infància i consisteix en una alteració de la mobilitat deguda a una lesió en el sistema nerviós central produïda durant l'etapa prenatal, perinatal o infantil. Aquestes lesions, que no són una malaltia, no evolucionen, però les seves conseqüències sí que interfereixen en el desenvolupament de la persona. Les dificultats motores, que solen anar acompanyades en moltes ocasions per problemes sensorials, alteracions en l'atenció, cognició i altres, suposen un handicap per a l'exploració de l'entorn, la participació en les activitats quotidianes i les relacions amb els iguals, que són la base de l'aprenentatge i el desenvolupament. Aquesta tesi, que s'enquadra dins de la disciplina de la Interacció Persona-Ordinador (IPO), se centra en la concepció, aplicació i avaluació de sistemes interactius per a persones amb paràlisi cerebral. En primer lloc fem una revisió de l' estat de l'art en sistemes interactius audiovisuals per a persones amb paràlisi cerebral. A continuació realitzem una proposta de diferents mètodes per a l'anàlisi de la qualitat de la interacció. Després abordem diverses propostes de sistemes interactius basats en visió artificial dissenyats per a persones amb paràlisi cerebral. D'entre aquestes, fem especial èmfasi en una proposta de sistema interactiu audiovisual orientat a persones amb trastorns físics, cognitius i sensorials en graus moderat i sever que ha demostrat ser assequible per a moltes d'aquestes persones i els proporciona una experiència lúdica motivadora, que facilita el treball de certes competències per part dels professionals.
La Parálisis Cerebral es la discapacidad motora más común durante la infancia y consiste en una alteración de la movilidad debida a una lesión en el sistema nervioso central producida durante la etapa prenatal, perinatal o infantil. Estas lesiones, que no son una enfermedad, no evolucionan, pero sus consecuencias sí que interfieren en el desarrollo de la persona. Las dificultades motoras, que suelen ir acompañadas en muchas ocasiones por problemas sensoriales, alteraciones en la atención, cognición y otros, suponen un hándicap para la exploración del entorno, la participación en las actividades cotidianas y las relaciones con los iguales, que son la base del aprendizaje y el desarrollo. Esta tesis, que se encuadra dentro de la disciplina de la Interacción Persona-Ordenador (IPO), se centra en la concepción, aplicación y evaluación de sistemas interactivos para personas con parálisis cerebral. En primer lugar hacemos una revisión del estado del arte en sistemas interactivos audiovisuales para personas con parálisis cerebral. A continuación realizamos una propuesta de distintos métodos para el análisis de la calidad de la interacción. Después abordamos varias propuestas de sistemas interactivos basados en visión artificial diseñados para personas con parálisis cerebral. De entre éstas, hacemos especial énfasis en una propuesta de sistema interactivo audiovisual orientado a personas con trastornos físicos, cognitivos y sensoriales en grados moderado y severo que ha demostrado ser asequible para muchas de estas personas y les proporciona una experiencia lúdica motivadora, que facilita el trabajo de ciertas competencias por parte de los profesionales.
Cerebral Palsy is the most common motor disability in childhood and entails impaired mobility due to damage to the central nervous system just before or during the birth, or during the early childhood. These lesions, which are not a disease, are not progressive, but its consequences interfere with the development of the child. Motor impairments often come with other difficulties such as alterations in attention, cognition, and others. Such deficiencies are a handicap for the exploration of the environment, for the participation in daily activities and for the relationship with peers which are the basis for learning and development. This thesis, which falls within the Human-Computer Interaction (HCI) scope, focuses on the design, implementation and evaluation of interactive systems for people with cerebral palsy. Firstly, we review the state of the art in audio-visual interactive systems for people with cerebral palsy. Secondly, we propose different methods for analysing the quality of the interaction. Finally, we propose several interactive systems for people with cerebral palsy based on computer vision, among which we put special emphasis on an interactive audio-visual proposal aimed at people with physical, cognitive and sensory impairments in moderate and severe degrees. This system proved to be attainable for many of these people and to provide a motivating playing experience that allows professionals to develop some skills on the users.
APA, Harvard, Vancouver, ISO, and other styles
26

Andreu, Cabedo Yasmina. "Face gender classification under realistic conditions. Dealing with neutral, expressive and partially occluded faces." Doctoral thesis, Universitat Jaume I, 2014. http://hdl.handle.net/10803/669061.

Full text
Abstract:
Esta tesis se centra en la clasificación de género a partir de imágenes faciales tratando el problema con un enfoque más realista que el tradicionalmente utilizado en la literatura. En entornos reales, pueden surgir varios problemas debido a la falta de control sobre los sujetos y su entorno. Además es probable que las características de los individuos, como son su edad y raza, varíen significativamente. Al mismo tiempo, los sujetos pueden manifestar sus emociones mediante expresiones faciales así como llevar puestos complementos que cubran partes de su cara, lo cual provoca que las imágenes faciales contengan ciertas distorsiones. Estos son los principales problemas, junto con otras complicaciones como las causadas por cambios de iluminación y detecciones imprecisas de la cara, que abordamos en este trabajo. Comenzamos estudiando la posibilidad de clasificar el género dadas partes de la cara, como son los ojos, la nariz, la boca y el mentón. A partir de los resultados experimentales que se obtuvieron utilizando dos bases de datos de imágenes faciales, concluimos que los ojos eran la región de la cara que proporcionaba resultados más robustos y que distintas partes de la cara contienen información complementaria sobre el género de la persona. Seguidamente, propusimos un nuevo tipo de características locales y un método de clasificación basado en vecindades. Las características propuestas se basan en valores de contraste locales, aunque manteniendo información espacial. El método de clasificación consiste en una combinación de clasificadores donde cada clasificador base se especializa en una región concreta de la cara. Ambas propuestas se compararon con las técnicas más utilizadas en este campo mediante un completo análisis experimental utilizando imágenes de caras neutras y expresivas y también imágenes de caras con gafas de sol y bufandas. Los resultados empíricos indican que todas las soluciones resuelven la tarea de forma estadísticamente equivalente cuando las imágenes de entrenamiento y test tienen las mismas características. Sin embargo, cuando los conjuntos de entrenamiento y test contienen imágenes de distintos tipos, nuestras propuestas muestran un comportamiento más robusto que el resto. Por último, presentamos un estudio estadístico de la influencia de la resolución de las imágenes en la clasificación de género. Los resultados mostraron que las resoluciones óptimas están entre 22x18 y 90x72 píxeles. Sin embargo, imágenes de sólo 3x2 píxeles proporcionan información útil para comenzar a distinguir entre géneros.
APA, Harvard, Vancouver, ISO, and other styles
27

Azorin-Lopez, Jorge. "Modelado de sistemas para visión de objetos especulares: inspección visual automática en producción industrial." Doctoral thesis, Universidad de Alicante, 2007. http://hdl.handle.net/10045/7751.

Full text
APA, Harvard, Vancouver, ISO, and other styles
28

Sanz, Valero Pedro José. "Razonamiento geométrico basado en visión para la determinación y ejecución del agarre en robots manipuladores." Doctoral thesis, Universitat Jaume I, 1996. http://hdl.handle.net/10803/10378.

Full text
Abstract:
Se presenta un sistema capaz de coordinar una pinza de dedos plano-paralelos y un sistema de visión con el objetivo de determinar puntos de agarre bajo condiciones de estabilidad.
La elección de puntos de agarre se realiza mediante una nueva heurística que trata de manejar todo tipo de objetos planos con centroide exterior o interior, permitiendo agujeros. Sólo se requieren dos características basadas en los momentos, centroide y dirección del eje principal, obtenidos a partir de una representación del código de cadena de Freeman del contorno. Los resultados son parámetros visuales exclusivamente, expresados en coordenadas visuales (píxeles).
Dichos algoritmos se han implementado en un robot manipulador con 4 GDL y fijando una cámara CCD en su muñeca. El sistema de control utiliza realimentación visual, consiguiendo incrementar la precisión hasta el límite del sistema de visión utilizado.
APA, Harvard, Vancouver, ISO, and other styles
29

Piscoya, Ferreñan Jesus Enrique. "Sistema de visión artificial para apoyar en la identificación de plagas y enfermedades del cultivo de sandía en el distrito de Ferreñafe." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2019. http://hdl.handle.net/20.500.12423/2356.

Full text
Abstract:
La comunidad de agricultores sembradores de Sandía, cada día se enfrentan a mayores retos que implican el manejo de enormes volúmenes de datos que crecen de manera exponencial en tamaño y complejidad, es así que uno de los problemas en los cultivos es la correcta identificación y suministración de agroquímicos que se les provee a las plagas o enfermedades en el cultivo de Sandía. La identificación hasta hoy se realiza de forma visual por los agricultores siendo una limitante en cuanto al correcto reconocimiento de la plaga o enfermedad y por consecuencia la utilización de un agroquímico incorrecto. Este proyecto desarrolló una aplicación móvil para identificar y brindar el agroquímico correcto para las plagas o enfermedades del cultivo de Sandía en el distrito de Ferreñafe. Utilizando características consecuentes del agente hospedante en el cultivo de sandía y los algoritmos de la inteligencia artificial, se pretende hallar patrones relevantes en las imágenes de forma rápida y confiable. El software realizará una búsqueda en los repositorios de datos previamente registrados, una vez capturada la imagen, esta se procesará en busca de patrones que los compare e identifique. Así mismo se realizará un análisis interno para identificar qué tipo de plaga o enfermedad está atacando el cultivo de sandía. Esto apoyará a los agricultores a la correcta identificación de plagas o enfermedades con la intención de suministrar el agroquímico correcto.
APA, Harvard, Vancouver, ISO, and other styles
30

Castro, Silupu Wilson Manuel. "Aplicación de la tecnología de imágenes hiperespectrales al control de calidad de productos agroalimentarios de la región de Amazonas (Perú)." Doctoral thesis, Universitat Politècnica de València, 2016. http://hdl.handle.net/10251/63250.

Full text
Abstract:
[EN] The evaluation of the quality of food products is a constant concern for the different actors in the production chain and requires the use of a number of analytical methods: physical, chemical, biochemical and sensory; which are destructive, time-consuming, are expensive, laborious and, in the case of sensory, subjective, which makes its application process online. Unlike traditional methodologies, hyperspectral imaging technology emerges as a non-destructive tool for quality assessment. In the Amazon Region (Peru) quality evaluation is performed with traditional methodologies, which has significant limitations as, for example, late detection of infections in crops, if coffee rust; the inability to determine adulteration, if the presence of starch in cheese; or, the subjective classification as quality standards, case marbling of beef. On the other hand, the application of hyperspectral imaging technology requires a series of steps for obtaining, processing and analysing information, which have been developed and implemented by various researchers, but have not been unified in one system and procedures for use by users unfamiliar with the depth of the computer analysis. In this context, this thesis has been planned in order to develop an IT application for the use of hyperspectral imaging technology to assess the quality of three food products in the Amazon Region (Peru). For this purpose it was necessary to create a number of subsystems, modules and routines, which were subsequently implemented by user windows (Guides) and functions using the mathematical software Matlab 2010ª. The applicability of the developed system was tested in three case studies: detecting the degree of rust infection in samples of coffee leaves detecting adulteration in samples of fresh cheese with starch at different concentrations, and classification according to samples marbling standards beef. As a result of the system development, the developed IT toolswere implemented in a software that allows easy use of them and that is compatible with the system by reflectance imaging. As for the cases studied, the analysis results of early infection coffee leaf rust, showed statistically significant differences from the analysis judges attributable to the increased sensitivity of the system. For the analysis of fresh cheese adulteration has been shown that the application of the hyperspectral imaging technique to detect adulteration cornmeal in cheese, based on the relationship between the reflectance and the starch content in samples of fresh cheese. Also, the implemented methodology, based on hyperspectral imaging technology, proved to be valid for the determination of the quality of beef based on the Japanese standard of marbling. An advanced version of the software could be patented and transferred to industry, at a later stage to the realization of this thesis. Such software could be designed so that could include progressively new useful tools in quality control of other agro-food processes.
[ES] La evaluación de la calidad de los productos agroalimentarios es una preocupación constante para los diversos actores de la cadena agroproductiva y requiere del uso de una serie de métodos de análisis: físicos, químicos, bioquímicos y sensoriales; los cuales son destructivos, demandan mucho tiempo, son costosos, laboriosos y, en el caso de los sensoriales, subjetivos, lo cual dificulta su aplicación en procesos en línea. Frente a las metodologías tradicionales, la tecnología de imágenes hiperespectrales surge como una herramienta no destructiva de evaluación de la calidad. En la Región Amazonas (Perú) la evaluación de la calidad se realiza con las metodologías tradicionales, lo cual presenta importantes limitaciones como, por ejemplo, la detección tardía de infecciones en cultivos, caso de la roya del café; la imposibilidad de determinar adulteraciones, caso de la presencia de almidón en queso fresco; o bien, la clasificación subjetiva según estándares de calidad, caso del marmoleado de carne de res. Por otro lado, la aplicación de la tecnología de imágenes hiperespectrales requiere de una serie de pasos para la obtención, procesado y análisis de la información, los cuales han sido desarrollados y aplicados por diversos investigadores, pero que no han sido unificados en unsistema y procedimiento para su uso por usuarios no familiarizados con la profundidad del análisis informático. En este contexto, la presente tesis doctoral se plantea con el fin de desarrollar una aplicación informática para el uso de la tecnología de imágenes hiperespectrales en la evaluación de la calidad de tres productos agroalimentarios de la Región Amazonas (Perú). Para ello, fue necesario crear una serie de subsistemas, módulos y rutinas, que posteriormente fueron implementadas mediante ventanas de usuario (Guides) y funciones, empleando el software matemático Matlab 2010ª. La aplicabilidad del sistema desarrollado se probó en tres casos de estudio: detección del grado de infección por roya en muestras de hojas de café, detección de la adulteración en muestras de queso fresco con almidón a distintas concentraciones, y clasificación según estándares de marmoleado de muestras de carne de res. Como resultado del desarrollo del sistema, las herramientas informáticas desarrolladas se implementaron en un software que permite fácil uso de las mismas y que es compatible con el sistema de adquisición de imágenes mediante en modo de reflactancia. En cuanto a los casos estudiados, los resultados del análisis de la infección temprana por roya en hojas de café, muestrandiferencias estadísticamente significativas con respecto al análisis por jueces, atribuiblesa la mayor sensibilidad del sistema. Para el análisis de la adulteración queso fresco se ha demostrado que la aplicación de la técnica de imágenes hiperespectrales permite detectar la adulteración por harina de maíz en queso fresco, en base a la relación entre la reflactanciay el contenido de almidón en muestras de queso fresco. Asimismo, la metodología implementada, basada en tecnología de imágenes hiperespectrales, probo ser válida para la determinación de la calidad de carne de res en base a la norma japonesa de marmoleado. Una versión avanzada del software podría ser patentada y transferida a la industria, en una fase posterior a la realización de esta tesis doctoral. Dicho software podría ser diseñado de tal forma que pudiera incluir de forma progresiva nuevas herramientas útiles en el control de calidad de otros procesos agroalimentarios.
[CAT] L'avaluació de la qualitat dels productes agroalimentaris és una preocupació constant per als diversos actors de la cadenaagroproductiva i requereix de l'ús d'una sèrie de mètodes d'anàlisis: físics, químics, bioquímics i sensorials; els quals són destructius, demanden molt temps, són costosos, laboriosos i, en el cas dels sensorials, subjectius, la qual cosa dificulta la seua aplicació en processos en línia. Enfront de les metodologies tradicionals, la tecnologia d'imatges hiperespectrals sorgeix com una eina no destructiva d'avaluació de la qualitat. En la Regió Amazones (Perú) l'avaluació de la qualitat es realitza amb les metodologies tradicionals, la qual cosa presenta importants limitacions com, per exemple, la detecció tardana d'infeccions en cultius, cas de la roia del cafè; la impossibilitat de determinar adulteracions, cas de la presència de midó en formatge fresc; o bé, la classificació subjectiva segons estàndards de qualitat, cas del marmolejat de carn de cap de bestiar. D'altra banda, l'aplicació de la tecnologia d'imatges hiperespectrals requereix d'una sèrie de passos per a l'obtenció, processament i anàlisi de la informació, els quals han sigut desenvolupats i aplicats per diversos investigadors, però que no han sigut unificats en un únic sistema i procediment per al seu ús per usuaris no familiaritzats amb la profunditat de l'anàlisi informàtica. En aquest context, la present tesi doctoral es planteja amb la finalitat de desenvolupar una aplicació informàtica per a l'ús de la tecnologia d'imatgeshiperespectrals en l'avaluació de la qualitat de tres productes agroalimentaris de la Regió Amazones (Perú). Per a açò, va ser necessari crear una sèrie de subsistemes, mòduls i rutines, que posteriorment van ser implementades mitjançant finestres d'usuari (Guides) i funcions, emprant el programari matemàtic Matlab 2010ª. L'aplicabilitat del sistema desenvolupat es va provar en tres casos d'estudi: detecció del grau d'infecció per roia en mostres de fulles de cafè, detecció de l'adulteració en mostres de formatge fresc amb midó a diferents concentracions, i classificació segons estàndards de marmolejat de mostres de carn de cap de bestiar. Com a resultat del desenvolupament del sistema, les eines informàtiques desenvolupades es van implementar en un programari que permet un fàcil ús de les mateixes i que és compatible amb el sistema d'adquisició d'imatges mitjançant reflactància. Quant als casos estudiats, els resultats de l'anàlisi de la infecció primerenca per roia en fulles de cafè, mostren diferències estadísticament significatives pel que fa a l'anàlisi per jutges, atribuïbles a la major sensibilitat del sistema. Per a l'anàlisi de l'adulteració formatge fresc s'ha demostrat que l'aplicació de la tècnica d'imatges hiperespectrals permet detectar l'adulteració per farina de dacsa en formatge fresc, sobre la base de la relació entre la reflactpància i el contingut de midó en mostres de formatge fresc. Així mateix, la metodologia implementada, basada en tecnologia d'imatges hiperespectrals, va provar ser vàlida per a la determinació de la qualitat de carn de cap de bestiar sobre la base de la norma japonesa de marmolejat. Una versió avançada del programari podria ser patentada i transferida a la indústria, en una fase posterior a la realització d'aquesta tesi doctoral. Aquest programari podria ser dissenyat de tal forma que poguera incloure de forma progressiva noves eines útils en el control de qualitat d'altres processos agroalimentaris.
Castro Silupu, WM. (2016). Aplicación de la tecnología de imágenes hiperespectrales al control de calidad de productos agroalimentarios de la región de Amazonas (Perú) [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/63250
TESIS
APA, Harvard, Vancouver, ISO, and other styles
31

Presta, Masó Susanna. "Estudi fonamental i aplicat de l'etapa d'eliminació de tinta per flotació." Doctoral thesis, Universitat de Girona, 2006. http://hdl.handle.net/10803/7794.

Full text
Abstract:
La tesi realitza un estudi detallat dels principals processos que tenen lloc durant l'eliminació de tinta tòner per flotació.
L'estudi del procés d'adhesió de tinta a la superfície de bombolles d'aire s'ha realitzat mitjançant visió artificial. Els resultats obtinguts han mostrat que un excés de tensioactiu provoca una disminució de la quantitat de tinta unida a la bombolla d'aire i per tant una disminució de l'eficàcia del procés de flotació.
La caracterització de les bombolles d'aire presents en una cel·la de flotació ha posat de manifest que tant el cabal d'aire com la velocitat de l'agitador configuren la distribució de diàmetres final. L'estudi del procés d'eliminació de tinta per flotació en absència de fibres cel·lulòsiques ha mostrat que les variables físico-químiques estudiades són les que tenen una major influència en el procés d'eliminació de tinta tòner per flotació.
Finalment s'han addicionat fibres cel·lulòsiques a la suspensió. S'ha pogut comprovar que s'aconsegueix una bona eliminació de tinta sempre i quan les condicions hidrodinàmiques siguin les adequades.
First of all the adhesion of ink particles to air bubbles surface was studied by means of artificial vision. Results obtained showed that an excess of surfactant decreases ink adsorption decreasing flotation efficiency.
Air bubbles created in a lab-scale flotation cell were characterized by means of artificial vision. Results showed that air flow and agitation rate configure the final air bubble distribution.
Ink removal from a flotation cell was studied without the presence of cellulose fibers. Results obtained showed that the physico-chemical variables studied had a major influence on ink removal than hydrodynamic variables studied.
Finally, cellulose fibers were added to the suspension. Results obtained showed that it was possible to obtain good flotation results provided that the hydrodynamic conditions were carefully adjusted.
APA, Harvard, Vancouver, ISO, and other styles
32

Cubero, García Sergio. "Diseño e implementación de nuevas tecnologías basadas en visión artificial para la inspección no destructiva de la calidad de fruta en campo y mínimamente procesada." Doctoral thesis, Universitat Politècnica de València, 2012. http://hdl.handle.net/10251/15999.

Full text
Abstract:
Esta tesis trata de avanzar en sistemas de visión por computador aplicados a la inspección automática de la calidad de frutas y verduras en dos entornos en los que hasta la fecha no se ha trabajado en profundidad como son la inspección en campo antes de la recepción de la fruta por la central hortofrutícola y la inspección automática de la calidad de fruta procesada. Se pretende así rellenar un hueco importante en la aplicación de la visión por computador como una herramienta al servicio del sector en la inspección de frutas y verduras. El desarrollo de técnicas de visión por computador en la inspección de la calidad de los productos agrícolas se debe a la necesidad de encontrar una alternativa a los métodos de inspección manual tradicionales para eliminar el contacto con el producto, aumentar la fiabilidad y objetividad, introducir flexibilidad a las líneas de confección e incrementar la productividad y competitividad de nuestras empresas. Esta tecnología está ampliamente extendida para la inspección de fruta en fresco en almacenes de confección pero, sin embargo, todavía no se ha aplicado en campo por las dificultades técnicas que conlleva este entorno, y tampoco en el sector de la fruta mínimamente procesada, debido a la fragilidad y dificultad de manipulación del producto, la complejidad de la inspección y el relativo menor valor económico respecto de la fruta en fresco. En esta tesis se aborda, por una parte, la creación de un sistema de visión por computador instalado en una plataforma de asistencia a la recolección de cítricos sobre la que se analiza la fruta a la vez que se recolecta y se clasifica en diversas categorías en función de su color, tamaño o calidad (presencia de defectos externos). Los mayores problemas del trabajo en campo se refieren a una iluminación inestable, movimientos y vibraciones, energía eléctrica limitada o efectos de la intemperie. Para ello es necesario diseñar un sistema de visión por computador compacto, robusto, rápido y muy efi
Cubero García, S. (2012). Diseño e implementación de nuevas tecnologías basadas en visión artificial para la inspección no destructiva de la calidad de fruta en campo y mínimamente procesada [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/15999
Palancia
APA, Harvard, Vancouver, ISO, and other styles
33

Polo, Castro Julio Cesar, and Castro Julio Cesar Polo. "Sistema de visión artificial basado en la detección de los movimientos del ojo, para mejorar la atención de los pacientes con síndrome de Guillain Barré." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2015. http://tesis.usat.edu.pe/handle/usat/524.

Full text
Abstract:
El síndrome de Guillain Barré es una polirradiculoneuropatía de evolución aguda o sub aguda que ataca progresivamente el sistema nervioso central impidiendo el movimiento de una persona progresivamente, empieza en los brazos y piernas y se extiende hasta el cuello, en el 50% de los casos se requiere de un ventilador mecánico, por lo que se considera una enfermedad critica, el problema de la enfermedad es que dificulta la comunicación entre los pacientes y su entorno, esto hace que durante el ciclo de la enfermedad, 1 año aproximadamente, este paciente presente complicaciones por la falta de comunicación. El presente proyecto de tesis está enfocado a desarrollar un Sistema de Visión artificial, basado en la detección de los movimientos del ojo que permitió solucionar el problema de la falta de comunicación de los pacientes con síndrome de Guillain Barre del Hospital Nacional Almanzor Aguinaga Asenjo. El SVA presenta una interfaz con algunos mensajes predefinidos, así como un teclado para escribir un mensaje propio, dirigiendo la mirada hacia el lugar que quieren realizar el “click”, referenciándose por un puntero que le permitirá asegurar el lugar exacto donde quiere clickear, para esto se usara la técnica de “tracking eye” o técnica de seguimiento de los ojos, mediante el uso de una cámara para captar los movimientos del ojo y poder usarlo en el sistema de visión artificial, que se desarrollara en base a la metodología propuesta por Kong y Nilson (2005), que consta de 3 etapas, la representación de la imagen, el procesamiento de la imagen y el análisis de la misma. La población de esta tesis es no probabilística por lo que se realiza en los 5 pacientes con SGB que se encontraban hospitalizados durante la realización de esta tesis.
Tesis
APA, Harvard, Vancouver, ISO, and other styles
34

Montoliu, Colás Raúl. "Generalized least squares-based parametric motion estimation and segmentation." Doctoral thesis, Universitat Jaume I, 2008. http://hdl.handle.net/10803/669148.

Full text
Abstract:
El análisis del movimiento es uno de los campos más importantes de la visión por computador. Esto es debido a que el mundo real está en continuo movimiento y es obvio que podremos obtener mucha más información de escenas en movimiento que de escenas estáticas. En esta tesis se ha trabajado principalmente en desarrollar algoritmos de estimación de movimiento para su aplicación a problemas de registrado de imágenes y a problemas de segmentación del movimiento. Uno de los principales objetivos de este trabajo es desarrollar una técnica de registrado de imágenes de gran exactitud, tolerante a outliers y que sea capaz de realizar su labor incluso en la presencia de deformaciones de gran magnitud tales como traslaciones, rotaciones, cambios de escala, cambios de iluminación globales y no espacialmente uniformes, etc. Otro de los objetivos de esta tesis es trabajar en problemas de estimación y la segmentación del movimiento en secuencias de dos imágenes de forma casi simultánea y sin conocimiento a priori del número de modelos de movimiento presentes. Los experimentos mostrados en este trabajo demuestran que los algoritmos propuestos en esta tesis obtienen resultados de gran exactitud.
This thesis proposes several techniques related with the motion estimation problem. In particular, it deals with global motion estimation for image registration and motion segmentation. In the first case, we will suppose that the majority of the pixels of the image follow the same motion model, although the possibility of a large number of outliers are also considered. In the motion segmentation problem, the presence of more than one motion model will be considered. In both cases, sequences of two consecutive grey level images will be used. A new generalized least squares-based motion estimator will be proposed. The proposed formulation of the motion estimation problem provides an additional constraint that helps to match the pixels using image gradient information. That is achieved thanks to the use of a weight for each observation, providing high weight values to the observations considered as inliers, and low values to the ones considered as outliers. To avoid falling in a local minimum, the proposed motion estimator uses a Feature-based method (SIFT-based) to obtain good initial motion parameters. Therefore, it can deal with large motions like translation, rotations, scales changes, viewpoint changes, etc. The accuracy of our approach has been tested using challenging real images using both affine and projective motion models. Two Motion Estimator techniques, which use M-Estimators to deal with outliers into a iteratively reweighted least squared-based strategy, have been selected to compare the accuracy of our approach. The results obtained have showed that the proposed motion estimator can obtain as accurate results as M-Estimator-based techniques and even better in most cases. The problem of estimating accurately the motion under non-uniform illumination changes will also be considered. A modification of the proposed global motion estimator will be proposed to deal with this kind of illumination changes. In particular, a dynamic image model where the illumination factors are functions of the localization will be used replacing the brightens constancy assumption allowing for a more general and accurate image model. Experiments using challenging images will be performed showing that the combination of both techniques is feasible and provides accurate estimates of the motion parameters even in the presence of strong illumination changes between the images. The last part of the thesis deals with the motion estimation and segmentation problem. The proposed algorithm uses temporal information, by using the proposed generalized least-squares motion estimation process and spatial information by using an iterative region growing algorithm which classifies regions of pixels into the different motion models present in the sequence. In addition, it can extract the different moving regions of the scene while estimating its motion quasi-simultaneously and without a priori information of the number of moving objects in the scene. The performance of the algorithm will be tested on synthetic and real images with multiple objects undergoing different types of motion.
APA, Harvard, Vancouver, ISO, and other styles
35

Polo, Castro Julio Cesar. "Sistema de visión artificial basado en la detección de los movimientos del ojo, para mejorar la atención de los pacientes con síndrome de Guillain Barré." Bachelor's thesis, Chiclayo, 2015. http://tesis.usat.edu.pe/jspui/handle/123456789/544.

Full text
Abstract:
El síndrome de Guillain Barré es una polirradiculoneuropatía de evolución aguda o sub aguda que ataca progresivamente el sistema nervioso central impidiendo el movimiento de una persona progresivamente, empieza en los brazos y piernas y se extiende hasta el cuello, en el 50% de los casos se requiere de un ventilador mecánico, por lo que se considera una enfermedad critica, el problema de la enfermedad es que dificulta la comunicación entre los pacientes y su entorno, esto hace que durante el ciclo de la enfermedad, 1 año aproximadamente, este paciente presente complicaciones por la falta de comunicación. El presente proyecto de tesis está enfocado a desarrollar un Sistema de Visión artificial, basado en la detección de los movimientos del ojo que permitió solucionar el problema de la falta de comunicación de los pacientes con síndrome de Guillain Barre del Hospital Nacional Almanzor Aguinaga Asenjo. El SVA presenta una interfaz con algunos mensajes predefinidos, así como un teclado para escribir un mensaje propio, dirigiendo la mirada hacia el lugar que quieren realizar el “click”, referenciándose por un puntero que le permitirá asegurar el lugar exacto donde quiere clickear, para esto se usara la técnica de “tracking eye” o técnica de seguimiento de los ojos, mediante el uso de una cámara para captar los movimientos del ojo y poder usarlo en el sistema de visión artificial, que se desarrollara en base a la metodología propuesta por Kong y Nilson (2005), que consta de 3 etapas, la representación de la imagen, el procesamiento de la imagen y el análisis de la misma. La población de esta tesis es no probabilística por lo que se realiza en los 5 pacientes con SGB que se encontraban hospitalizados durante la realización de esta tesis.
APA, Harvard, Vancouver, ISO, and other styles
36

Viejo, Hernando Diego. "Modelización robusta de entornos semi-estructurados: una aplicación al mapeado 6DoF en robótica móvil." Doctoral thesis, Universidad de Alicante, 2008. http://hdl.handle.net/10045/9592.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Kachach, Redouane. "Monitorización visual automática de tráfico rodado." Doctoral thesis, Universidad de Alicante, 2016. http://hdl.handle.net/10045/68987.

Full text
Abstract:
La gestión del tráfico es una tarea muy compleja. La información generada por los sistemas tradicionales de monitorización (por ejemplo espirales) es muy limitada e insuficiente para realizar estudios más ambiciosos y complejos sobre el tráfico. Hoy en día esto es un problema en un mundo donde técnicas como el Big Data se han metido en todos los ámbitos. Esta tesis se enfoca en abordar el problema de monitorización automática de vehículos empleando sensores más modernos como las cámaras. Estos sensores llevan ya varias décadas instalados en las carreteras pero con una misión limitada a la monitorización pasiva de las mismas. El objetivo de la tesis es aprovechar estos sensores con algoritmos capaces de extraer información útil de forma automática de las imágenes. Para ello, vamos a abordar dos problemas clásicos en este campo como son el seguimiento y la clasificación automática de vehículos en varias categorías. Dentro del marco de los sistemas inteligentes de transporte (ITS, por sus siglas en inglés), el trabajo presentado en esta tesis aborda los problemas típicos relacionados con el seguimiento de vehículos como la eliminación de sombras y el manejo de oclusiones. Para ello se ha desarrollado un algoritmo que combina criterios de proximidad espacial y temporal con un algoritmo basado en KLT para el seguimiento tratando de aprovechar las ventajas de cada uno de ellos. En el contexto de la clasificación se ha desarrollado un algoritmo híbrido que combina plantillas 3D que representan las distintas categorías de vehículos junto con un clasificador SVM entrenado con características visuales de camiones y autobuses para afinar la clasificación. Todos los algoritmos utilizan una sola cámara como sensor principal. Los sistemas desarrollados han sido probados y validados experimentalmente sobre una amplia base de vídeos tanto propios como otros independientes. Hemos recopilado y etiquetado una amplia colección de vídeos de tráfico representativos de un variado abanico de situaciones que ponemos a disposición de la comunidad científica como banco de pruebas.
APA, Harvard, Vancouver, ISO, and other styles
38

Albert, Gil Francisco Eugenio. "Análisis de motivos decorativos de tejidos y revestimientos cerámicos en el entorno de la visión artificial. Aplicación a la reconstrucción de motivos históricos y al diseño." Doctoral thesis, Universitat Politècnica de València, 2008. http://hdl.handle.net/10251/1936.

Full text
Abstract:
El objetivo de esta tesis es la contribución a la creación, e implementación en herramientas informáticas, de una metodología aplicable para el análisis y edición de imágenes procedentes del campo de los diseños cerámicos y textiles, y por extensión, de todas aquellas imágenes que siguen un patrón repetitivo y que, por tanto, se ajustan a la Teoría de Grupos de Simetría. Para ello, se ha definido una metodología de análisis dividida en etapas, en la que se va aumentando gradualmente el nivel de la información manejada, desde los píxeles de la imagen inicial, pasando por los objetos (formas o unidades básicas perceptúales) y los motivos (agrupaciones de objetos realizadas con criterios perceptúales) hasta llegar a la estructura del patrón, es decir, las distintas transformaciones geométricas que relacionan los elementos (objetos y motivos) que lo forman. La información estructural obtenida es utilizada con fines diversos: la clasificación de las imágenes según el Grupo de Simetría del Plano del patrón, la reconstrucción de las imágenes aprovechando el conocimiento de qué partes están relacionadas por la estructura, y por último, la edición de patrones, tanto a nivel de formas y motivos, como de estructura, permitiendo realizar cambios estructurales con facilidad, con lo que se generan familias de patrones a partir de uno analizado. Las herramientas desarrolladas han sido probadas con un amplio conjunto de imágenes de patrones de procedencias muy diversas, destacando el estudio de los alicatados de la Alhambra de Granada y del Alcázar de Sevilla, así como de textiles y, ampliando los objetivos iniciales, a diversos elementos del entorno urbano.
Albert Gil, FE. (2006). Análisis de motivos decorativos de tejidos y revestimientos cerámicos en el entorno de la visión artificial. Aplicación a la reconstrucción de motivos históricos y al diseño [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1936
Palancia
APA, Harvard, Vancouver, ISO, and other styles
39

Oliver, i. Malagelada Arnau. "Automatic mass segmentation in mammographic images." Doctoral thesis, Universitat de Girona, 2007. http://hdl.handle.net/10803/7739.

Full text
Abstract:
Aquesta tesi està emmarcada dins la detecció precoç de masses, un dels símptomes més clars del càncer de mama, en imatges mamogràfiques. Primerament, s'ha fet un anàlisi extensiu dels diferents mètodes de la literatura, concloent que aquests mètodes són dependents de diferent paràmetres: el tamany i la forma de la massa i la densitat de la mama. Així, l'objectiu de la tesi és analitzar, dissenyar i implementar un mètode de detecció robust i independent d'aquests tres paràmetres. Per a tal fi, s'ha construït un patró deformable de la massa a partir de l'anàlisi de masses reals i, a continuació, aquest model és buscat en les imatges seguint un esquema probabilístic, obtenint una sèrie de regions sospitoses. Fent servir l'anàlisi 2DPCA, s'ha construït un algorisme capaç de discernir aquestes regions són realment una massa o no. La densitat de la mama és un paràmetre que s'introdueix de forma natural dins l'algorisme.
This thesis deals with the detection of masses in mammographic images. As a first step, Regions of Interests (ROIs) are detected in the image using templates containing a probabilistic contour shape obtained from training over an annotated set of masses. Firstly, PCA is performed over the training set, and subsequently the template is formed as an average of the gradient of eigenmasses weighted by the top eigenvalues. The template can be deformed according to each eigenmass coefficient. The matching is formulated in a Bayesian framework, where the prior penalizes the deformation, and the likelihood requires template boundaries to agree with image edges. In the second stage, the detected ROIs are classified into being false positives or true positives using 2DPCA, where the new training set now contains ROIs with masses and ROIs with normal tissue. Mass density is incorporated into the whole process by initially classifying the two training sets according to breast density. Methods for breast density estimation are also analyzed and proposed. The results are obtained using different databases and both FROC and ROC analysis demonstrate a better performance of the approach relative to competing methods.
APA, Harvard, Vancouver, ISO, and other styles
40

Puertas, i. Prats Eloi. "Generalized Stacked Sequential Learning." Doctoral thesis, Universitat de Barcelona, 2014. http://hdl.handle.net/10803/285969.

Full text
Abstract:
Over the past few decades, machine learning (ML) algorithms have become a very useful tool in tasks where designing and programming explicit, rule-based algorithms are infeasible. Some examples of applications where machine learning has been applied successfully are spam filtering, optical character recognition (OCR), search engines and computer vision. One of the most common tasks in ML is supervised learning, where the goal is to learn a general model able to predict the correct label of unseen examples from a set of known labeled input data. In supervised learning often it is assumed that data is independent and identically distributed (i.i.d ). This means that each sample in the data set has the same probability distribution as the others and all are mutually independent. However, classification problems in real world databases can break this i.i.d. assumption. For example, consider the case of object recognition in image understanding. In this case, if one pixel belongs to a certain object category, it is very likely that neighboring pixels also belong to the same object, with the exception of the borders. Another example is the case of a laughter detection application from voice records. A laugh has a clear pattern alternating voice and non-voice segments. Thus, discriminant information comes from the alternating pattern, and not just by the samples on their own. Another example can be found in the case of signature section recognition in an e-mail. In this case, the signature is usually found at the end of the mail, thus important discriminant information is found in the context. Another case is part-of-speech tagging in which each example describes a word that is categorized as noun, verb, adjective, etc. In this case it is very unlikely that patterns such as [verb, verb, adjective, verb] occur. All these applications present a common feature: the sequence/context of the labels matters. Sequential learning (25) breaks the i.i.d. assumption and assumes that samples are not independently drawn from a joint distribution of the data samples X and their labels Y . In sequential learning the training data actually consists of sequences of pairs (x, y), so that neighboring examples exhibit some kind of correlation. Usually sequential learning applications consider one-dimensional relationship support, but these types of relationships appear very frequently in other domains, such as images, or video. Sequential learning should not be confused with time series prediction. The main difference between both problems lays in the fact that sequential learning has access to the whole data set before any prediction is made and the full set of labels is to be provided at the same time. On the other hand, time series prediction has access to real labels up to the current time t and the goal is to predict the label at t + 1. Another related but different problem is sequence classification. In this case, the problem is to predict a single label for an input sequence. If we consider the image domain, the sequential learning goal is to classify the pixels of the image taking into account their context, while sequence classification is equivalent to classify one full image as one class. Sequential learning has been addressed from different perspectives: from the point of view of meta-learning by means of sliding window techniques, recurrent sliding windows or stacked sequential learning where the method is formulated as a combination of classifiers; or from the point of view of graphical models, using for example Hidden Markov Models or Conditional Random Fields. In this thesis, we are concerned with meta-learning strategies. Cohen et al. (17) showed that stacked sequential learning (SSL from now on) performed better than CRF and HMM on a subset of problems called “sequential partitioning problems”. These problems are characterized by long runs of identical labels. Moreover, SSL is computationally very efficient since it only needs to train two classifiers a constant number of times. Considering these benefits, we decided to explore in depth sequential learning using SSL and generalize the Cohen architecture to deal with a wider variety of problems.
APA, Harvard, Vancouver, ISO, and other styles
41

Hernández-Vela, Antonio. "From pixels to gestures: learning visual representations for human analysis in color and depth data sequences." Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/292488.

Full text
Abstract:
The visual analysis of humans from images is an important topic of interest due to its relevance to many computer vision applications like pedestrian detection, monitoring and surveillance, human-computer interaction, e-health or content-based image retrieval, among others. In this dissertation in learning different visual representations of the human body that are helpful for the visual analysis of humans in images and video sequences. To that end, we analyze both RCB and depth image modalities and address the problem from three different research lines, at different levels of abstraction; from pixels to gestures: human segmentation, human pose estimation and gesture recognition. First, we show how binary segmentation (object vs. background) of the human body in image sequences is helpful to remove all the background clutter present in the scene. The presented method, based on “Graph cuts” optimization, enforces spatio-temporal consistency of the produced segmentation masks among consecutive frames. Secondly, we present a framework for multi-label segmentation for obtaining much more detailed segmentation masks: instead of just obtaining a binary representation separating the human body from the background, finer segmentation masks can be obtained separating the different body parts. At a higher level of abstraction, we aim for a simpler yet descriptive representation of the human body. Human pose estimation methods usually rely on skeletal models of the human body, formed by segments (or rectangles) that represent the body limbs, appropriately connected following the kinematic constraints of the human body, In practice, such skeletal models must fulfill some constraints in order to allow for efficient inference, while actually Iimiting the expressiveness of the model. In order to cope with this, we introduce a top-down approach for predicting the position of the body parts in the model, using a mid-level part representation based on Poselets. Finally, we propose a framework for gesture recognition based on the bag of visual words framework. We leverage the benefits of RGB and depth image modalities by combining modality-specific visual vocabularies in a late fusion fashion. A new rotation-variant depth descriptor is presented, yielding better results than other state-of-the-art descriptors. Moreover, spatio-temporal pyramids are used to encode rough spatial and temporal structure. In addition, we present a probabilistic reformulation of Dynamic Time Warping for gesture segmentation in video sequences, A Gaussian-based probabilistic model of a gesture is learnt, implicitly encoding possible deformations in both spatial and time domains.
L’anàlisi visual de persones a partir d'imatges és un tema de recerca molt important, atesa la rellevància que té a una gran quantitat d'aplicacions dins la visió per computador, com per exemple: detecció de vianants, monitorització i vigilància,interacció persona-màquina, “e-salut” o sistemes de recuperació d’matges a partir de contingut, entre d'altres. En aquesta tesi volem aprendre diferents representacions visuals del cos humà, que siguin útils per a la anàlisi visual de persones en imatges i vídeos. Per a tal efecte, analitzem diferents modalitats d'imatge com són les imatges de color RGB i les imatges de profunditat, i adrecem el problema a diferents nivells d'abstracció, des dels píxels fins als gestos: segmentació de persones, estimació de la pose humana i reconeixement de gestos. Primer, mostrem com la segmentació binària (objecte vs. fons) del cos humà en seqüències d'imatges ajuda a eliminar soroll pertanyent al fons de l'escena en qüestió. El mètode presentat, basat en optimització “Graph cuts”, imposa consistència espai-temporal a Ies màscares de segmentació obtingudes en “frames” consecutius. En segon lloc, presentem un marc metodològic per a la segmentació multi-classe, amb la qual podem obtenir una descripció més detallada del cos humà, en comptes d'obtenir una simple representació binària separant el cos humà del fons, podem obtenir màscares de segmentació més detallades, separant i categoritzant les diferents parts del cos. A un nivell d'abstraccíó més alt, tenim com a objectiu obtenir representacions del cos humà més simples, tot i ésser suficientment descriptives. Els mètodes d'estimació de la pose humana sovint es basen en models esqueletals del cos humà, formats per segments (o rectangles) que representen les extremitats del cos, connectades unes amb altres seguint les restriccions cinemàtiques del cos humà. A la pràctica, aquests models esqueletals han de complir certes restriccions per tal de poder aplicar mètodes d'inferència que permeten trobar la solució òptima de forma eficient, però a la vegada aquestes restriccions suposen una gran limitació en l'expressivitat que aques.ts models son capaços de capturar. Per tal de fer front a aquest problema, proposem un enfoc “top-down” per a predir la posició de les parts del cos del model esqueletal, introduïnt una representació de parts de mig nivell basada en “Poselets”. Finalment. proposem un marc metodològic per al reconeixement de gestos, basat en els “bag of visual words”. Aprofitem els avantatges de les imatges RGB i les imatges; de profunditat combinant vocabularis visuals específiques per a cada modalitat, emprant late fusion. Proposem un nou descriptor per a imatges de profunditat invariant a rotació, que millora l'estat de l'art, i fem servir piràmides espai-temporals per capturar certa estructura espaial i temporal dels gestos. Addicionalment, presentem una reformulació probabilística del mètode “Dynamic Time Warping” per al reconeixement de gestos en seqüències d'imatges. Més específicament, modelem els gestos amb un model probabilistic gaussià que implícitament codifica possibles deformacions tant en el domini espaial com en el temporal.
APA, Harvard, Vancouver, ISO, and other styles
42

Navarro, Toro Agustín Alfonso. "Angular variation as a monocular cue for spatial percepcion." Doctoral thesis, Universitat Politècnica de Catalunya, 2009. http://hdl.handle.net/10803/48632.

Full text
Abstract:
Monocular cues are spatial sensory inputs which are picked up exclusively from one eye. They are in majority static features that provide depth information and are extensively used in graphic art to create realistic representations of a scene. Since the spatial information contained in these cues is picked up from the retinal image, the existence of a link between it and the theory of direct perception can be conveniently assumed. According to this theory, spatial information of an environment is directly contained in the optic array. Thus, this assumption makes possible the modeling of visual perception processes through computational approaches. In this thesis, angular variation is considered as a monocular cue, and the concept of direct perception is adopted by a computer vision approach that considers it as a suitable principle from which innovative techniques to calculate spatial information can be developed. The expected spatial information to be obtained from this monocular cue is the position and orientation of an object with respect to the observer, which in computer vision is a well known field of research called 2D-3D pose estimation. In this thesis, the attempt to establish the angular variation as a monocular cue and thus the achievement of a computational approach to direct perception is carried out by the development of a set of pose estimation methods. Parting from conventional strategies to solve the pose estimation problem, a first approach imposes constraint equations to relate object and image features. In this sense, two algorithms based on a simple line rotation motion analysis were developed. These algorithms successfully provide pose information; however, they depend strongly on scene data conditions. To overcome this limitation, a second approach inspired in the biological processes performed by the human visual system was developed. It is based in the proper content of the image and defines a computational approach to direct perception. The set of developed algorithms analyzes the visual properties provided by angular variations. The aim is to gather valuable data from which spatial information can be obtained and used to emulate a visual perception process by establishing a 2D-3D metric relation. Since it is considered fundamental in the visual-motor coordination and consequently essential to interact with the environment, a significant cognitive effect is produced by the application of the developed computational approach in environments mediated by technology. In this work, this cognitive effect is demonstrated by an experimental study where a number of participants were asked to complete an action-perception task. The main purpose of the study was to analyze the visual guided behavior in teleoperation and the cognitive effect caused by the addition of 3D information. The results presented a significant influence of the 3D aid in the skill improvement, which showed an enhancement of the sense of presence.
Las señales monoculares son entradas sensoriales capturadas exclusivamente por un solo ojo que ayudan a la percepción de distancia o espacio. Son en su mayoría características estáticas que proveen información de profundidad y son muy utilizadas en arte gráfico para crear apariencias reales de una escena. Dado que la información espacial contenida en dichas señales son extraídas de la retina, la existencia de una relación entre esta extracción de información y la teoría de percepción directa puede ser convenientemente asumida. De acuerdo a esta teoría, la información espacial de todo le que vemos está directamente contenido en el arreglo óptico. Por lo tanto, esta suposición hace posible el modelado de procesos de percepción visual a través de enfoques computacionales. En esta tesis doctoral, la variación angular es considerada como una señal monocular, y el concepto de percepción directa adoptado por un enfoque basado en algoritmos de visión por computador que lo consideran un principio apropiado para el desarrollo de nuevas técnicas de cálculo de información espacial. La información espacial esperada a obtener de esta señal monocular es la posición y orientación de un objeto con respecto al observador, lo cual en visión por computador es un conocido campo de investigación llamado estimación de la pose 2D-3D. En esta tesis doctoral, establecer la variación angular como señal monocular y conseguir un modelo matemático que describa la percepción directa, se lleva a cabo mediante el desarrollo de un grupo de métodos de estimación de la pose. Partiendo de estrategias convencionales, un primer enfoque implanta restricciones geométricas en ecuaciones para relacionar características del objeto y la imagen. En este caso, dos algoritmos basados en el análisis de movimientos de rotación de una línea recta fueron desarrollados. Estos algoritmos exitosamente proveen información de la pose. Sin embargo, dependen fuertemente de condiciones de la escena. Para superar esta limitación, un segundo enfoque inspirado en los procesos biológicos ejecutados por el sistema visual humano fue desarrollado. Está basado en el propio contenido de la imagen y define un enfoque computacional a la percepción directa. El grupo de algoritmos desarrollados analiza las propiedades visuales suministradas por variaciones angulares. El propósito principal es el de reunir datos de importancia con los cuales la información espacial pueda ser obtenida y utilizada para emular procesos de percepción visual mediante el establecimiento de relaciones métricas 2D- 3D. Debido a que dicha relación es considerada fundamental en la coordinación visuomotora y consecuentemente esencial para interactuar con lo que nos rodea, un efecto cognitivo significativo puede ser producido por la aplicación de métodos de L estimación de pose en entornos mediados tecnológicamente. En esta tesis doctoral, este efecto cognitivo ha sido demostrado por un estudio experimental en el cual un número de participantes fueron invitados a ejecutar una tarea de acción-percepción. El propósito principal de este estudio fue el análisis de la conducta guiada visualmente en teleoperación y el efecto cognitivo causado por la inclusión de información 3D. Los resultados han presentado una influencia notable de la ayuda 3D en la mejora de la habilidad, así como un aumento de la sensación de presencia.
APA, Harvard, Vancouver, ISO, and other styles
43

Torres, Farro Denis Joel. "Sistema inteligente con visión computacional para mejorar la postura en la fase de salida de los atletas con discapacidad física, mental e intelectual del club Oswen, Chiclayo-Perú." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2021. http://hdl.handle.net/20.500.12423/3715.

Full text
Abstract:
En la presente tesis se plantea el problema de ¿Cómo se puede mejorar la postura en la fase salida de los atletas con discapacidad física, mental e intelectual del club Oswen, Chiclayo - Perú?, teniendo como objetivo principal mejorar la postura en la fase de salida de los atletas con habilidades especiales y dificultades motoras del club Oswen, Chiclayo – Perú y como objetivos específicos: “Diseñar una base de conocimiento basada en la información de uno o más expertos en preparación física de atletas especiales del club Oswen, Chiclayo – Perú”, “Determinar la arquitectura del sistema inteligente con visión computacional basado en variables, hechos y reglas para la detección de errores en las técnicas deportivas”, “Desarrollar los módulos del sistema inteligente con visión computacional considerando la arquitectura propuesta” y “Validar el sistema inteligente con visión computacional a través de juicios expertos”. Como resultado, se obtuvo que la implementación de un sistema inteligente con visión computacional ayudo a mejorar la postura de los atletas con habilidades especiales y dificultades motoras en la fase de salida.
APA, Harvard, Vancouver, ISO, and other styles
44

Cortés, Daniel. "Modelado y simulación para la predicción de explosiones en espacios confinados." Doctoral thesis, Universidad de Alicante, 2021. http://hdl.handle.net/10045/115293.

Full text
Abstract:
Los incendios en recintos confinados son un tipo de emergencia que involucra a bomberos cuyas vidas a veces se ponen en peligro. En cualquier incendio confinado, el equipo de emergencia puede encontrar dos tipos de ambientes de combustión, ventilados o infra-ventilados. El comportamiento cambiante de este escenario depende de múltiples factores como el tamaño del recinto, la ventilación o el combustible involucrado, entre otros. Sin embargo, la dificultad de manejar este tipo de situaciones junto con el potencial error humano sigue siendo un desafío sin resolver para los bomberos en la actualidad. En ocasiones si se dan las condiciones adecuadas, pueden aparecer los fenómenos, extremadamente peligrosos, que son estudio de este trabajo (flashover y backdraft). Por lo tanto, existe una gran demanda de nuevas técnicas y tecnologías para abordar este tipo de emergencias que amenazan la vida y puede causar graves daños estructurales. A lo anterior hay que añadir que la incorporación de cámaras térmicas en los servicios de extinción de incendios y salvamentos, supone un gran avance que puede ayudar a prevenir estos tipos de fenómenos en tiempo real utilizando técnicas de inteligencia artificial.
APA, Harvard, Vancouver, ISO, and other styles
45

Monzó, Ferrer David. "Contributions on Automatic Recognition of Faces using Local Texture Features." Doctoral thesis, Universitat Politècnica de València, 2012. http://hdl.handle.net/10251/16698.

Full text
Abstract:
Uno de los temas más destacados del área de visión artifical se deriva del análisis facial automático. En particular, la detección precisa de caras humanas y el análisis biométrico de las mismas son problemas que han generado especial interés debido a la gran cantidad de aplicaciones que actualmente hacen uso de estos mecnismos. En esta Tesis Doctoral se analizan por separado los problemas relacionados con detección precisa de caras basada en la localización de los ojos y el reconomcimiento facial a partir de la extracción de características locales de textura. Los algoritmos desarrollados abordan el problema de la extracción de la identidad a partir de una imagen de cara ( en vista frontal o semi-frontal), para escenarios parcialmente controlados. El objetivo es desarrollar algoritmos robustos y que puedan incorpararse fácilmente a aplicaciones reales, tales como seguridad avanzada en banca o la definición de estrategias comerciales aplicadas al sector de retail. Respecto a la extracción de texturas locales, se ha realizado un análisis exhaustivo de los descriptores más extendidos; se ha puesto especial énfasis en el estudio de los Histogramas de Grandientes Orientados (HOG features). En representaciones normalizadas de la cara, estos descriptores ofrecen información discriminativa de los elementos faciales (ojos, boca, etc.), siendo robustas a variaciones en la iluminación y pequeños desplazamientos. Se han elegido diferentes algoritmos de clasificación para realizar la detección y el reconocimiento de caras, todos basados en una estrategia de sistemas supervisados. En particular, para la localización de ojos se ha utilizado clasificadores boosting y Máquinas de Soporte Vectorial (SVM) sobre descriptores HOG. En el caso de reconocimiento de caras, se ha desarrollado un nuevo algoritmo, HOG-EBGM (HOG sobre Elastic Bunch Graph Matching). Dada la imagen de una cara, el esquema seguido por este algoritmo se puede resumir en pocos pasos: en una primera etapa se ext
Monzó Ferrer, D. (2012). Contributions on Automatic Recognition of Faces using Local Texture Features [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/16698
Palancia
APA, Harvard, Vancouver, ISO, and other styles
46

Manresa, Yee Cristina Suemay. "Advanced and natural interaction system for motion-impaired users." Doctoral thesis, Universitat de les Illes Balears, 2009. http://hdl.handle.net/10803/9412.

Full text
Abstract:
Human-computer interaction is an important area that searches for better and more comfortable systems to promote communication between humans and machines. Vision-based interfaces can offer a more natural and appealing way of communication. Moreover, it can help in the e-accessibility component of the e-inclusion. The aim is to develop a usable system, that is, the end-user must consider the use of this device effective, efficient and satisfactory.
The research's main contribution is SINA, a hands-free interface based on computer vision techniques for motion impaired users. This interface does not require the user to use his upper body limbs, as only nose motion is considered. Besides the technical aspect, user's satisfaction when using an interface is a critical issue. The approach that we have adopted is to integrate usability evaluation at relevant points of the software development.
APA, Harvard, Vancouver, ISO, and other styles
47

Albó, Canals Jordi. "Cellular Nonlinear Networks: optimized implementation on FPGA and applications to robotics." Doctoral thesis, Universitat Ramon Llull, 2012. http://hdl.handle.net/10803/82066.

Full text
Abstract:
L'objectiu principal d'aquesta tesi consisteix a estudiar la factibilitat d'implementar un sensor càmera CNN amb plena funcionalitat basat en FPGA de baix cost adequat per a aplicacions en robots mòbils. L'estudi dels fonaments de les xarxes cel•lulars no lineals (CNNs) i la seva aplicació eficaç en matrius de portes programables (FPGAs) s'ha complementat, d'una banda amb el paral•lelisme que s'estableix entre arquitectura multi-nucli de les CNNs i els eixams de robots mòbils, i per l'altre banda amb la correlació dinàmica de CNNs i arquitectures memristive. A més, els memristors es consideren els substituts dels futurs dispositius de memòria flash per la seva capacitat d'integració d'alta densitat i el seu consum d'energia prop de zero. En el nostre cas, hem estat interessats en el desenvolupament d’FPGAs que han deixat de ser simples dispositius per a la creació ràpida de prototips ASIC per esdevenir complets dispositius reconfigurables amb integració de la memòria i els elements de processament general. En particular, s'han explorat com les arquitectures implementades CNN en FPGAs poden ser optimitzades en termes d’àrea ocupada en el dispositiu i el seu consum de potència. El nostre objectiu final ens ah portat a implementar de manera eficient una CNN-UM amb complet funcionament a un baix cost i baix consum sobre una FPGA amb tecnología flash. Per tant, futurs estudis sobre l’arquitectura eficient de la CNN sobre la FPGA i la interconnexió amb els robots comercials disponibles és un dels objectius d'aquesta tesi que se seguiran en les línies de futur exposades en aquest treball.
El objetivo principal de esta tesis consiste en estudiar la factibilidad de implementar un sensor cámara CNN con plena funcionalidad basado en FPGA de bajo coste adecuado para aplicaciones en robots móviles. El estudio de los fundamentos de las redes celulares no lineales (CNNs) y su aplicación eficaz en matrices de puertas programables (FPGAs) se ha complementado, por un lado con el paralelismo que se establece entre arquitectura multi -núcleo de las CNNs y los enjambres de robots móviles, y por el otro lado con la correlación dinámica de CNNs y arquitecturas memristive. Además, los memristors se consideran los sustitutos de los futuros dispositivos de memoria flash por su capacidad de integración de alta densidad y su consumo de energía cerca de cero. En nuestro caso, hemos estado interesados en el desarrollo de FPGAs que han dejado de ser simples dispositivos para la creación rápida de prototipos ASIC para convertirse en completos dispositivos reconfigurables con integración de la memoria y los elementos de procesamiento general. En particular, se han explorado como las arquitecturas implementadas CNN en FPGAs pueden ser optimizadas en términos de área ocupada en el dispositivo y su consumo de potencia. Nuestro objetivo final nos ah llevado a implementar de manera eficiente una CNN-UM con completo funcionamiento a un bajo coste y bajo consumo sobre una FPGA con tecnología flash. Por lo tanto, futuros estudios sobre la arquitectura eficiente de la CNN sobre la FPGA y la interconexión con los robots comerciales disponibles es uno de los objetivos de esta tesis que se seguirán en las líneas de futuro expuestas en este trabajo.
The main goal of this thesis consists in studying the feasibility to implement a full-functionality CNN camera sensor based on low-cost FPGA device suitable for mobile robotic applications. The study of Cellular Nonlinear Networks (CNNs) fundamentals and its efficient implementation on Field Programmable Gate Arrays (FPGAs) has been complemented, on one side with the parallelism established between multi-core CNN architecture and swarm of mobile robots, and on the other side with the dynamics correlation of CNNs and memristive architectures. Furthermore, memristors are considered the future substitutes of flash memory devices because of its capability of high density integration and its close to zero power consumption. In our case, we have been interested in the development of FPGAs that have ceased to be simple devices for ASIC fast prototyping to become complete reconfigurable devices embedding memory and processing elements. In particular, we have explored how the CNN architectures implemented on FPGAs can be optimized in terms of area occupied on the device or power consumption. Our final accomplishment has been implementing efficiently a fully functional reconfigurable CNN-UM on a low-cost low-power FPGA based on flash technology. Therefore, further studies on an efficient CNN architecture on FPGA and interfacing it with commercially-available robots is one of the objectives of this thesis that will be followed in the future directions exposed in this work.
APA, Harvard, Vancouver, ISO, and other styles
48

Rabie, Tamer F. "Animat vision, active vision in artificial animals." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape7/PQDD_0007/NQ41282.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Pasapera, Huamán Lui Gustavo. "Estudio de la segmentación semántica para la navegación autónoma de un vehículo que circula en las calles de la provincia de Huamanga." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/18082.

Full text
Abstract:
La detección de objetos y geolocalización son puntos clave en los sistemas de visión por computadora y su aplicación para la conducción autónoma. Le permite a la computadora el análisis de entorno en la medida que detecta objetos que podrían obstaculizar una determinada ruta, trayectorias a través del reconocimiento de carriles y mayor exactitud para la geolocalización a través de la detección de objetos relevantes en un determinado entorno. Una de las herramientas para la visión por computadora es la implementación de las redes de aprendizaje profundo. En los últimos años han tenido mayor acogida por su capacidad en el poco esfuerzo en cuanto a su clasificación manual o métodos clásicos. Si bien es cierto que necesita millones de imágenes para obtener un resultado aceptable, esto se ha ido mejorando a través de la transferencia de aprendizaje ya que reduce los millones de imágenes a miles. Estos miles de imágenes se consideran como los datos locales las cuales se analizan, clasifican y re-entrenan con una arquitectura de red pre-entrada. El presente trabajo de investigación se basa en el estudio del uso de los aprendizajes adquiridos por cada red de aprendizaje profundo tales como Resnet-18, Resnet-50, Mobilenetv2 y Xception con el fin de aprovechar su acceso e implementación en estructuras de segmentación semántica basadas en redes convolucionales tales como Segnet y Deeplab.
Trabajo de investigación
APA, Harvard, Vancouver, ISO, and other styles
50

Luwes, Nicolaas Johannes. "Artificial intelligence machine vision grading system." Thesis, Bloemfontein : Central University of Technology, Free State, 2014. http://hdl.handle.net/11462/35.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography