Dissertations / Theses on the topic 'Visión artificial'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Visión artificial.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Gómez, Bruballa Raúl Álamo. "Exploiting the Interplay between Visual and Textual Data for Scene Interpretation." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/670533.
Full textLa experimentación en aprendizaje automático en escenarios controlados y con bases de datos estándares es necesaria para comparar el desempeño entre algoritmos evaluándolos en las mismas condiciones. Sin embargo, también en necesaria experimentación en cómo se comportan estos algoritmos cuando son entrenados con datos menos controlados y aplicados a problemas reales para indagar en cómo los avances en investigación pueden contribuir a nuestra sociedad. En esta tesis experimentamos con los algoritmos más recientes de visión por ordenador y procesado del lenguaje natural aplicándolos a la interpretación de escenas multimodales. En particular, investigamos en cómo la interpretación automática de imagen y texto se puede explotar conjuntamente para resolver problemas reales, enfocándonos en aprender de datos de redes sociales. Encaramos diversas tareas que implican información visual y textual, discutimos sus características y retos y exponemos nuestras conclusiones experimentales. Primeramente trabajamos en la detección de texto en imágenes. A continuación, trabajamos con publicaciones de redes sociales, usando las leyendas textuales de imágenes como supervisión para aprender características visuales, que aplicamos a la búsqueda de imágenes semántica con consultas multimodales. Después, trabajamos con imágenes de redes sociales geolocalizadas con etiquetas textuales asociadas, experimentando en cómo usar las etiquetas como supervisión, en búsqueda de imágenes sensible a localización, y en explotar la localización para el etiquetado de imágenes. Finalmente, encaramos un problema de clasificación específico de publicaciones de redes sociales formadas por una imagen y un texto: Clasificación de discurso del odio multimodal.
Machine learning experimentation under controlled scenarios and standard datasets is necessary to compare algorithms performance by evaluating all of them in the same setup. However, experimentation on how those algorithms perform on unconstrained data and applied tasks to solve real world problems is also a must to ascertain how that research can contribute to our society. In this dissertation we experiment with the latest computer vision and natural language processing algorithms applying them to multimodal scene interpretation. Particularly, we research on how image and text understanding can be jointly exploited to address real world problems, focusing on learning from Social Media data. We address several tasks that involve image and textual information, discuss their characteristics and offer our experimentation conclusions. First, we work on detection of scene text in images. Then, we work with Social Media posts, exploiting the captions associated to images as supervision to learn visual features, which we apply to multimodal semantic image retrieval. Subsequently, we work with geolocated Social Media images with associated tags, experimenting on how to use the tags as supervision, on location sensitive image retrieval and on exploiting location information for image tagging. Finally, we work on a specific classification problem of Social Media publications consisting on an image and a text: Multimodal hate speech classification.
Salvi, Joaquim. "An approach to coded structured light to obtain three dimensional information." Doctoral thesis, Universitat de Girona, 1998. http://hdl.handle.net/10803/7714.
Full textThe stereo vision principle is based on obtaining the three dimensional position of an object point from the position of its projective points in both camera image planes. However, before inferring 3D information, the mathematical models of both cameras have to be known. This step is known as camera calibration and is broadly describes in the thesis. Perhaps the most important problem in stereo vision is the determination of the pair of homologue points in the two images, known as the correspondence problem, and it is also one of the most difficult problems to be solved which is currently investigated by a lot of researchers. The epipolar geometry allows us to reduce the correspondence problem. An approach to the epipolar geometry is describes in the thesis. Nevertheless, it does not solve it at all as a lot of considerations have to be taken into account. As an example we have to consider points without correspondence due to a surface occlusion or simply due to a projection out of the camera scope.
The interest of the thesis is focused on structured light which has been considered as one of the most frequently used techniques in order to reduce the problems related lo stereo vision. Structured light is based on the relationship between a projected light pattern its projection and an image sensor. The deformations between the pattern projected into the scene and the one captured by the camera, permits to obtain three dimensional information of the illuminated scene. This technique has been widely used in such applications as: 3D object reconstruction, robot navigation, quality control, and so on. Although the projection of regular patterns solve the problem of points without match, it does not solve the problem of multiple matching, which leads us to use hard computing algorithms in order to search the correct matches.
In recent years, another structured light technique has increased in importance. This technique is based on the codification of the light projected on the scene in order to be used as a tool to obtain an unique match. Each token of light is imaged by the camera, we have to read the label (decode the pattern) in order to solve the correspondence problem. The advantages and disadvantages of stereo vision against structured light and a survey on coded structured light are related and discussed. The work carried out in the frame of this thesis has permitted to present a new coded structured light pattern which solves the correspondence problem uniquely and robust. Unique, as each token of light is coded by a different word which removes the problem of multiple matching. Robust, since the pattern has been coded using the position of each token of light with respect to both co-ordinate axis. Algorithms and experimental results are included in the thesis. The reader can see examples 3D measurement of static objects, and the more complicated measurement of moving objects. The technique can be used in both cases as the pattern is coded by a single projection shot. Then it can be used in several applications of robot vision.
Our interest is focused on the mathematical study of the camera and pattern projector models. We are also interested in how these models can be obtained by calibration, and how they can be used to obtained three dimensional information from two correspondence points. Furthermore, we have studied structured light and coded structured light, and we have presented a new coded structured light pattern. However, in this thesis we started from the assumption that the correspondence points could be well-segmented from the captured image. Computer vision constitutes a huge problem and a lot of work is being done at all levels of human vision modelling, starting from a)image acquisition; b) further image enhancement, filtering and processing, c) image segmentation which involves thresholding, thinning, contour detection, texture and colour analysis, and so on. The interest of this thesis starts in the next step, usually known as depth perception or 3D measurement.
Carbonell, Nuñez Manuel. "Neural Information Extraction from Semi-structured Documents." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/671583.
Full textSectores como la información y tecnología de seguros, finanzas y legal, procesan un continuo de facturas, justificantes, reclamaciones o similar diariamente. El éxito en la automatización de estas transacciones se basa en la habilidad de digitalizar correctamente el contenido textual asi como incorporar la comprensión semántica. Este proceso, conococido como Extracción de Información (EI) consiste en varios pasos que son, el reconocimiento del texto, la identificación de entidades nombradas y en ocasiones en reconocer relaciones entre estas entidades. En nuestro trabajo exploramos modelos neurales multi-tarea a nivel de imagen y de grafo para solucionar los pasos de este proceso de forma unificada. En el camino, estudiamos los beneficios e inconvenientes de estos enfoques en comparación con métodos que resuelven las tareas secuencialmente por separado.
Sectors as fintech, legaltech or insurance process an inflow of million of forms, invoices, id documents, claims or similar every day. The success in the automation of these transactions depends on the ability to correctly digitize the textual content as well as to incorporate semantic understanding. This procedure, known as information extraction (IE) comprises the steps of localizing and recognizing text, identifying named entities contained in it and optionally finding relationships among its elements. In this work we explore multi-task neural models at image and graph level to solve all steps in a unified way. While doing so we find benefits and limitations of these end-to-end approaches in comparison with sequential separate methods.
Murrugarra, Ortiz Lhester. "Sistema mecatrónico para determinar automáticamente las dimensiones de anchovetas usando visión artificial." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2021. http://hdl.handle.net/20.500.12404/19706.
Full textTrabajo de investigación
Rivera, Mujica Elvira del Carmen. "Supervisión y control de un proceso industrial autónomo de pintado aplicando lógica difusa y visión artificial." Bachelor's thesis, Universidad Ricardo Palma, 2014. http://cybertesis.urp.edu.pe/handle/urp/1175.
Full textValdivia, Arias César Javier. "Diseño de un sistema de visión artificial para la clasificación de chirimoyas basado en medidas." Master's thesis, Pontificia Universidad Católica del Perú, 2016. http://tesis.pucp.edu.pe/repositorio/handle/123456789/7849.
Full textTesis
BUENDIA, RIOS ANGHELLO ARTURO 711753, and RIOS ANGHELLO ARTURO BUENDIA. "Navegación Autónoma de un vehículo Pequeño en Interiores Empleando Visión Artificial y Diferentes Sensores." Tesis de maestría, Universidad Autónoma del Estado de México, 2017. http://hdl.handle.net/20.500.11799/68536.
Full textBeca para estudios de posgrado CONACyT No. de cuenta: 1530015
NIETO, GONZALEZ JOSE LUIS 786642, and GONZALEZ JOSE LUIS NIETO. "Detección de incendios mediante identificación de humo con visión artificial en condiciones de iluminación variable." Tesis de maestría, Universidad Autónoma del Estado de México, 2018. http://hdl.handle.net/20.500.11799/95189.
Full textSobrado, Malpartida Eddie Ángel. "Sistema de visión artificial para el reconocimiento y manipulación de objetos utilizando un brazo robot." Master's thesis, Pontificia Universidad Católica del Perú, 2003. http://tesis.pucp.edu.pe/repositorio/handle/123456789/68.
Full textTesis
Wang, Yaxing. "Transferring and learning representations for image generation and translation." Doctoral thesis, Universitat Autònoma de Barcelona, 2020. http://hdl.handle.net/10803/669579.
Full textLa generación de imágenes es una de las tareas más atractivas, fascinantes y complejas en la visión por computador. De los diferentes métodos para la generación de imágenes, las redes generativas adversarias (o también llamadas ""GANs"") juegan un papel crucial. Los modelos generativos más comunes basados en GANs se pueden dividir en dos apartados. El primero, simplemente llamado generativo, utiliza como entrada ruido aleatorio y sintetiza una imagen que sigue la misma distribución que las imágenes de entrenamiento. En el segundo apartado encontramos la traducción de imagen a imagen, cuyo objetivo consiste en transferir la imagen de un dominio origen a uno que es indistinguible del dominio objetivo. Los métodos de esta categoria de traducción de imagen a imagen se pueden subdividir en emparejados o no emparejados, dependiendo de si se requiere que los datos sean emparejados o no. En esta tesis, el objetivo consiste en resolver algunos de los retos tanto en la generación de imágenes como en la traducción de imagen a imagen. Las GANs dependen en gran parte del acceso a gran cantidad de datos, y fallan al generar imágenes realistas a partir de ruido aleatorio cuando se aplican a dominios con pocas imágenes. Para solucionar este problema, proponemos transferir el conocimiento de un modelo entrenado a partir de un conjunto de datos con muchas imágenes (dominio origen) a uno entrenado con datos limitados (dominio objetivo). Encontramos que tanto las GANs como las GANs condicionales pueden beneficiarse de los modelos entrenados con grandes conjuntos de datos. Nuestros experimentos muestran que transferir el discriminador es más importante que hacerlo para el generador. Usar tanto el generador como el discriminador resulta en un mayor rendimiento. Sin embargo, este método sufre de overfitting, dado que actualizamos todos los parámetros para adaptar el modelo a los datos del objetivo. Para ello proponemos una arquitectura nueva, hecha a medida para resolver la transferencia de conocimiento en el caso de dominios objetivo con muy pocas imágenes. Nuestro método explora eficientemente qué parte del espacio latente está más relacionado con el dominio objetivo. Adicionalmente, el método propuesto es capaz de transferir el conocimiento a partir de múltiples GANs pre-entrenadas. Aunque la traducción de imagen a imagen ha conseguido rendimientos extraordinarios, tiene que enfrentarse a diferentes problemas. Primero, para el caso de la traducción entre dominios complejos (cuyas traducciones son entre diferentes modalidades) se ha observado que los métodos de traducción de imagen a imagen requieren datos emparejados. Demostramos que únicamente cuando algunas de las traducciones disponen de esta información, podemos inferir las traducciones restantes. Proponemos un método nuevo en el cual alineamos diferentes codificadores y decodificadores de imagen de una manera que nos permite obtener la traducción simplemente encadenando el codificador de origen con el decodificador objetivo, aún cuando estos no han interactuado durante la fase de entrenamiento (i.e. sin disponer de dicha información). Segundo, existe el problema del sesgo en la traducción de imagen a imagen. Los conjuntos de datos sesgados inevitablemente contienen cambios no deseados, eso se debe a que el dataset objetivo tiene una distribución visual subyacente. Proponemos el uso de restricciones semánticas cuidadosamente diseñadas para reducir los efectos del sesgo. El uso de la restricción semántica implica la preservación de las propiedades de imagen deseada. Finalmente, los métodos actuales fallan en generar resultados diversos o en realizar transferencia de conocimiento escalables a un único modelo. Para aliviar este problema, proponemos una manera escalable y diversa para la traducción de imagen a imagen. Para ello utilizamos ruido aleatorio para el control de la diversidad. La escalabilidad es determinada a partir del condicionamiento de la etiqueta del dominio.
Image generation is arguably one of the most attractive, compelling, and challenging tasks in computer vision. Among the methods which perform image generation, generative adversarial networks (GANs) play a key role. The most common image generation models based on GANs can be divided into two main approaches. The first one, called simply image generation takes random noise as an input and synthesizes an image which follows the same distribution as the images in the training set. The second class, which is called image-to-image translation, aims to map an image from a source domain to one that is indistinguishable from those in the target domain. Image-to-image translation methods can further be divided into paired and unpaired image-to-image translation based on whether they require paired data or not. In this thesis, we aim to address some challenges of both image generation and image-to-image generation. GANs highly rely upon having access to vast quantities of data, and fail to generate realistic images from random noise when applied to domains with few images. To address this problem, we aim to transfer knowledge from a model trained on a large dataset (source domain) to the one learned on limited data (target domain). We find that both GANs and conditional GANs can benefit from models trained on large datasets. Our experiments show that transferring the discriminator is more important than the generator. Using both the generator and discriminator results in the best performance. We found, however, that this method suffers from overfitting, since we update all parameters to adapt to the target data. We propose a novel architecture, which is tailored to address knowledge transfer to very small target domains. Our approach effectively explores which part of the latent space is more related to the target domain. Additionally, the proposed method is able to transfer knowledge from multiple pretrained GANs. Although image-to-image translation has achieved outstanding performance, it still faces several problems. First, for translation between complex domains (such as translations between different modalities) image-to-image translation methods require paired data. We show that when only some of the pairwise translations have been seen (i.e. during training), we can infer the remaining unseen translations (where training pairs are not available). We propose a new approach where we align multiple encoders and decoders in such a way that the desired translation can be obtained by simply cascading the source encoder and the target decoder, even when they have not interacted during the training stage (i.e. unseen). Second, we address the issue of bias in image-to-image translation. Biased datasets unavoidably contain undesired changes, which are due to the fact that the target dataset has a particular underlying visual distribution. We use carefully designed semantic constraints to reduce the effects of the bias. The semantic constraint aims to enforce the preservation of desired image properties. Finally, current approaches fail to generate diverse outputs or perform scalable image transfer in a single model. To alleviate this problem, we propose a scalable and diverse image-to-image translation. We employ random noise to control the diversity. The scalabitlity is determined by conditioning the domain label.
Ortiz, Castillo Jonathan. "Sistema de visión artificial humanoide para reconocimiento de formas y patrones de objetos, aplicando redes neuronales y algoritmos de aprendizaje automático." Bachelor's thesis, Universidad Ricardo Palma, 2015. http://cybertesis.urp.edu.pe/handle/urp/1138.
Full textde, Souza César Roberto. "Action recognition in videos: data-efficient approaches for supervised learning of human action classification models for video." Doctoral thesis, Universitat Autònoma de Barcelona, 2018. http://hdl.handle.net/10803/565827.
Full textEn esta disertación, exploramos diferentes formas de realizar reconocimiento de acciones humanas en vídeos. Nos enfocamos en la eficiencia de los datos, proponiendo nuevos enfoques que alivian la necesidad de anotarlos manualmente, tarea muy laboriosa y subjetiva, sujeta a errores. En la primera parte de esta disertación, comenzamos analizando modelos anteriores de vanguardia, comparando sus diferencias y similitudes con el fin de identificar de dónde vienen sus verdaderas fortalezas. Aprovechando esta información, procedemos a aumentar la precisión de la clasificación basada en modelos diseñados por un experto a niveles que rivalizan con las redes neuronales profundas. Presentamos arquitecturas híbridas de clasificación de vídeo basadas en representaciones espaciotemporales generales y no supervisadas, cuidadosamente diseñadas como características de entrada a redes neuronales profundas supervisadas. Los experimentos que presentamos muestran que nuestro modelo híbrido combina lo mejor de ambos mundos: es eficiente en datos (entrenado en 150 a 10,000 vídeos cortos) y mejora significativamente en el estado del arte, incluyendo modelos profundos entrenados en millones de imágenes etiquetadas manualmente y videos. En la segunda parte de esta tesis, investigamos la generación de datos sintéticos de entrenamiento para el reconocimiento de acciones, ya que recientemente este paradigma ha mostrado resultados prometedores en muchas otras tareas de visión por computador. Basándonos en técnicas de gráficos por computador, proponemos un modelo paramétrico e interpretable para generar vídeos de acciones humanas. Los vídeos que generamos son diversos, realistas y físicamente plausibles; llamamos PHAV (de "Procedural Human Action Videos") al conjunto de vídeos. PHAV contiene un total de 39,982 videos, con más de 1,000 ejemplos para cada acción, contemplando 35 acciones diferentes. Nuestro enfoque no se limita a las secuencias de captura de movimiento existentes, ya que también definimos procedimentalmente 14 acciones sintéticas. Luego presentamos arquitecturas profundas para el aprendizaje de representaciones de tareas múltiples que mezclan vídeos sintéticos y reales, incluso si las categorías de acción son diferentes. Nuestros experimentos en los conjuntos de datos UCF-101 y HMDB-51 sugieren que la combinación de PHAV con pequeños conjuntos de datos del mundo real puede aumentar la precisión del reconocimiento, superando el estado del arte de los modelos no supervisados de generación de vídeos.
In this dissertation, we explore different ways to perform human action recognition in video clips. We focus on data efficiency, proposing new approaches that alleviate the need for laborious and time-consuming manual data annotation. In the first part of this dissertation, we start by analyzing previous state-of-the-art models, comparing their differences and similarities in order to pinpoint where their real strengths comes from. Leveraging this information, we then proceed to boost the classification accuracy of shallow models to levels that rival deep neural networks. We introduce hybrid video classification architectures based on carefully designed unsupervised representations of handcrafted spatiotemporal features classified by supervised deep networks. We show in our experiments that our hybrid model combine the best of both worlds: it is data efficient (trained on 150 to 10,000 short clips) and yet improved significantly on the state of the art, including deep models trained on millions of manually labeled images and videos. In the second part of this research, we investigate the generation of synthetic training data for action recognition, as it has recently shown promising results for a variety of other computer vision tasks. We propose an interpretable parametric generative model of human action videos that relies on procedural generation and other computer graphics techniques of modern game engines. We generate a diverse, realistic, and physically plausible dataset of human action videos, called PHAV for "Procedural Human Action Videos". It contains a total of 39,982 videos, with more than 1,000 examples for each action of 35 categories. Our approach is not limited to existing motion capture sequences, and we procedurally define 14 synthetic actions. We then introduce deep multi-task representation learning architectures to mix synthetic and real videos, even if the action categories differ. Our experiments on the UCF-101 and HMDB--51 benchmarks suggest that combining our large set of synthetic videos with small real-world datasets can boost recognition performance, outperforming fine-tuning state-of-the-art unsupervised generative models of videos.
Fornas, García David. "Aplicación de la visión artificial a la manipulación robótica en el contexto de la intervención subacuática." Doctoral thesis, Universitat Jaume I, 2019. http://hdl.handle.net/10803/665797.
Full textThis thesis describes an integral framework for visually guided manipulation of objects in underwater scenarios in the archaeology case of use. The proposed framework is used to perform the reconstruction of a 3D point cloud from the robot environment, compute the geometric model of the objects and background of the scene, specify and supervise the grasping through Human-Robot Interaction, and execute the grasping. The different components have been validated in simulation and in increasingly complex real scenarios. Experiments have been performed in the water tank of the Interactive and Robotic Systems Lab, in the pool of the Centro de Investigación en Robótica Submarina with the integration of the vehicle and in seawater at the harbour of Sant Feliu de Guíxols.
Palacín, Silva María Victoria. "Visión artificial aplicada al monitoreo automatizado del proceso de cloración para mejorar la calidad del agua." Bachelor's thesis, Chiclayo, 2011. http://tesis.usat.edu.pe/jspui/handle/123456789/333.
Full textRoig, Hernández Ana Belén. "Medida y análisis de movimientos y vibraciones mediante sistemas de bajo coste basados en visión artificial." Doctoral thesis, Universidad de Alicante, 2014. http://hdl.handle.net/10045/41426.
Full textPalacín, Silva María Victoria, and Silva María Victoria Palacín. "Visión artificial aplicada al monitoreo automatizado del proceso de cloración para mejorar la calidad del agua." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2011. http://tesis.usat.edu.pe/handle/usat/536.
Full textTesis
Martínez, José Juan Manuel. "Sistema de Visión Artificial para la Detección y Corrección de Posturas en Ejercicios realizados por Fisicoculturistas." Tesis de Licenciatura, Universidad Autónoma del Estado de México, 2018. http://hdl.handle.net/20.500.11799/95190.
Full textSilva, Obregón Gustavo Manuel. "Efficient algorithms for convolutional dictionary learning via accelerated proximal gradient." Master's thesis, Pontificia Universidad Católica del Perú, 2019. http://hdl.handle.net/20.500.12404/13903.
Full textTesis
DAVILA, GARCIA JORGE RODRIGO 783566, and GARCIA JORGE RODRIGO DAVILA. "Sistema experto con visión artificial para la identificación de insectos descortezadores en especies de pino de los estados forestales más importantes de México." Tesis de maestría, Universidad Autónoma del Estado de México, 2019. http://hdl.handle.net/20.500.11799/98774.
Full textCONACyT, beca con número de registro 783566
Rosado, Rodrigo Pilar. "Formas latentes: protocolos de visión artificial para la detección de analogías aplicados a la catalogación y creación artísticas." Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/300302.
Full textThis thesis supports María Zambrano’s notion that the world within a painting is “a special place to stop and stare”. Painting relates people to the world around them and Zambrano understood this from the point of view of the creator rather than the scholar or critic. To create, she argued, you need to be able to look; and to look, you need to pay special attention to the shadows, which is where we “unveil the enigma that is closed inside painting”. Zambrano talked about seeing paintings “from the inside” after looking at them from outside.By using computer vision techniques to study the digitised images of large painting collections, the present study could also be said to examine paintings from the inside. Creation is often informed by accretion. Things come together and a line of activity is gradually embellished. But when the line becomes too narrow for comfort, the creator questions traditional practices and finds new techniques and hybrid disciplines. Throughout history, creating art and being innovative have been inseparable and this is why revolutions in technology are closely tied to our changing representation of reality. Many artists have found their own uses for technological innovation, whether borrowing from the advances in the early study of perspective, from the periods in history when light and colour were researched or from the advent of photography, film, video and the Internet. If 1990 was the year of the Human Genome Project, 2013 will be remembered for the US launch of the billion-dollar BRAIN Initiative (Brain Research through Advancing Innovative Neurotechnologies), which eventually hopes to map every neuron in the human brain, and the beginning of the EU’s equally costly Human Brain Project, which is creating new IT platforms in the field of brain simulation. In the decades to come, R&D in artificial intelligence is likely to generate a wide array of applications to extract and produce knowledge, which artists will be able to turn to their favour. A particularly important area of development will be computer vision, a subfield of artificial intelligence which programs computers to “understand” or “interpret” the content of a given scene or feature-rich image. Computer vision research currently faces two key issues: the limitations involved in recording the features of a given image in an abstract code and the difficulty of then interpreting the codes. The various models that have been developed and tested to negotiate these problems are regularly discussed and assessed in the literature. The objective of this thesis is to develop a series of computer vision programs to search for analogies in large datasets—in this case, collections of images of abstract paintings—based solely on their visual content without textual annotation. In this way, the researchers hope to develop a tool both for producing and analysing works of art. Chapter 1 begins by outlining the personal reasons why this research was undertaken and describes the major differences between visual language and verbal or textual language,evidenced by how we read and interpret each. It discusses the value to be derived from “letting images speak for themselves” and having direct access to the visual content of abstract paintings without textual annotation or contexts. It discusses antecedents in the history of the study of visual patterns, citing biologist D’Arcy Wentworth Thompson (who used physics and mathematics to study pattern-formation in the natural world), the visual syntax practised by structuralism and gestalt psychologies (which organise the elements in images into various groups), and the subject of how meaning is contained and expressed in the visual arts today. The researchers then describe the basic material this thesis uses—large collections or datasets of images of abstract paintings—and proposes that in abstract art the painter’s eye becomes the eye of a gatherer and producer of patterns and analogies culled from that person’s immediate environment. It argues that artists use essentially statistical principles from the moment they observe diversity to the time they process and finally abstract this into models they consider meaningful. About how art is interpreted and the discourse that emerges from the analysis of art collections, the researchers recall the visionary attempt by Aby Warburg’s Bilderatlas Mnemosyneto reconstruct an account of European civilisation almost solely on the basis of pictures and photographs, with hardly any recourse to textual annotation. Chapter 1 also observes that computer vision has already been employed to examine works of art, whether in the extensive use of fractal analysis in authentication studies or in the computer vision algorithms that help researchers study painters’ methods and tools in different periods of art history. One section describes the use of these techniques to classify artists’ paintings, for example to group paintings by pictorial style, in all cases applying machine learning techniques to a prior classification performed by art experts. As the researchers then explain, this thesis finds two new uses for computer vision techniques in art. First, it proposes that computer vision can help detect latent patterns in collections of abstract paintings; second, the method it develops to establish a visual taxonomy is totally automated and requires no previous intervention. The researchers argue that this application is novel and that, to date, any similar research has been limited to natural scene classification (with photographs of landscapes, interiors, cityscapes) and object detection.But the excellent results in these areas have encouraged the present study, whose premise is the following: any collection of abstract art will contain visual constants and formal correlations that can be computed with computer vision techniques, and these can incorporate mathematical similarity to explore an abstract painting as a surface of meaning. Chapter 2 provides a thorough account of the research methodology and is supported by appendices A and B, which describe the most important mathematical formulae and terminology, respectively. This chapter studies a specific model for describing pictures with computer vision. This consists in positioning a regular mesh of interest points in the image and selecting, around each mesh node, a region of pixels to be assigned a descriptor that remains invariant under different transformations and anticipates grayscale. By analysing the distances between the set of descriptors across the entire image collection, images can be grouped by similarity and groups can determine what we call ‘visual words’, meaning the arrays of pixels within an image that would correspond to the words within a text. The total number of visual words in a collection of images generates a visual vocabulary specific to that collection.In the literature, this is referred to as the Bag-of-Words model (hereafter, BoW) because it ignores spatial relationships and simply represents the image as a disordered bag of local visual features. Next, the chapter describes the implementation of a new description of the features of the image that captures spatial information. It explains how, once the visual vocabulary of the collection of images has been constructed, another level of information can be obtained using statistical models which discriminate distribution patterns between the visual words. Finally, this chapter also reports on the use of Haralick’s texture descriptor to obtain comparative results. Chapter 3 starts by presenting the four algorithms developed in this thesis: the algorithm for supervised classification, the algorithm for unsupervised classification, the algorithm based on Haralick’s texture descriptor and the algorithm for calculating Bhattacharyya‘s distance. In future studies of other art collections, the use of these instruments may become more widespread, providing a helpful point of view, broadening and facilitating the associations established between the works of the same artist in different periods or between different artists and periods. Chapter 3 then considers the results obtained by applying the algorithms to specific art collections. Three experiments were performed. First, the researchers analysed a set of 2846 photographs used by the artist Miquel Planas as a basis for artistic ideation, manually labelling the dataset to train the system to predict the classification of problematic images. Second, the same collection of images was subjected to a totally automated classification study in which the system autonomously detected the existing formal categories. Third, this same procedure was applied to a collection of 434 digitised images, mainly art book reproductions, of paintings and graphic works by Antoni Tàpies that belonged to the Tàpies Foundation in Barcelona (Tàpies, 2001). In this third experiment, the progression from photographs (Planas) to abstract paintings (Tàpies) Involved a new and complex challenge, given that the system had to classify images whose visual words (pixel arrays) did not identify natural features of the real world (‘water’, ‘stones’, ‘sky’) but rather the artist’s abstract constructions. This chapter also reports on the results of applying methods based on mathematical distances between images in the Tàpies collection and draws a dendogram of all the collection. This provides valuable insight on the formal relationships between groups of images and their degree of similarity. Chapter 3 concludes by analysing the groupings obtained with Haralick’s texture descriptor compared with the prior findings obtained with descriptors that remained invariant under different transformations. Finally, Chapter 4 discusses the contribution made by this study, draws conclusions and proposes future applications.
Moreno, García Carlos Francisco. "Learning the Consensus of Multiple Correspondences between Data Structures." Doctoral thesis, Universitat Rovira i Virgili, 2016. http://hdl.handle.net/10803/396142.
Full textEn esta tesis presentamos un marco de trabajo para aprender el consenso dadas múltiples correspondencias. Se asume que las distintas partes involucradas han generado dichas correspondencias por separado, y nuestro sistema actúa como un mecanismo que calibra distintas características y considera diferentes parámetros para aprender las mejores asignaciones y así, conformar una correspondencia con la mayor precisión posible a expensas de un costo computacional razonable. El marco de trabajo de consenso es presentado en una forma gradual, comenzando por los acercamientos más básicos que utilizaban exclusivamente conceptos bien definidos o únicamente un par de correspondencias, hasta el modelo final que es capaz de considerar múltiples correspondencias, con la capacidad de aprender automáticamente algunos parámetros de ponderación. Cada paso de este marco de trabajo es evaluado usando bases de datos de naturaleza variada para demostrar efectivamente que es posible tratar diferentes escenarios de matching. Adicionalmente, dos avances suplementarios relacionados con correspondencias son presentados en este trabajo. En primer lugar, una nueva métrica de distancia para correspondencias ha sido desarrollada, la cual derivó en una nueva estrategia para la búsqueda de medias ponderadas. En segundo lugar, un marco de trabajo específicamente diseñado para generar correspondencias en el campo del registro de imágenes ha sido establecida, donde se considera que una de las imágenes es una imagen completa, y la otra es una muestra pequeña de ésta. La conclusión presenta nuevas percepciones de cómo nuestro marco de trabajo de consenso puede ser mejorada, y cómo los dos desarrollos paralelos pueden converger con éste.
In this work, we present a framework to learn the consensus given multiple correspondences. It is assumed that the several parties involved have generated separately these correspondences, and our system acts as a mechanism that gauges several characteristics and considers different parameters to learn the best mappings and thus, conform a correspondence with the highest possible accuracy at the expense of a reasonable computational cost. The consensus framework is presented in a gradual form, starting from the most basic approaches that used exclusively well-known concepts or only two correspondences, until the final model which is able to consider multiple correspondences, with the capability of automatically learning some weighting parameters. Each step of the framework is evaluated using databases of varied nature to effectively demonstrate that it is capable to address different matching scenarios. In addition, two supplementary advances related on correspondences are presented in this work. Firstly, a new distance metric for correspondences has been developed, which lead to a new strategy for the weighted mean correspondence search. Secondly, a framework specifically designed for correspondence generation in the image registration field has been established, where it is considered that one of the images is a full image, and the other one is a small sample of it. The conclusion presents insights of how our consensus framework can be enhanced, and how these two parallel developments can converge with it.
Romero, Cortijo Anna Maria. "Mapeado y localización topológicos mediante información visual." Doctoral thesis, Universidad de Alicante, 2013. http://hdl.handle.net/10045/30275.
Full textIvorra, Martínez Eugenio. "Desarrollo de técnicas de visión hiperespectral y tridimensional para el sector agroalimentario." Doctoral thesis, Universitat Politècnica de València, 2015. http://hdl.handle.net/10251/48541.
Full textIvorra Martínez, E. (2015). Desarrollo de técnicas de visión hiperespectral y tridimensional para el sector agroalimentario [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/48541
TESIS
Sanz, Kirbis David. "Aplicación de las técnicas de visión artificial como herramientas de expresión audiovisual en el campo del cine interactivo." Doctoral thesis, Universitat Politècnica de València, 2014. http://hdl.handle.net/10251/36531.
Full textSanz Kirbis, D. (2014). Aplicación de las técnicas de visión artificial como herramientas de expresión audiovisual en el campo del cine interactivo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/36531
TESIS
Mauri, Loba César. "Avances en sistremas interactivos para personas con parálisis cerebral." Doctoral thesis, Universitat Rovira i Virgili, 2014. http://hdl.handle.net/10803/306266.
Full textLa Parálisis Cerebral es la discapacidad motora más común durante la infancia y consiste en una alteración de la movilidad debida a una lesión en el sistema nervioso central producida durante la etapa prenatal, perinatal o infantil. Estas lesiones, que no son una enfermedad, no evolucionan, pero sus consecuencias sí que interfieren en el desarrollo de la persona. Las dificultades motoras, que suelen ir acompañadas en muchas ocasiones por problemas sensoriales, alteraciones en la atención, cognición y otros, suponen un hándicap para la exploración del entorno, la participación en las actividades cotidianas y las relaciones con los iguales, que son la base del aprendizaje y el desarrollo. Esta tesis, que se encuadra dentro de la disciplina de la Interacción Persona-Ordenador (IPO), se centra en la concepción, aplicación y evaluación de sistemas interactivos para personas con parálisis cerebral. En primer lugar hacemos una revisión del estado del arte en sistemas interactivos audiovisuales para personas con parálisis cerebral. A continuación realizamos una propuesta de distintos métodos para el análisis de la calidad de la interacción. Después abordamos varias propuestas de sistemas interactivos basados en visión artificial diseñados para personas con parálisis cerebral. De entre éstas, hacemos especial énfasis en una propuesta de sistema interactivo audiovisual orientado a personas con trastornos físicos, cognitivos y sensoriales en grados moderado y severo que ha demostrado ser asequible para muchas de estas personas y les proporciona una experiencia lúdica motivadora, que facilita el trabajo de ciertas competencias por parte de los profesionales.
Cerebral Palsy is the most common motor disability in childhood and entails impaired mobility due to damage to the central nervous system just before or during the birth, or during the early childhood. These lesions, which are not a disease, are not progressive, but its consequences interfere with the development of the child. Motor impairments often come with other difficulties such as alterations in attention, cognition, and others. Such deficiencies are a handicap for the exploration of the environment, for the participation in daily activities and for the relationship with peers which are the basis for learning and development. This thesis, which falls within the Human-Computer Interaction (HCI) scope, focuses on the design, implementation and evaluation of interactive systems for people with cerebral palsy. Firstly, we review the state of the art in audio-visual interactive systems for people with cerebral palsy. Secondly, we propose different methods for analysing the quality of the interaction. Finally, we propose several interactive systems for people with cerebral palsy based on computer vision, among which we put special emphasis on an interactive audio-visual proposal aimed at people with physical, cognitive and sensory impairments in moderate and severe degrees. This system proved to be attainable for many of these people and to provide a motivating playing experience that allows professionals to develop some skills on the users.
Andreu, Cabedo Yasmina. "Face gender classification under realistic conditions. Dealing with neutral, expressive and partially occluded faces." Doctoral thesis, Universitat Jaume I, 2014. http://hdl.handle.net/10803/669061.
Full textAzorin-Lopez, Jorge. "Modelado de sistemas para visión de objetos especulares: inspección visual automática en producción industrial." Doctoral thesis, Universidad de Alicante, 2007. http://hdl.handle.net/10045/7751.
Full textSanz, Valero Pedro José. "Razonamiento geométrico basado en visión para la determinación y ejecución del agarre en robots manipuladores." Doctoral thesis, Universitat Jaume I, 1996. http://hdl.handle.net/10803/10378.
Full textLa elección de puntos de agarre se realiza mediante una nueva heurística que trata de manejar todo tipo de objetos planos con centroide exterior o interior, permitiendo agujeros. Sólo se requieren dos características basadas en los momentos, centroide y dirección del eje principal, obtenidos a partir de una representación del código de cadena de Freeman del contorno. Los resultados son parámetros visuales exclusivamente, expresados en coordenadas visuales (píxeles).
Dichos algoritmos se han implementado en un robot manipulador con 4 GDL y fijando una cámara CCD en su muñeca. El sistema de control utiliza realimentación visual, consiguiendo incrementar la precisión hasta el límite del sistema de visión utilizado.
Piscoya, Ferreñan Jesus Enrique. "Sistema de visión artificial para apoyar en la identificación de plagas y enfermedades del cultivo de sandía en el distrito de Ferreñafe." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2019. http://hdl.handle.net/20.500.12423/2356.
Full textCastro, Silupu Wilson Manuel. "Aplicación de la tecnología de imágenes hiperespectrales al control de calidad de productos agroalimentarios de la región de Amazonas (Perú)." Doctoral thesis, Universitat Politècnica de València, 2016. http://hdl.handle.net/10251/63250.
Full text[ES] La evaluación de la calidad de los productos agroalimentarios es una preocupación constante para los diversos actores de la cadena agroproductiva y requiere del uso de una serie de métodos de análisis: físicos, químicos, bioquímicos y sensoriales; los cuales son destructivos, demandan mucho tiempo, son costosos, laboriosos y, en el caso de los sensoriales, subjetivos, lo cual dificulta su aplicación en procesos en línea. Frente a las metodologías tradicionales, la tecnología de imágenes hiperespectrales surge como una herramienta no destructiva de evaluación de la calidad. En la Región Amazonas (Perú) la evaluación de la calidad se realiza con las metodologías tradicionales, lo cual presenta importantes limitaciones como, por ejemplo, la detección tardía de infecciones en cultivos, caso de la roya del café; la imposibilidad de determinar adulteraciones, caso de la presencia de almidón en queso fresco; o bien, la clasificación subjetiva según estándares de calidad, caso del marmoleado de carne de res. Por otro lado, la aplicación de la tecnología de imágenes hiperespectrales requiere de una serie de pasos para la obtención, procesado y análisis de la información, los cuales han sido desarrollados y aplicados por diversos investigadores, pero que no han sido unificados en unsistema y procedimiento para su uso por usuarios no familiarizados con la profundidad del análisis informático. En este contexto, la presente tesis doctoral se plantea con el fin de desarrollar una aplicación informática para el uso de la tecnología de imágenes hiperespectrales en la evaluación de la calidad de tres productos agroalimentarios de la Región Amazonas (Perú). Para ello, fue necesario crear una serie de subsistemas, módulos y rutinas, que posteriormente fueron implementadas mediante ventanas de usuario (Guides) y funciones, empleando el software matemático Matlab 2010ª. La aplicabilidad del sistema desarrollado se probó en tres casos de estudio: detección del grado de infección por roya en muestras de hojas de café, detección de la adulteración en muestras de queso fresco con almidón a distintas concentraciones, y clasificación según estándares de marmoleado de muestras de carne de res. Como resultado del desarrollo del sistema, las herramientas informáticas desarrolladas se implementaron en un software que permite fácil uso de las mismas y que es compatible con el sistema de adquisición de imágenes mediante en modo de reflactancia. En cuanto a los casos estudiados, los resultados del análisis de la infección temprana por roya en hojas de café, muestrandiferencias estadísticamente significativas con respecto al análisis por jueces, atribuiblesa la mayor sensibilidad del sistema. Para el análisis de la adulteración queso fresco se ha demostrado que la aplicación de la técnica de imágenes hiperespectrales permite detectar la adulteración por harina de maíz en queso fresco, en base a la relación entre la reflactanciay el contenido de almidón en muestras de queso fresco. Asimismo, la metodología implementada, basada en tecnología de imágenes hiperespectrales, probo ser válida para la determinación de la calidad de carne de res en base a la norma japonesa de marmoleado. Una versión avanzada del software podría ser patentada y transferida a la industria, en una fase posterior a la realización de esta tesis doctoral. Dicho software podría ser diseñado de tal forma que pudiera incluir de forma progresiva nuevas herramientas útiles en el control de calidad de otros procesos agroalimentarios.
[CAT] L'avaluació de la qualitat dels productes agroalimentaris és una preocupació constant per als diversos actors de la cadenaagroproductiva i requereix de l'ús d'una sèrie de mètodes d'anàlisis: físics, químics, bioquímics i sensorials; els quals són destructius, demanden molt temps, són costosos, laboriosos i, en el cas dels sensorials, subjectius, la qual cosa dificulta la seua aplicació en processos en línia. Enfront de les metodologies tradicionals, la tecnologia d'imatges hiperespectrals sorgeix com una eina no destructiva d'avaluació de la qualitat. En la Regió Amazones (Perú) l'avaluació de la qualitat es realitza amb les metodologies tradicionals, la qual cosa presenta importants limitacions com, per exemple, la detecció tardana d'infeccions en cultius, cas de la roia del cafè; la impossibilitat de determinar adulteracions, cas de la presència de midó en formatge fresc; o bé, la classificació subjectiva segons estàndards de qualitat, cas del marmolejat de carn de cap de bestiar. D'altra banda, l'aplicació de la tecnologia d'imatges hiperespectrals requereix d'una sèrie de passos per a l'obtenció, processament i anàlisi de la informació, els quals han sigut desenvolupats i aplicats per diversos investigadors, però que no han sigut unificats en un únic sistema i procediment per al seu ús per usuaris no familiaritzats amb la profunditat de l'anàlisi informàtica. En aquest context, la present tesi doctoral es planteja amb la finalitat de desenvolupar una aplicació informàtica per a l'ús de la tecnologia d'imatgeshiperespectrals en l'avaluació de la qualitat de tres productes agroalimentaris de la Regió Amazones (Perú). Per a açò, va ser necessari crear una sèrie de subsistemes, mòduls i rutines, que posteriorment van ser implementades mitjançant finestres d'usuari (Guides) i funcions, emprant el programari matemàtic Matlab 2010ª. L'aplicabilitat del sistema desenvolupat es va provar en tres casos d'estudi: detecció del grau d'infecció per roia en mostres de fulles de cafè, detecció de l'adulteració en mostres de formatge fresc amb midó a diferents concentracions, i classificació segons estàndards de marmolejat de mostres de carn de cap de bestiar. Com a resultat del desenvolupament del sistema, les eines informàtiques desenvolupades es van implementar en un programari que permet un fàcil ús de les mateixes i que és compatible amb el sistema d'adquisició d'imatges mitjançant reflactància. Quant als casos estudiats, els resultats de l'anàlisi de la infecció primerenca per roia en fulles de cafè, mostren diferències estadísticament significatives pel que fa a l'anàlisi per jutges, atribuïbles a la major sensibilitat del sistema. Per a l'anàlisi de l'adulteració formatge fresc s'ha demostrat que l'aplicació de la tècnica d'imatges hiperespectrals permet detectar l'adulteració per farina de dacsa en formatge fresc, sobre la base de la relació entre la reflactpància i el contingut de midó en mostres de formatge fresc. Així mateix, la metodologia implementada, basada en tecnologia d'imatges hiperespectrals, va provar ser vàlida per a la determinació de la qualitat de carn de cap de bestiar sobre la base de la norma japonesa de marmolejat. Una versió avançada del programari podria ser patentada i transferida a la indústria, en una fase posterior a la realització d'aquesta tesi doctoral. Aquest programari podria ser dissenyat de tal forma que poguera incloure de forma progressiva noves eines útils en el control de qualitat d'altres processos agroalimentaris.
Castro Silupu, WM. (2016). Aplicación de la tecnología de imágenes hiperespectrales al control de calidad de productos agroalimentarios de la región de Amazonas (Perú) [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/63250
TESIS
Presta, Masó Susanna. "Estudi fonamental i aplicat de l'etapa d'eliminació de tinta per flotació." Doctoral thesis, Universitat de Girona, 2006. http://hdl.handle.net/10803/7794.
Full textL'estudi del procés d'adhesió de tinta a la superfície de bombolles d'aire s'ha realitzat mitjançant visió artificial. Els resultats obtinguts han mostrat que un excés de tensioactiu provoca una disminució de la quantitat de tinta unida a la bombolla d'aire i per tant una disminució de l'eficàcia del procés de flotació.
La caracterització de les bombolles d'aire presents en una cel·la de flotació ha posat de manifest que tant el cabal d'aire com la velocitat de l'agitador configuren la distribució de diàmetres final. L'estudi del procés d'eliminació de tinta per flotació en absència de fibres cel·lulòsiques ha mostrat que les variables físico-químiques estudiades són les que tenen una major influència en el procés d'eliminació de tinta tòner per flotació.
Finalment s'han addicionat fibres cel·lulòsiques a la suspensió. S'ha pogut comprovar que s'aconsegueix una bona eliminació de tinta sempre i quan les condicions hidrodinàmiques siguin les adequades.
First of all the adhesion of ink particles to air bubbles surface was studied by means of artificial vision. Results obtained showed that an excess of surfactant decreases ink adsorption decreasing flotation efficiency.
Air bubbles created in a lab-scale flotation cell were characterized by means of artificial vision. Results showed that air flow and agitation rate configure the final air bubble distribution.
Ink removal from a flotation cell was studied without the presence of cellulose fibers. Results obtained showed that the physico-chemical variables studied had a major influence on ink removal than hydrodynamic variables studied.
Finally, cellulose fibers were added to the suspension. Results obtained showed that it was possible to obtain good flotation results provided that the hydrodynamic conditions were carefully adjusted.
Cubero, García Sergio. "Diseño e implementación de nuevas tecnologías basadas en visión artificial para la inspección no destructiva de la calidad de fruta en campo y mínimamente procesada." Doctoral thesis, Universitat Politècnica de València, 2012. http://hdl.handle.net/10251/15999.
Full textCubero García, S. (2012). Diseño e implementación de nuevas tecnologías basadas en visión artificial para la inspección no destructiva de la calidad de fruta en campo y mínimamente procesada [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/15999
Palancia
Polo, Castro Julio Cesar, and Castro Julio Cesar Polo. "Sistema de visión artificial basado en la detección de los movimientos del ojo, para mejorar la atención de los pacientes con síndrome de Guillain Barré." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2015. http://tesis.usat.edu.pe/handle/usat/524.
Full textTesis
Montoliu, Colás Raúl. "Generalized least squares-based parametric motion estimation and segmentation." Doctoral thesis, Universitat Jaume I, 2008. http://hdl.handle.net/10803/669148.
Full textThis thesis proposes several techniques related with the motion estimation problem. In particular, it deals with global motion estimation for image registration and motion segmentation. In the first case, we will suppose that the majority of the pixels of the image follow the same motion model, although the possibility of a large number of outliers are also considered. In the motion segmentation problem, the presence of more than one motion model will be considered. In both cases, sequences of two consecutive grey level images will be used. A new generalized least squares-based motion estimator will be proposed. The proposed formulation of the motion estimation problem provides an additional constraint that helps to match the pixels using image gradient information. That is achieved thanks to the use of a weight for each observation, providing high weight values to the observations considered as inliers, and low values to the ones considered as outliers. To avoid falling in a local minimum, the proposed motion estimator uses a Feature-based method (SIFT-based) to obtain good initial motion parameters. Therefore, it can deal with large motions like translation, rotations, scales changes, viewpoint changes, etc. The accuracy of our approach has been tested using challenging real images using both affine and projective motion models. Two Motion Estimator techniques, which use M-Estimators to deal with outliers into a iteratively reweighted least squared-based strategy, have been selected to compare the accuracy of our approach. The results obtained have showed that the proposed motion estimator can obtain as accurate results as M-Estimator-based techniques and even better in most cases. The problem of estimating accurately the motion under non-uniform illumination changes will also be considered. A modification of the proposed global motion estimator will be proposed to deal with this kind of illumination changes. In particular, a dynamic image model where the illumination factors are functions of the localization will be used replacing the brightens constancy assumption allowing for a more general and accurate image model. Experiments using challenging images will be performed showing that the combination of both techniques is feasible and provides accurate estimates of the motion parameters even in the presence of strong illumination changes between the images. The last part of the thesis deals with the motion estimation and segmentation problem. The proposed algorithm uses temporal information, by using the proposed generalized least-squares motion estimation process and spatial information by using an iterative region growing algorithm which classifies regions of pixels into the different motion models present in the sequence. In addition, it can extract the different moving regions of the scene while estimating its motion quasi-simultaneously and without a priori information of the number of moving objects in the scene. The performance of the algorithm will be tested on synthetic and real images with multiple objects undergoing different types of motion.
Polo, Castro Julio Cesar. "Sistema de visión artificial basado en la detección de los movimientos del ojo, para mejorar la atención de los pacientes con síndrome de Guillain Barré." Bachelor's thesis, Chiclayo, 2015. http://tesis.usat.edu.pe/jspui/handle/123456789/544.
Full textViejo, Hernando Diego. "Modelización robusta de entornos semi-estructurados: una aplicación al mapeado 6DoF en robótica móvil." Doctoral thesis, Universidad de Alicante, 2008. http://hdl.handle.net/10045/9592.
Full textKachach, Redouane. "Monitorización visual automática de tráfico rodado." Doctoral thesis, Universidad de Alicante, 2016. http://hdl.handle.net/10045/68987.
Full textAlbert, Gil Francisco Eugenio. "Análisis de motivos decorativos de tejidos y revestimientos cerámicos en el entorno de la visión artificial. Aplicación a la reconstrucción de motivos históricos y al diseño." Doctoral thesis, Universitat Politècnica de València, 2008. http://hdl.handle.net/10251/1936.
Full textAlbert Gil, FE. (2006). Análisis de motivos decorativos de tejidos y revestimientos cerámicos en el entorno de la visión artificial. Aplicación a la reconstrucción de motivos históricos y al diseño [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1936
Palancia
Oliver, i. Malagelada Arnau. "Automatic mass segmentation in mammographic images." Doctoral thesis, Universitat de Girona, 2007. http://hdl.handle.net/10803/7739.
Full textThis thesis deals with the detection of masses in mammographic images. As a first step, Regions of Interests (ROIs) are detected in the image using templates containing a probabilistic contour shape obtained from training over an annotated set of masses. Firstly, PCA is performed over the training set, and subsequently the template is formed as an average of the gradient of eigenmasses weighted by the top eigenvalues. The template can be deformed according to each eigenmass coefficient. The matching is formulated in a Bayesian framework, where the prior penalizes the deformation, and the likelihood requires template boundaries to agree with image edges. In the second stage, the detected ROIs are classified into being false positives or true positives using 2DPCA, where the new training set now contains ROIs with masses and ROIs with normal tissue. Mass density is incorporated into the whole process by initially classifying the two training sets according to breast density. Methods for breast density estimation are also analyzed and proposed. The results are obtained using different databases and both FROC and ROC analysis demonstrate a better performance of the approach relative to competing methods.
Puertas, i. Prats Eloi. "Generalized Stacked Sequential Learning." Doctoral thesis, Universitat de Barcelona, 2014. http://hdl.handle.net/10803/285969.
Full textHernández-Vela, Antonio. "From pixels to gestures: learning visual representations for human analysis in color and depth data sequences." Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/292488.
Full textL’anàlisi visual de persones a partir d'imatges és un tema de recerca molt important, atesa la rellevància que té a una gran quantitat d'aplicacions dins la visió per computador, com per exemple: detecció de vianants, monitorització i vigilància,interacció persona-màquina, “e-salut” o sistemes de recuperació d’matges a partir de contingut, entre d'altres. En aquesta tesi volem aprendre diferents representacions visuals del cos humà, que siguin útils per a la anàlisi visual de persones en imatges i vídeos. Per a tal efecte, analitzem diferents modalitats d'imatge com són les imatges de color RGB i les imatges de profunditat, i adrecem el problema a diferents nivells d'abstracció, des dels píxels fins als gestos: segmentació de persones, estimació de la pose humana i reconeixement de gestos. Primer, mostrem com la segmentació binària (objecte vs. fons) del cos humà en seqüències d'imatges ajuda a eliminar soroll pertanyent al fons de l'escena en qüestió. El mètode presentat, basat en optimització “Graph cuts”, imposa consistència espai-temporal a Ies màscares de segmentació obtingudes en “frames” consecutius. En segon lloc, presentem un marc metodològic per a la segmentació multi-classe, amb la qual podem obtenir una descripció més detallada del cos humà, en comptes d'obtenir una simple representació binària separant el cos humà del fons, podem obtenir màscares de segmentació més detallades, separant i categoritzant les diferents parts del cos. A un nivell d'abstraccíó més alt, tenim com a objectiu obtenir representacions del cos humà més simples, tot i ésser suficientment descriptives. Els mètodes d'estimació de la pose humana sovint es basen en models esqueletals del cos humà, formats per segments (o rectangles) que representen les extremitats del cos, connectades unes amb altres seguint les restriccions cinemàtiques del cos humà. A la pràctica, aquests models esqueletals han de complir certes restriccions per tal de poder aplicar mètodes d'inferència que permeten trobar la solució òptima de forma eficient, però a la vegada aquestes restriccions suposen una gran limitació en l'expressivitat que aques.ts models son capaços de capturar. Per tal de fer front a aquest problema, proposem un enfoc “top-down” per a predir la posició de les parts del cos del model esqueletal, introduïnt una representació de parts de mig nivell basada en “Poselets”. Finalment. proposem un marc metodològic per al reconeixement de gestos, basat en els “bag of visual words”. Aprofitem els avantatges de les imatges RGB i les imatges; de profunditat combinant vocabularis visuals específiques per a cada modalitat, emprant late fusion. Proposem un nou descriptor per a imatges de profunditat invariant a rotació, que millora l'estat de l'art, i fem servir piràmides espai-temporals per capturar certa estructura espaial i temporal dels gestos. Addicionalment, presentem una reformulació probabilística del mètode “Dynamic Time Warping” per al reconeixement de gestos en seqüències d'imatges. Més específicament, modelem els gestos amb un model probabilistic gaussià que implícitament codifica possibles deformacions tant en el domini espaial com en el temporal.
Navarro, Toro Agustín Alfonso. "Angular variation as a monocular cue for spatial percepcion." Doctoral thesis, Universitat Politècnica de Catalunya, 2009. http://hdl.handle.net/10803/48632.
Full textLas señales monoculares son entradas sensoriales capturadas exclusivamente por un solo ojo que ayudan a la percepción de distancia o espacio. Son en su mayoría características estáticas que proveen información de profundidad y son muy utilizadas en arte gráfico para crear apariencias reales de una escena. Dado que la información espacial contenida en dichas señales son extraídas de la retina, la existencia de una relación entre esta extracción de información y la teoría de percepción directa puede ser convenientemente asumida. De acuerdo a esta teoría, la información espacial de todo le que vemos está directamente contenido en el arreglo óptico. Por lo tanto, esta suposición hace posible el modelado de procesos de percepción visual a través de enfoques computacionales. En esta tesis doctoral, la variación angular es considerada como una señal monocular, y el concepto de percepción directa adoptado por un enfoque basado en algoritmos de visión por computador que lo consideran un principio apropiado para el desarrollo de nuevas técnicas de cálculo de información espacial. La información espacial esperada a obtener de esta señal monocular es la posición y orientación de un objeto con respecto al observador, lo cual en visión por computador es un conocido campo de investigación llamado estimación de la pose 2D-3D. En esta tesis doctoral, establecer la variación angular como señal monocular y conseguir un modelo matemático que describa la percepción directa, se lleva a cabo mediante el desarrollo de un grupo de métodos de estimación de la pose. Partiendo de estrategias convencionales, un primer enfoque implanta restricciones geométricas en ecuaciones para relacionar características del objeto y la imagen. En este caso, dos algoritmos basados en el análisis de movimientos de rotación de una línea recta fueron desarrollados. Estos algoritmos exitosamente proveen información de la pose. Sin embargo, dependen fuertemente de condiciones de la escena. Para superar esta limitación, un segundo enfoque inspirado en los procesos biológicos ejecutados por el sistema visual humano fue desarrollado. Está basado en el propio contenido de la imagen y define un enfoque computacional a la percepción directa. El grupo de algoritmos desarrollados analiza las propiedades visuales suministradas por variaciones angulares. El propósito principal es el de reunir datos de importancia con los cuales la información espacial pueda ser obtenida y utilizada para emular procesos de percepción visual mediante el establecimiento de relaciones métricas 2D- 3D. Debido a que dicha relación es considerada fundamental en la coordinación visuomotora y consecuentemente esencial para interactuar con lo que nos rodea, un efecto cognitivo significativo puede ser producido por la aplicación de métodos de L estimación de pose en entornos mediados tecnológicamente. En esta tesis doctoral, este efecto cognitivo ha sido demostrado por un estudio experimental en el cual un número de participantes fueron invitados a ejecutar una tarea de acción-percepción. El propósito principal de este estudio fue el análisis de la conducta guiada visualmente en teleoperación y el efecto cognitivo causado por la inclusión de información 3D. Los resultados han presentado una influencia notable de la ayuda 3D en la mejora de la habilidad, así como un aumento de la sensación de presencia.
Torres, Farro Denis Joel. "Sistema inteligente con visión computacional para mejorar la postura en la fase de salida de los atletas con discapacidad física, mental e intelectual del club Oswen, Chiclayo-Perú." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2021. http://hdl.handle.net/20.500.12423/3715.
Full textCortés, Daniel. "Modelado y simulación para la predicción de explosiones en espacios confinados." Doctoral thesis, Universidad de Alicante, 2021. http://hdl.handle.net/10045/115293.
Full textMonzó, Ferrer David. "Contributions on Automatic Recognition of Faces using Local Texture Features." Doctoral thesis, Universitat Politècnica de València, 2012. http://hdl.handle.net/10251/16698.
Full textMonzó Ferrer, D. (2012). Contributions on Automatic Recognition of Faces using Local Texture Features [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/16698
Palancia
Manresa, Yee Cristina Suemay. "Advanced and natural interaction system for motion-impaired users." Doctoral thesis, Universitat de les Illes Balears, 2009. http://hdl.handle.net/10803/9412.
Full textThe research's main contribution is SINA, a hands-free interface based on computer vision techniques for motion impaired users. This interface does not require the user to use his upper body limbs, as only nose motion is considered. Besides the technical aspect, user's satisfaction when using an interface is a critical issue. The approach that we have adopted is to integrate usability evaluation at relevant points of the software development.
Albó, Canals Jordi. "Cellular Nonlinear Networks: optimized implementation on FPGA and applications to robotics." Doctoral thesis, Universitat Ramon Llull, 2012. http://hdl.handle.net/10803/82066.
Full textEl objetivo principal de esta tesis consiste en estudiar la factibilidad de implementar un sensor cámara CNN con plena funcionalidad basado en FPGA de bajo coste adecuado para aplicaciones en robots móviles. El estudio de los fundamentos de las redes celulares no lineales (CNNs) y su aplicación eficaz en matrices de puertas programables (FPGAs) se ha complementado, por un lado con el paralelismo que se establece entre arquitectura multi -núcleo de las CNNs y los enjambres de robots móviles, y por el otro lado con la correlación dinámica de CNNs y arquitecturas memristive. Además, los memristors se consideran los sustitutos de los futuros dispositivos de memoria flash por su capacidad de integración de alta densidad y su consumo de energía cerca de cero. En nuestro caso, hemos estado interesados en el desarrollo de FPGAs que han dejado de ser simples dispositivos para la creación rápida de prototipos ASIC para convertirse en completos dispositivos reconfigurables con integración de la memoria y los elementos de procesamiento general. En particular, se han explorado como las arquitecturas implementadas CNN en FPGAs pueden ser optimizadas en términos de área ocupada en el dispositivo y su consumo de potencia. Nuestro objetivo final nos ah llevado a implementar de manera eficiente una CNN-UM con completo funcionamiento a un bajo coste y bajo consumo sobre una FPGA con tecnología flash. Por lo tanto, futuros estudios sobre la arquitectura eficiente de la CNN sobre la FPGA y la interconexión con los robots comerciales disponibles es uno de los objetivos de esta tesis que se seguirán en las líneas de futuro expuestas en este trabajo.
The main goal of this thesis consists in studying the feasibility to implement a full-functionality CNN camera sensor based on low-cost FPGA device suitable for mobile robotic applications. The study of Cellular Nonlinear Networks (CNNs) fundamentals and its efficient implementation on Field Programmable Gate Arrays (FPGAs) has been complemented, on one side with the parallelism established between multi-core CNN architecture and swarm of mobile robots, and on the other side with the dynamics correlation of CNNs and memristive architectures. Furthermore, memristors are considered the future substitutes of flash memory devices because of its capability of high density integration and its close to zero power consumption. In our case, we have been interested in the development of FPGAs that have ceased to be simple devices for ASIC fast prototyping to become complete reconfigurable devices embedding memory and processing elements. In particular, we have explored how the CNN architectures implemented on FPGAs can be optimized in terms of area occupied on the device or power consumption. Our final accomplishment has been implementing efficiently a fully functional reconfigurable CNN-UM on a low-cost low-power FPGA based on flash technology. Therefore, further studies on an efficient CNN architecture on FPGA and interfacing it with commercially-available robots is one of the objectives of this thesis that will be followed in the future directions exposed in this work.
Rabie, Tamer F. "Animat vision, active vision in artificial animals." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1999. http://www.collectionscanada.ca/obj/s4/f2/dsk1/tape7/PQDD_0007/NQ41282.pdf.
Full textPasapera, Huamán Lui Gustavo. "Estudio de la segmentación semántica para la navegación autónoma de un vehículo que circula en las calles de la provincia de Huamanga." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/18082.
Full textTrabajo de investigación
Luwes, Nicolaas Johannes. "Artificial intelligence machine vision grading system." Thesis, Bloemfontein : Central University of Technology, Free State, 2014. http://hdl.handle.net/11462/35.
Full text