Dissertations / Theses: 'Visión computacional'

1

Palma, Amestoy Rodrigo. "Visión Computacional Robótica Basada en Contexto." Tesis, Universidad de Chile, 2011. http://repositorio.uchile.cl/handle/2250/102545.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Ahumada, Gaarn Alejandra Andrea. "Clasificación de calidad sensorial de sopaipillas mediante visión computacional." Tesis, Universidad de Chile, 2011. http://www.repositorio.uchile.cl/handle/2250/115418.

Full text

Abstract:

Memoria para optar al título de Ingeniero en Alimentos El objetivo principal de este estudio fue desarrollar y optimizar una fórmula de sopaipillas a través de la evaluación de la calidad sensorial y por medio de la aplicación de visión computacional, con el fin de encontrar el mejor clasificador que permita reconocer distintos grados de calidad y predecir características sensoriales. Para ello, en primera instancia, se seleccionó y entrenó un panel sensorial para la evaluación de sopaipillas, quedando el panel compuesto por 10 jueces. Se usó un diseño central rotacional compuesto, con el fin de obtener una superficie de respuesta, cuyas variables experimentales fueron cantidad de zapallo (5,5 a 27% del total de masa) y temperatura de fritura (150 a 190°C). Las variables de respuesta correspondieron a los atributos sensoriales color, apariencia/forma, aroma, sabor y textura, evaluados mediante un test de valoración de calidad de 9 puntos, con una tabla diseñada especialmente para sopaipillas. Se estandarizó la humedad de la masa previo a la fritura de todas las formulaciones, hasta llegar a un 40±2% (b.h.). También, a través de ensayos preliminares, se ajustó el tiempo de fritura de las formulaciones para obtener un producto con un 23±2% de humedad (b.h.). Se optimizaron en forma individual las variables de respuesta color, aroma, sabor y textura a través de la metodología de superficie de respuesta, y se realizó una optimización múltiple de los atributos, obteniendo finalmente una formulación optimizada de sopaipilla con 27% de zapallo, frita a una temperatura de 170°C durante 3 minutos. Mediante un sistema de visión computacional se obtuvo las imágenes digitales de las distintas formulaciones de sopaipillas, extrayendo sus características de intensidad de color. La categoría de calidad obtenida sensorialmente fue asignada a las fotografías de las formulaciones correspondientes y luego se realizó la clasificación automática. Los mejores resultados se obtuvieron con el clasificador qda (análisis discriminante cuadrático), el cual permite clasificar las muestras en sus grados de calidad, obteniendo un porcentaje de aciertos entre 91,3 y 98,7% con un promedio de 95%, lo que indica una muy buena predicción de las variables sensoriales a través de la visión computacional The purpose of this study was to develop and optimize a formulation of sopaipillas through sensory quality evaluation, and the use of computer vision to find the best classifier that allows to distinguish different degrees of quality and to predict sensorial characteristics. To achieve this, firstly a panel was selected and trained for the evaluation of sopaipillas obtaining a panel of 10 assessors. A central composite rotational design was used to obtain a response surface, and its experimental variables were the amount of pumpkin (5.5 to 27% of the total dough) and frying temperature (150°C to 190°C). The response variables corresponded to the sensory attributes color, appearance/shape, aroma, flavor, and texture, all evaluated using a 9 point quality scoring test, with a scorecard especially designed for sopaipillas. The moisture of the dough was standardized before frying, reaching 40±2% (w.b.). Likewise, through preliminary trials, the frying time of the formulations was adjusted to obtain a final product with moisture of 23±2% (w.b.). The response variables color, aroma, flavor and texture were optimized individually using response surface methodology, and a multiple optimization of the attributes was carried out, obtaining an optimized sopaipilla formulation with 27% of pumpkin fried at a temperature of 170°C for 3 minutes. Through a system of computer vision, digital images of the sopaipilla formulations were obtained, extracting its color intensity characteristics. The sensory quality category was assigned to the corresponding photographs of the formulations and then an automatic classification was carried out. The best results were obtained with the qda classifier (Quadratic Discriminant Analysis), which allows classification of the samples according to its quality degrees, with a success rate between 91.3 and 98.7% with an average of 95%, which indicates a very good prediction of the sensorial variables through computer vision FONDECYT

APA, Harvard, Vancouver, ISO, and other styles

3

Flores, Gutiérrez Estefanía. "Determinación de la calidad en chips de manzana frita mediante visión computacional." Tesis, Universidad de Chile, 2010. http://www.repositorio.uchile.cl/handle/2250/105336.

Full text

APA, Harvard, Vancouver, ISO, and other styles

4

Ramirez, Montecinos Daniela Elisa. "Sistema de visión computacional estereoscópico aplicado a un robot cilíndrico accionado neumáticamente." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2017. http://hdl.handle.net/10183/165141.

Full text

Abstract:

In the industrial area, robots are an important part of the technological resources available to perform manipulation tasks in manufacturing, assembly, the transportation of dangerous waste, and a variety of applications. Specialized systems of computer vision have entered the market to solve problems that other technologies have been unable to address. This document analyzes a stereo vision system that is used to provide the center of mass of an object in three dimensions. This kind of application is mounted using two or more cameras that are aligned along the same axis and give the possibility to measure the depth of a point in the space. The stereoscopic system described, measures the position of an object using a combination between the 2D recognition, which implies the calculus of the coordinates of the center of mass and using moments, and the disparity that is found comparing two images: one of the right and one of the left. This converts the system into a 3D reality viewfinder, emulating the human eyes, which are capable of distinguishing depth with good precision.The proposed stereo vision system is integrated into a 5 degree of freedom pneumatic robot, which can be programmed using the GRAFCET method by means of commercial software. The cameras are mounted in the lateral plane of the robot to ensure that all the pieces in the robot's work area can be observed.For the implementation, an algorithm is developed for recognition and position measurement using open sources in C++. This ensures that the system can remain as open as possible once it is integrated with the robot. The validation of the work is accomplished by taking samples of the objects to be manipulated and generating robot's trajectories to see if the object can be manipulated by its end effector or not. The results show that is possible to manipulate pieces in a visually crowded space with acceptable precision. However, the precision reached does not allow the robot to perform tasks that require higher accuracy as the one is needed in manufacturing assembly process of little pieces or in welding applications. En el área industrial los robots forman parte importante del recurso tecnológico disponible para tareas de manipulación en manufactura, ensamble, manejo de residuos peligrosos y aplicaciones varias. Los sistemas de visión computacional se han ingresado al mercado como soluciones a problemas que otros tipos de sensores y métodos no han podido solucionar. El presente trabajo analiza un sistema de visión estereoscópico aplicado a un robot. Este arreglo permite la medición de coordenadas del centro de un objeto en las tres dimensiones, de modo que, le da al robot la posibilidad de trabajar en el espacio y no solo en un plano. El sistema estereoscópico consiste en el uso de dos o más cámaras alineadas en alguno de sus ejes, mediante las cuales, es posible calcular la profundidad a la que se encuentran los objetos. En el presente, se mide la posición de un objeto haciendo una combinación entre el reconocimiento 2D y la medición de las coordenadas y de su centro calculadas usando momentos. En el sistema estereoscópico, se añade la medición de la última coordenada mediante el cálculo de la disparidad encontrada entre las imágenes de las cámaras inalámbricas izquierda y derecha, que convierte al sistema en un visor 3D de la realidad, emulando los ojos humanos capaces de distinguir profundidades con cierta precisión. El sistema de visión computacional propuesto es integrado a un robot neumático de 5 grados de libertad el cual puede ser programado desde la metodología GRAFCET mediante software de uso comercial. Las cámaras del sistema de visión están montadas en el plano lateral del robot de modo tal, que es posible visualizar las piezas que quedan dentro de su volumen de trabajo. En la implementación, se desarrolla un algoritmo de reconocimiento y medición de posición, haciendo uso de software libre en lenguaje C++. De modo que, en la integración con el robot, el sistema pueda ser lo más abierto posible. La validación del trabajo se logra tomando muestras de los objetos a ser manipulados y generando trayectorias para el robot, a fin de visualizar si la pieza pudo ser captada por su garra neumática o no. Los resultados muestran que es posible lograr la manipulación de piezas en un ambiente visualmente cargado y con una precisión aceptable. Sin embargo, se observa que la precisión no permite que el sistema pueda ser usado en aplicaciones donde se requiere precisión al nivel de los procesos de ensamblado de piezas pequeñas o de soldadura.

APA, Harvard, Vancouver, ISO, and other styles

5

Quezada, Catalán Natalia. "Clasificación de la calidad sensorial de pan tipo hallulla mediante visión computacional." Tesis, Universidad de Chile, 2011. http://repositorio.uchile.cl/handle/2250/105382.

Full text

Abstract:

Memoria para optar al título de Ingeniero en Alimentos (Clasificación de la calidad sensorial de pan tipo hallulla mediante visión computacional) La alta frecuencia de consumo de productos amiláceos procesados a altas temperaturas tales como el pan, caracteriza la dieta de gran parte de la población occidental. Chile es el segundo consumidor de pan en el mundo, y primer consumidor en Latinoamérica, alcanzando los 96 kilos per cápita de pan al año. Además cerca de un 59% de la población consume al menos 3 veces por semana pan, siendo indispensable en la canasta alimenticia de los chilenos. El objetivo de esta investigación fue optimizar la calidad sensorial de una formulación de pan tipo hallulla, y obtener un clasificador de calidad a través de visión computacional. Se entrenó un panel sensorial de diez jueces previamente seleccionados, con descriptores de color de corteza, textura, apariencia, sabor y olor; y se diseñó una tabla de valoración de calidad Karlsruhe específica para pan tipo hallulla. Se aplicó un diseño central rotacional compuesto con 3 puntos centrales, los factores experimentales fueron tiempo de fermentación (0 a 20 minutos) y tiempo de horneado (7 a 19 minutos) y las variables respuesta fueron la calidad sensorial de color, textura, apariencia, sabor y olor. Con los resultados obtenidos para las corridas del diseño, se optimizaron los atributos color, olor, sabor y textura; ya que no arrojaron diferencias entre jueces (p>0,05) pero sí entre las muestras (p<0,05). Estos cuatro atributos presentaron un muy buen ajuste al optimizar en forma separada, con un coeficiente de determinación R2 mayor o igual a 0,85; por lo que se realizó una optimización múltiple, que dio como resultados un óptimo con 17,6 minutos de fermentación y 15 minutos de horneado, con una función de deseabilidad de 0,97. El análisis de la fórmula optimizada, dio una humedad de un 24%, aportando en energía 317 kcal por 100 gramos de pan tipo hallulla, con aw 0,87.Con los resultados de la evaluación del panel sensorial para pan tipo hallulla, se logró definir el grado de calidad para cada corrida del diseño experimental, las cuales se utilizaron para entrenar el programa Matlab para la técnica de visión computacional. Con la obtención de las imágenes digitales de las corridas del diseño experimental, segmentación y extracción de características de color mediante la técnica de visión computacional, se pudo obtener un clasificador qda (discriminante de análisis cuadrático), con un porcentaje de 83% de acierto, con las 7 mejores características seleccionadas por el programa.

APA, Harvard, Vancouver, ISO, and other styles

6

Morales, Ravano Constanza Alejandra. "Clasificación de calidad sensorial de papas fritas tipo chips mediante visión computacional." Tesis, Universidad de Chile, 2008. http://www.repositorio.uchile.cl/handle/2250/105278.

Full text

APA, Harvard, Vancouver, ISO, and other styles

7

Álvarez, Fernández Susana. "Revisión de la teoría de los Textons. Enfoque computacional en color." Doctoral thesis, Universitat Autònoma de Barcelona, 2010. http://hdl.handle.net/10803/3065.

Full text

Abstract:

El color y la textura son dos estímulos visuales importantes para la interpretación de las imágenes. La definición de descriptores computacionales que combinan estas dos características es aún un problema abierto. La dificultad se deriva esencialmente de la propia naturaleza de ambas, mientras que la textura es una propiedad de una región, el color es una propiedad de un punto. Hasta ahora se han utilizado tres los tipos de aproximaciones para la combinación, (a) se describe la textura directamente en cada uno de los canales color, (b) se describen textura y color por separado y se combinan al final, y (c) la combinación se realiza con técnicas de aprendizaje automático. Considerando que este problema se resuelve en el sistema visual humano en niveles muy tempranos, en esta tesis se propone estudiar el problema a partir de la implementación directa de una teoría perceptual, la teoría de los textons, y explorar así su extensión a color. Puesto que la teoría de los textons se basa en la descripción de la textura a partir de las densidades de los atributos locales, esto se adapta perfectamente al marco de trabajo de los descriptores holísticos (bag-of-words). Se han estudiado diversos descriptores basados en diferentes espacios de textons, y diferentes representaciones de las imágenes. Asimismo se ha estudiado la viabilidad de estos descriptores en una representación conceptual de nivel intermedio. Los descriptores propuestos han demostrado ser muy eficientes en aplicaciones de recuperación y clasificación de imágenes, presentando ventajas en la generación de vocabularios. Los vocabularios se obtienen cuantificando directamente espacios de baja dimensión y la perceptualidad de estos espacios permite asociar semántica de bajo nivel a las palabras visuales. El estudio de los resultados permite concluir que si bien la aproximación holística es muy eficiente, la introducción de co-ocurrencia espacial de las propiedades de forma y color de los blobs de la imagen es un elemento clave para su combinación, hecho que no contradice las evidencias en percepción. Colour and texture are important visual cues for image understanding. The definition of computational descriptors that combine both features is still an open problem. The difficulty is essentially due to the inherent nature of both cues, while texture is a property of a region, colour is a property of a point. Since now three approaches have been used for combining cues, (a) texture is directly described in each one of the colour channels, (b) texture and colour are described separately and combined in a latter step, and (c) the combination is done using machine learning techniques. Considering that this issue is solved at early stages of the human visual system, in this work we propose to study the problem using a direct implementation of a perceptual theory, the texton theory, and to explore its extension to colour. Since texton theory is based on the description of texture by the densities of local attributes, this matches perfectly with an holistic framework where descriptors are based on bag-of-words. Some descriptors based on different textons spaces and different image representations have been studied. Furthermore, the feasibility of these descriptors has also been studied for intermediate levels of image representation. The proposed descriptors have proved high efficiency in retrieval and image classification. They also present some advantages in vocabulary generation. The quantification is done directly on low-dimensional spaces, whose perceptual properties allow low-level semantic associations to the visual words. The results make us to conclude that although the performance of holistic approaches is high, the introduction of spatial co-ocurrence of blob properties, shape and colour, is a key element for their combination. This conclusion agrees with perceptual evidences.

APA, Harvard, Vancouver, ISO, and other styles

8

Cerda-Company, Xim. "Understanding color vision: from psychophysics to computational modeling." Doctoral thesis, Universitat Autònoma de Barcelona, 2019. http://hdl.handle.net/10803/667177.

Full text

Abstract:

En aquest doctorat, hem estudiat la visió del color dels humans des de dos punts de vista diferents: la psicofísica i la modelització computacional. Primer, hem avaluat 15 "tone-mapping operators" (TMOs) diferents en dos experiments que consideren criteris diferents: el primer té en compte les relacions locals entre nivells d'intensitat i el segon avalua l'aparença global de la imatge resultant respecte l'escena física (presentades una al costat de l'altra). La conclusió és que els rankings depenen del criteri utilitzat i que no estan correlacionats. Considerant els dos criteris, els millors TMOs són el KimKautz (Kim and Kautz, 2008) i el Krawczyk (Krawczyk et al., 2005). Tot i això, s'han de definir criteris estàndards per a poder fer una comparació justa entre els diferents TMOs. Després, hem realitzat diferents experiments psicofísics per estudiar la inducció del color. Bàsicament, hem estudiat dues propietats diferents dels estímuls: la freqüència temporal i la distribució espaial de la lluminància. Per a estudiar la freqüència temporal, vam definir uns estímuls equiluminants compostos per voltants uniformes i ratllats, els quals els vam mostrar durant un flash. En els voltants uniformes, els resultats mostren que la inducció del color depèn de la duració del flash i de la cromaticitat del inductor. Tal com esperàvem, en totes les diferents condicions cromàtiques, es va induir contrast cromàtic. Per contra, en els voltants ratllats, esperàvem induir assimilació cromàtica, però vam observar contrast o no inducció. Com que estímuls ratllats similars, que no són equiluminants, indueixen assimilació del color, vam concloure que les diferències llumíniques podien ser un factor clau per a la inducció. Per tant, hem analitzat l'efecte de les diferències llumíniques en l'assimilació. Vam variar les diferències de lluminància entre la regió d'interès i els seus inductors i vam veure que l'assimilació cromàtica depèn d'aquestes diferències i de la cromaticitat del inductor. En la condició vermell-verd (quan el primer inductor és vermell i el segon és verd), l'assimilació de color es produeix en gairebé totes les condicions llumíniques. En canvi, en el cas del verd-vermell, mai s'observa assimilació del color. Les condicions lila-llima i llima-lila mostren clarament que la diferència llumínica és un factor clau per induir assimilació del color. Quan la regió d'interès és més fosca que el seu voltant, l'efecte és més fort en la condició lila-llima, mentre que quan la regió d'interès és més brillant, l'efecte és més fort en la condició llima-lila (efecte mirall). A més a més, vam avaluar si l'assimilació del color ve donada per diferències llumíniques o de brillantor. De manera similar a la condició equiluminant, no s'observa assimilació del color quan l'estímul és equibrillant. Els nostres resultats donen suport a la hipòtesis que la inhibició mútua juga un rol important en la percepció del color, o com a mínim en la inducció del color. Finalment, hem definit un nou model del processament del color (del "parvocellular pathway") a V1. Hem modelitzat dues capes diferents: les capes 4Cβ i 2/3. El nostre model és una xarxa dinàmica recurrent que considera neurones excitadores i inhibidores i les seves connexions laterals. A més, també considera les diferències laminars existents i les diferents cèl·lules que les componen. Per tant, hem modelitzat les neurones simples "single-" i "double-opponent" i les neurones complexes, les quals es consideren un conjunt de neurones simples "double-opponent". Per testejar l'arquitectura, hem utilitzat un conjunt the "drifting gratings" sinusoïdals i hem variat algunes de les seves propietats com la freqüència temporal i espaial, la seva àrea i la seva orientació. Per repoduir les observacions electrofisiològiques, vam haver de suposar l'existència d'unes neurones "double-opponent" sense selectivitat a orientació i la falta de connexions laterals entre neurones "single-opponent". A més a més, hem testejat les connexions laterals modelitzades simulant la modulació del centre i voltant. Hem observat que quan l'estímul té un alt contrast, el resultat d'aquestes connexions és inhibitori, però és facilitatori quan el contrast és baix. In this PhD we have approached the human color vision from two different points of view: psychophysics and computational modeling. First, we have evaluated 15 different tone-mapping operators (TMOs). We have conducted two experiments that consider two different criteria: the first one evaluates the local relationships among intensity levels and the second one evaluates the global appearance of the tone-mapped images w.r.t. the physical one (presented side by side). We conclude that the rankings depend on the criterion and they are not correlated. Considering both criteria, the best TMOs are KimKautz (Kim and Kautz, 2008) and Krawczyk (Krawczyk et al., 2005). Another conclusion is that a more standardized evaluation criteria is needed to do a fair comparison among TMOs. Secondly, we have conducted several psychophysical experiments to study the color induction. We have studied two different properties of the visual stimuli: temporal frequency and luminance spatial distribution. To study the temporal frequency we defined equiluminant stimuli composed by both uniform and striped surrounds and we flashed them varying the flash duration. For uniform surrounds, the results show that color induction depends on both the flash duration and inducer's chromaticity. As expected, in all chromatic conditions color contrast was induced. In contrast, for striped surrounds, we expected to induce color assimilation, but we observed color contrast or no induction. Since similar but not equiluminant striped stimuli induce color assimilation, we concluded that luminance differences could be a key factor to induce color assimilation. Thus, in a subsequent study, we have studied the luminance differences' effect on color assimilation. We varied the luminance difference between the target region and its inducers and we observed that color assimilation depends on both this difference and the inducer's chromaticity. For red-green condition (where the first inducer is red and the second one is green), color assimilation occurs in almost all luminance conditions. Instead, for green-red condition, color assimilation never occurs. Purple-lime and lime-purple chromatic conditions show that luminance difference is a key factor to induce color assimilation. When the target is darker than its surround, color assimilation is stronger in purple-lime, while when the target is brighter, color assimilation is stronger in lime-purple ('mirroring' effect). Moreover, we evaluated whether color assimilation is due to luminance or brightness differences. Similarly to equiluminance condition, when the stimuli are equibrightness no color assimilation is induced. Our results support the hypothesis that mutual-inhibition plays a major role in color perception, or at least in color induction. Finally, we have defined a new firing rate model of color processing in the V1 parvocellular pathway. We have modeled two different layers of this cortical area: layers 4Cβ and 2/3. Our model is a recurrent dynamic computational model that considers both excitatory and inhibitory cells and their lateral connections. Moreover, it considers the existent laminar differences and the cells' variety. Thus, we have modeled both single- and double-opponent simple cells and complex cells, which are a pool of double-opponent simple cells. A set of sinusoidal drifting gratings have been used to test the architecture. In these gratings we have varied several spatial properties such as temporal and spatial frequencies, grating's area and orientation. To reproduce the electrophysiological observations, the architecture has to consider the existence of non-oriented double-opponent cells in layer 4Cβ and the lack of lateral connections between single-opponent cells. Moreover, we have tested our lateral connections simulating the center-surround modulation and we have reproduced physiological measurements where for high contrast stimulus, the result of the lateral connections is inhibitory, while it is facilitatory for low contrast stimulus.

APA, Harvard, Vancouver, ISO, and other styles

9

Marchant, Matus Román. "Seguimiento de Objetos Utilizando Información Multi-Sensorial y Cooperación entre Múltiples Robots." Tesis, Universidad de Chile, 2011. http://repositorio.uchile.cl/handle/2250/104101.

Full text

Abstract:

Ingeniero Civil Electricista En esta memoria de título se desarrolla una metodología que permite realizar la estimación del estado cinemático de múltiples robots utilizando información de variados sensores y cooperación entre robots compañeros. Para que ello sea posible, se crea un sistema capaz de detectar robots en un ambiente dinámico y estimar su posición relativa. Además, se genera un sistema externo de detección y seguimiento de robots que permite evaluar las metodologías propuestas debido a su alta precisión. Esta memoria apunta a una mejora importante de la estimación del entorno utilizando información de otros agentes, fundamentalmente debido a la ampliación de la porción observable del entorno. El primer tema abordado es la detección y la estimación de la posición de robots detectados. La información proveniente de una cámara se procesa en cada robot para generar detecciones de los objetos de interés. Además, se integran mediciones de sensores ultrasónicos para utilizar múltiples fuentes de información. Luego, se presenta una metodología de estimación de la posición relativa de objetos donde se utiliza la información proveniente de las percepciones propias y estimaciones realizadas por otros robots. Esta metodología utiliza como herramienta un algoritmo Bayesiano recursivo llamado Filtro de Kalman. Además, se soluciona el calce entre una nueva percepción recibida y un estimador, cuando se poseen objetos idénticos. En la siguiente etapa, se crea un sistema que permite generar datos precisos acerca del estado real del entorno utilizando un sensor láser y un computador externo. De esta manera, se generan datos que permiten validar la metodología propuesta para la estimación cooperativa. El correcto funcionamiento del sistema está sujeto al marco de trabajo actual, donde se poseen robots con un sistema visual ruidoso y con un campo visual limitado. Además, los robots poseen una baja capacidad de cómputo que no permite implementar algoritmos con alto consumo de recursos computacionales. Asimismo, se supone que los objetos se mueven sobre un plano geométrico y que el ruido existente se puede aproximar por una función de densidad de probabilidad Gaussiana. Los resultados indican que el perceptor visual de robots utilizando estimadores geométricos de distancia posee un error de estimación media de $14[cm]$. De igual manera, el sistema de generación de datos de validación entrega datos de muy bajo error y desviación estándar, por lo que permite evaluar las metodologías propuestas. Los resultados del método de estimación cinemática indican una mejora de la estimación al integrar múltiples fuentes de información. Se logra realizar dos publicaciones a nivel internacional, una publicación aceptada en la conferencia RoboCup 2011 y otra en proceso de revisión en una de las conferencias más importante de robótica a nivel mundial IROS 2011. Como trabajo futuro se propone generalizar el perceptor visual para situaciones más complejas donde se pueda detectar la orientación de los objetos. Además, se propone perfeccionar el sistema de generación de datos de validación para lograr una evaluación aun más confiable. Por último, se propone estimar y considerar la velocidad de los objetos para completar y mejorar la estimación del estado cinemático.

APA, Harvard, Vancouver, ISO, and other styles

10

Cament, Riveros Leonardo. "Enhancements by weighted feature fusion, selection and active shape model for frontal and pose variation face recognition." Tesis, Universidad de Chile, 2015. http://repositorio.uchile.cl/handle/2250/132854.

Full text

Abstract:

Doctor en Ingeniería Eléctrica Face recognition is one of the most active areas of research in computer vision because of its wide range of possible applications in person identification, access control, human computer interfaces, and video search, among many others. Face identification is a one-to-n matching problem where a captured face is compared to n samples in a database. In this work a new method for robust face recognition is proposed. The methodology is divided in two parts, the first one focuses in face recognition robust to illumination, expression and small age variation and the second part focuses in pose variation. The proposed algorithm is based on Gabor features; which have been widely studied in face identification because of their good results and robustness. In the first part, a new method for face identification is proposed that combines local normalization for an illumination compensation stage, entropy-like weighted Gabor features for a feature extraction stage, and improvements in the Borda count classification through a threshold to eliminate low-score Gabor jets from the voting process. The FERET, AR, and FRGC 2.0 databases were used to test and compare the proposed method results with those previously published. Results on these databases show significant improvements relative to previously published results, reaching the best performance on the FERET and AR databases. Our proposed method also showed significant robustness to slight pose variations. The method was tested assuming noisy eye detection to check its robustness to inexact face alignment. Results show that the proposed method is robust to errors of up to three pixels in eye detection. However, face identification is strongly affected when the test images are very different from those of the gallery, as is the case in varying face pose. The second part of this work proposes a new 2D Gabor-based method which modifies the grid from which the Gabor features are extracted using a mesh to model face deformations produced by varying pose. Also, a statistical model of the Borda count scores computed by using the Gabor features is used to improve recognition performance across pose. The method was tested on the FERET and CMU-PIE databases, and the performance improvement provided by each block was assessed. The proposed method achieved the highest classification accuracy ever published on the FERET database with 2D face recognition methods. The performance obtained in the CMU-PIE database is among those obtained by the best published methods. Extensive experimental results are provided for different combinations of the proposed method, including results with two poses enrolled as a gallery.

APA, Harvard, Vancouver, ISO, and other styles

11

Robles, Pizarro Luis David. "Caracterización y reconocimiento de objetos mediante algoritmos de visión computacional para la interacción de un robot con su entorno." Master's thesis, Pontificia Universidad Católica del Perú, 2016. http://tesis.pucp.edu.pe/repositorio/handle/123456789/7376.

Full text

Abstract:

En el campo de la robótica, se han desarrollado distintos algoritmos y métodos con el objetivo de mejorar la interacción de los robots con las personas y con su entorno de trabajo en tiempo real; es así, como el sistema reacciona y evoluciona constantemente ante cambios que podrían ocurrir durante su funcionamiento. Para alcanzar los objetivos mencionados, una de las habilidades que se le confiere a la máquina es la capacidad de detectar, registrar y reconocer objetos. La presente tesis es un trabajo de investigación aplicada que tiene como objetivo desarrollar un procedimiento que permita a un sistema robótico reconocer y detectar objetos en tiempo real dentro de un entorno controlado; para ello, nos enfocamos en utilizar dos métodos conocidos de reconocimientos de objetos (métodos SIFT y SURF) con los cuales categorizaremos un objeto de un dominio predefinido y comparamos los resultados obtenidos. Se eligieron el método SIFT y el método SURF por la similitud en los pasos que siguen para obtener la información de un objeto; cabe resaltar que el método SURF es un método alterno al SIFT. Los resultados finales mostraron una mejor predicción en la categorización utilizando el método SIFT, pero ésta requería de mayor tiempo para extraer los puntos característicos de los objetos. Por otro lado, el método SURF generaba más puntos característicos de los objetos y en mejor tiempo. La extracción de puntos de interés se analizó en tiempo real; mientras, que la etapa de categorización no consideró este parámetro, sino la cantidad de puntos de interés necesarios para predecir con exactitud la categoría de un objeto. Tesis

APA, Harvard, Vancouver, ISO, and other styles

12

Rodríguez, López Pau. "Towards robust neural models for fine-grained image recognition." Doctoral thesis, Universitat Autònoma de Barcelona, 2019. http://hdl.handle.net/10803/667196.

Full text

Abstract:

Reconèixer i identificar diverses subcategories en el nostre entorn és una activitat crucial a les nostres vides. Reconèixer un amic, trobar cert bacteri en imatges de microscopi, o descobrir un nou tipus de galàxia en són només alguns exemples. Malgrat això, el reconeixement de subcategories en imatges encara és una tasca costosa en el camp de la visió per computador, ja que les diferències entre dues imatges de la mateixa subcategoria eclipsen els detalls que distingeixen dues subcategories diferents. En aquest tipus de problema, en què la distinció entre categories radica en diferències subtils, les xarxes neuronals més robustes a pertorbacions se centren en els canvis més obvis i solen fallar, ja que ignoren els detalls que permeten distingir entre diferents categories. Per altra banda, els models amb massa capacitat tendeixen a memoritzar detalls únics d’imatges concretes, pel que fallen en generalitzar amb noves imatges mai vistes. En aquesta tesi doctoral, motivats per l’impacte potencial del reconeixement automàtic de subcategories, abordem els desafiaments presentats i demostrem que és possible obtenirmodels generals i robustos. Concretament, estudiem les diferents fases dels algorismes de reconeixement d’imatges: preprocessament de les dades, atenció a diferents regions, activitat de les neurones, i l’espai de categories. A cada fase abordem diferents problemes que redueixen la precisió delsmodels al classificar diferents tipus de dades i proposem diferents solucions a cada capítol: i) Abordem el problema de la sensibilitat a l’alineament de les imatges en el reconeixement d’expressions facials, com el dolor. ii) Proposem un mecanisme d’atenció que permet a les xarxes neuronals centrar-se i processar en detall les parts més informatives de les imatges. iii) Estenem els mecanismes d’atenció més enllà dels píxels, permetent les xarxes atendre la seva pròpia activitat neuronal per a corregir les prediccions finals. iv) Després proposem una nova funció de cost per a regularitzar les connexions de les capes de neurones, incentivant l’aprenentatge de patrons diferents i, per tant, prevenint la memorització de detalls únics. v) Estudiem els avantatges de modelar explícitament l’espai de categories utilitzant la teoria de codis correctors d’errors. Com a resultat, en aquesta tesi demostrem que els mecanismes d’atenció i regularització poden ser la clau per a solucionar els problemes de reconeixement de subcategories, així com una bona modelització de l’espai d’entrada i sortida dels models. Reconocer e identificar diferentes subcategorías en nuestro entorno es una actividad crucial en nuestras vidas. Reconocer un amigo, encontrar cierta bacteria en imágenes de microscopio, o descubrir un nuevo tipo de galaxia son solo algunos ejemplos. Sin embargo, el reconocimiento de subcategorías en imágenes aún es una tarea ardua en el campo de la visión por computador, ya que las diferencias entre dos imágenes de la misma subcategoría eclipsan los detalles que distinguen dos subcategorías diferentes. En este tipo de problema, en que la distinción entre categorías radica en diferencias sutiles, las redes neuronales más insensibles a perturbaciones se centran en los cambios más obvios y tienden a errar, ya que ignoran aquellos detalles que permiten desambiguar entre diferentes categorías. Por otro lado, los modelos con demasiada capacidad tienden a memorizar detalles únicos de imágenes concretas, por lo que fallan al generalizar con nuevas imágenes nunca vistas. En esta tesis doctoral, motivados por el impacto potencial del reconocimiento automático de subcategorías, abordamos los desafíos presentados y demostramos que es posible obtenermodelos generales y robustos. Concretamente, estudiamos las diferentes fases de los algoritmos de reconocimiento de imágenes: preproceso de los datos, atención a diferentes regiones, actividad de las neuronas y el espacio de categorías. En cada fase, abordamos diferentes problemas que merman la precisión de los modelos al clasificar diferentes tipos de datos, y proponemos diferentes soluciones en cada capítulo: i) Primero abordamos el problema de la sensibilidad al alineamiento de las imágenes en el reconocimiento de expresiones faciales, como el dolor. ii) A continuación, proponemos un mecanismo de atención que permite a las redes neuronales centrarse y procesar en detalle las partes más informativas de las imágenes. iii) Extendemos losmecanismos de atenciónmás allá de los píxeles, permitiendo las redes atender su propia actividad neuronal para corregir las predicciones finales. iv)Después proponemos una nueva función de coste para regularizar las conexiones de las capas de neuronas, incentivando el aprendizaje de patrones distintos y, por lo tanto, previniendo la memorización de detalles únicos en objetos. v) Finalmente, estudiamos las ventajas de modelar explícitamente el espacio de categorías usando la teoría de códigos correctores de errores. Como resultado, en esta tesis demostramos que los mecanismos de atención y regularización pueden ser la clave para solucionar los problemas del reconocimiento de subcategorías, así como una buena modelización del espacio de entrada y salida de losmodelos. Fine-grained recognition, i.e. identifying similar subcategories of the same superclass, is central to human activity. Recognizing a friend, finding bacteria in microscopic imagery, or discovering a new kind of galaxy, are just but few examples. However, fine-grained image recognition is still a challenging computer vision task since the differences between two images of the same category can overwhelm the differences between two images of different fine-grained categories. In this regime, where the difference between two categories resides on subtle input changes, excessively invariant CNNs discard those details that help to discriminate between categories and focus on more obvious changes, yielding poor classification performance. On the other hand, CNNs with too much capacity tend to memorize instance-specific details, thus causing overfitting. In this thesis,motivated by the potential impact of automatic fine-grained image recognition, we tackle the previous challenges and demonstrate that proper alignment of the inputs, multiple levels of attention, regularization, and explicitmodeling of the output space, results inmore accurate fine-grained recognitionmodels, that generalize better, and are more robust to intra-class variation. Concretely, we study the different stages of the neural network pipeline: input pre-processing, attention to regions, feature activations, and the label space. In each stage, we address different issues that hinder the recognition performance on various fine-grained tasks, and devise solutions in each chapter: i)We deal with the sensitivity to input alignment on fine-grained human facial motion such as pain. ii) We introduce an attention mechanism to allow CNNs to choose and process in detail the most discriminate regions of the image. iii)We further extend attention mechanisms to act on the network activations, thus allowing them to correct their predictions by looking back at certain regions, at different levels of abstraction. iv) We propose a regularization loss to prevent high-capacity neural networks to memorize instance details by means of almost-identical feature detectors. v)We finally study the advantages of explicitly modeling the output space within the error-correcting framework. As a result, in this thesis we demonstrate that attention and regularization seem promising directions to overcome the problems of fine-grained image recognition, as well as proper treatment of the input and the output space.

APA, Harvard, Vancouver, ISO, and other styles

13

Silva, Pérez Cristóbal Ignacio. "Modelamiento semántico del entorno de un robot utilizando información RGB-D." Tesis, Universidad de Chile, 2016. http://repositorio.uchile.cl/handle/2250/141358.

Full text

Abstract:

Ingeniero Civil Eléctrico En el ámbito de visión computacional, uno de los paradigmas más desafiantes es el de segmentación semántica. La dificultad de esta área de estudio radica en tener que identificar todo lo que se encuentra en la imagen de una escena, cosa que resulta particularmente complicada en entornos pequeños debido a la gran cantidad de oclusiones, cambios de iluminación e información ruidosa que rodean a éstos. En este trabajo de memoria se diseñó e implementó un sistema de visión capaz de detectar y etiquetar todos los objetos en una imagen tomada dentro de un entorno pequeño y cerrado. La idea es que este sistema no sólo utilice la información del posible objeto para etiquetarlo, sino que también sea capaz de usar la información de los objetos que lo rodean para optimizar dicho etiquetado y tomar una decisión final. Esto se conoce como aprendizaje estructurado y existen varias representaciones que son capaces de lidiar con el problema. Para este caso particular se utilizaron Modelos Gráficos Probabilísticos debido a su capacidad de abstraer problemas de visión como si fueran grafos. Este enfoque entregó la libertad de poder definir las relaciones entre componentes del grafo de la manera más conveniente, permitiendo darle mayor o menor importancia a las relaciones semánticas en función de parámetros arbitrarios. La principal contribución de este trabajo es la introducción de un Modelo Gráfico Probabilístico que puede ser fácilmente modificado para utilizar en problemas de segmentación semántica en general, cuyas implementaciones son difíciles de encontrar para un sistema de clasificación de entornos o son implementaciones muy específicas y poco modulares como para reutilizar en otro sistema. Se realizaron diversas pruebas de desempeño para evaluar y analizar la efectividad del modelo en términos de resultados de detección, tiempo de procesamiento e influencia de parámetros sobre el etiquetado de objetos. Para ello se utilizó la base de datos NYUD de la Universidad de Nueva York que contiene imágenes RGB-D tomadas con un sensor Microsoft Kinect que fue creada con la intención de entrenar robots. Los resultados son prometedores, entregando para todos los casos un aumento de detección con respecto al caso base, permitiendo confirmar la utilidad del modelo de inferencia utilizado. En base a esto se concluye que los modelos semánticos o contextuales son capaces de mejorar considerablemente la capacidad de detección de un sistema de visión, sin embargo el tiempo de procesamiento aún requiere trabajo para tener aplicaciones en tiempo real que es lo que se desea usualmente en el área de robótica.

APA, Harvard, Vancouver, ISO, and other styles

14

Correa, Pérez Mauricio Alfredo. "Reconocimiento robusto de rostros en ambientes dinámicos." Tesis, Universidad de Chile, 2012. http://www.repositorio.uchile.cl/handle/2250/111967.

Full text

Abstract:

Doctor en Ingeniería Eléctrica En la actualidad un problema fundamental para los sistemas robóticos que basan su sistema sensorial en la utilización de cámaras de video y sistemas de visión computacional es detectar y reconocer objetos de interés en ambientes no controlados. Por otro lado, el análisis del rostro juega un papel muy importante en la construcción de un sistema de Interacción Humano-Robot (HRI) que permita a los humanos interactuar con sistemas robóticos de un modo natural. En este trabajo de tesis se diseña e implementa un sistema de visión que opera en ambientes no controlados, y que es capaz de detectar y reconocer rostros humanos en forma robusta, utilizando métodos de visión activa e integrando diferentes tipos de contexto. Se plantea una metodología para la construcción del sistema de visión propuesto en forma general y se define cuales son los módulos principales que lo componen. Entre los cuales están los módulos de detección y reconocimiento de rostros, en particular el uso de contexto y un módulo de visión activa. Estos módulos permiten descartar falsas detecciones y realizar modificaciones a las observaciones para así mejorar el rendimiento del sistema de reconocimiento de rostros. Se desarrolla un simulador que se utiliza para validar el sistema general y en particular evaluar el funcionamiento de los diferentes módulos planteados. Este simulador es una poderosa herramienta que permite realiza evaluaciones de métodos de detección y reconocimiento de rostros ya que genera las observaciones de un agente dentro de un mapa virtual con personas. De los experimentos en el simulador y en otros ambientes se puede concluir que los módulos de contexto realizan un aporte significativo en el rendimiento del sistema de visión, mejorando las tasas de reconocimiento y reduciendo las tasas de falsos positivos en las detecciones de rostros. La tasa de reconocimiento aumenta de 78.41% a 86.77% con el uso de filtros de contexto. El uso de visión activa permite que la tasa de reconocimiento mejore de 86.77% a 92.92%, ya que permite que se construya una mejor galería (en caso que la galería se construye online), y mejorar la pose del robot con respecto a la persona en la etapa de reconocimiento. Se desarrolla un sistema robusto para la detección y la identificación de seres humanos en entornos domésticos el cual es evaluado en un robot de servicio. La principal función es evaluar el funcionamiento del sistema de visión propuesto en una aplicación real. Se agrega un nuevo sensor (cámara térmica) y se agregan nuevos módulos al sistema (Detección de Piel Visible y Térmica, Detección y reconocimiento de Rostros Térmico, Detección de Personas). Los resultados de la evaluación del sistema en una aplicación real (prueba enmarcada en la competencia de robótica RoboCup, que se llama Who is Who ) confirman que el uso de contexto mejora el rendimiento del sistema, permitiendo aumentar la tasa de reconocimiento de 54% a 74% y reduciendo el numero de falsos positivos a 0. Nuevamente la visión activa fue un factor importante para mejorar el desempeño del sistema en general, en todos los experimentos influyó de forma positiva en el funcionamiento del sistema.

APA, Harvard, Vancouver, ISO, and other styles

15

Moya, Vasquinzay Kattirant Paz. "Determinación de la calidad en papas tipo french fries mediante visión computacional y estudio de sus propiedades físicas." Tesis, Universidad de Chile, 2011. http://www.repositorio.uchile.cl/handle/2250/105369.

Full text

APA, Harvard, Vancouver, ISO, and other styles

16

Abarca, Cusimayta Daekef Rosendo. "Diseño de un modelo algorítmico basado en visión computacional para la detección y clasificación de retinopatía diabética en imágenes retinográficas digitales." Bachelor's thesis, Pontificia Universidad Católica del Perú, 2018. http://tesis.pucp.edu.pe/repositorio/handle/123456789/12171.

Full text

Abstract:

La retinopatía diabética es una enfermedad muy común en pacientes con diabetes. Esta enfermedad ocasiona ceguera de manera gradual debido al deterioro de la retina. Este deterioro puede desencadenar en hemorragias, aneurismas y presencia de exudados en la superficie, las cuales se manifiestan en puntos vacíos de la visión del afectado. Las características mencionadas tienen muchas propiedades visuales como el color, forma, área de presencia que son posibles detectar por medio de imágenes retinográficas digitales. Esta propiedad hace posible el uso de la visión computacional para procesar la imagen y poder diagnosticar la enfermedad de acuerdo al grado de avance de ésta según las características clínicas presentes. El presente proyecto de tesis consiste en el desarrollo de un modelo algorítmico que logre aprovechar las características visuales para poder detectar y clasificar la enfermedad. Las características clínicas utilizadas son los microaneurismas, exudados y hemorragias. Se utilizó una base de datos pública de imágenes retinográficas y un clasificador SVM. El vector de características que se utilizó fue: área, color, número de características prensentes. Es importante mencionar que se utilizó pre-procesamiento en la imagen para excluir elementos como el fondo, disco óptico y las venas debido a que no aportan significativamente al análisis de la imagen. Para el desarrollo del algoritmo se utilizó C++ con OpenCV, la cual es una librería open source para el procesamiento de imágenes. Como resultado final de este proyecto se logró una sensibilidad del 90.17%; especificidad del 96.72% y precisión del 95.08%. Tesis

APA, Harvard, Vancouver, ISO, and other styles

17

Escalona, Neira Ismael Fernando. "Interfaz humano máquina controlada por gestos." Tesis, Universidad de Chile, 2014. http://www.repositorio.uchile.cl/handle/2250/116663.

Full text

Abstract:

Ingeniero Civil Eléctrico El lenguaje corporal es importante para comunicarse fluidamente con las personas. En el ámbito de la interacción con máquinas, existen sistemas para reconocer automáticamente gestos, pero confunden cuerpos de color similar y sus capacidades son muy inferiores a las de los seres humanos. Para contribuir a la solución de este problema, se presenta una plataforma que sigue una esquina e identifica pulsaciones utilizando una webcam, independientemente del tono del objeto y del fondo, lo que se efectúa analizando variaciones luminosas. El sistema registra imágenes con una cámara y las preprocesa para disminuir el ruido. Posteriormente, obtiene las zonas con cambios luminosos y reconstruye los objetos móviles. Luego, identifica las esquinas de los cuerpos, sigue la trayectoria de una de ellas y verifica si hay oscilaciones. La plataforma es complementada con módulos para configurar su funcionamiento, dibujar trayectorias y controlar un cursor. La programación se realiza en C++ y utiliza las librerías OpenCV para procesar imágenes y Qt para mostrar la interfaz de usuario. El desempeño se evalúa con videos en que un dedo recorre trayectorias predefinidas. En las pruebas se utilizan varios tipos de iluminación, fondos, distancias a la cámara, posturas y velocidades de movimiento. Los resultados muestran que el algoritmo ubica el dedo con error promedio de 10 píxeles y detecta pulsaciones en el 82% de los intentos. Se producen fallas cuando hay fuentes de luz frente a la cámara, oscuridad o movimiento detrás de la mano. El programa se ejecuta a 30fps y utiliza el 16% de un procesador Intel Core i5-3337u. La plataforma es capaz de distinguir objetos de tono similar, pero es poco tolerante a movimientos en el fondo. Una combinación de los métodos basados en variaciones luminosas y color puede corregir sus deficiencias mutuamente y habilitar aplicaciones que utilicen señales hechas con las manos para ordenadores personales y robots.

APA, Harvard, Vancouver, ISO, and other styles

18

Onofri, Soto Ranato Vicenzo. "Implementación de un sistema reconocedor de eventos en videos, con un clasificador K-NN." Tesis, Universidad de Chile, 2014. http://www.repositorio.uchile.cl/handle/2250/117017.

Full text

Abstract:

Ingeniero Civil en Computación Hoy en día el fácil acceso a la tecnología permite al ser humano registrar, con un mínimo esfuerzo, eventos de interés en su vida. Como consecuencia se genera una gran cantidad de información multimedia, en particular videos, cuyo análisis de contenido es muy difícil de automatizar, siendo deseable el uso de técnicas de minería de datos y visión computacional para aprovechar esta oportunidad. En este contexto, surge la inquietud de clasificar dichos objetos en base a los eventos presentes en ellos, y de esa forma generar una herramienta predictiva que pueda ser usada posteriormente en aplicaciones de diversas áreas, como por ejemplo, en la publicidad. El presente trabajo de título da cuenta de la implementación de un sistema reconocedor de eventos en video, además de la experimentación con el mismo, la posterior modificación de su componente de clasificación, y la comparación de ambas versiones en términos de eficacia. El tipo de datos que emplea el sistema corresponde a videos de consumidor, los que fueron recolectados por una comunidad científica y agrupados en un dataset de uso público. El sistema se basa en un reconocedor de eventos planteado en un artículo, y está formado por descriptores de características, un módulo de clasificación SVM y un módulo de creación de histogramas. La modificación planteada consiste en cambiar SVM por un clasificador K-NN. Para cumplir con los objetivos mencionados anteriormente, se sigue la implementación propuesta en el artículo, esto significa que, primero se descarga el dataset y se implementan los descriptores escogidos, posteriormente, se implementa el clasificador SVM y se compara el sistema preliminar con las mediciones de eficacia del artículo, se repite el proceso hasta obtener valores similares y considerar que el sistema ha sido ajustado correctamente. Finalmente, se implementa el módulo K-NN y se comparan ambos sistemas en base a las métricas de rendimiento. A partir de los resultados de eficacia de las dos versiones, se muestra que el clasificador SVM es una mejor alternativa que K-NN para enfrentar el problema de reconocimiento de eventos en videos de consumidor. Esto es válido para los descriptores con los que se probó el sistema, pero puede no ser cierto si se utiliza otro conjunto de descriptores. Además, se deja en evidencia la dificultad que presenta el manejo de grandes volúmenes de información, y la necesidad de soluciones para su procesamiento.

APA, Harvard, Vancouver, ISO, and other styles

19

Delpiano, Costabal José Francisco. "Analysis and evaluation of optical flow methods with applications in biology." Tesis, Universidad de Chile, 2013. http://www.repositorio.uchile.cl/handle/2250/113472.

Full text

Abstract:

Doctor en Ingeniería Eléctrica El flujo óptico (OF, por sus siglas en inglés) es un campo vectorial que representa las velocidades aparentes de movimiento de los patrones de intensidad en una imagen que varía en el tiempo. El OF ha sido aplicado ampliamente a tareas de visión computacional y está siendo usado para análisis de imágenes biológicas. La literatura relevante muestra que (i) la mayoría de los artículos apenas cubre el tema de la selección óptima de parámetros y (ii) el criterio para optimización y ranking de métodos de OF tiende a ser precisión o velocidad, pero no un criterio conjunto de precisión y velocidad. Esta tesis presenta como su contribución principal una metodología novedosa para la selección de parámetros de un método de OF cualquiera, basado en la optimización concurrente de varios objetivos. Esta metodología está basada en optimización multi-objetivo evolutiva y busca los parámetros que optimizan dos objetivos, precisión y velocidad del OF, al mismo tiempo. La metodología encuentra un conjunto de configuraciones que son óptimas en el sentido de Pareto, es decir que no hay configuraciones mejores que otras en todos los objetivos. Este conjunto de configuraciones caracteriza cada método de OF, dando una curva de operación precisión-velocidad para el método y permitiendo la comparación entre distintos métodos. Los resultados muestran que la metodología propuesta logra mejoras tanto en la precisión como en la velocidad de un método de OF, entendidos como una medida de error de OF y el tiempo de ejecución del método de OF. La metodología presentada fue aplicada exitosamente a un problema biológico. Fue probada para la selección de parámetros de OF para experimentos de seguimiento (tracking) apuntando al análisis 3D de estructura en microscopía electrónica de objetos biológicos. Produjo una reducción importante en tiempo de ejecución, manteniendo bajo el error de tracking. Esta metodología ahorraría tiempo a investigadores que trabajan con OF, evitando selección manual de parámetros y dándoles la configuración de parámetros adecuada para su aplicación. Sería interesante desarrollar rankings en línea para comparación de métodos de OF, aprovechando las curvas de operación multi-objetivo.

APA, Harvard, Vancouver, ISO, and other styles

20

Loncomilla, Zambrana Patricio Alejandro. "Generación Automática de Landmarks Visuales Naturales Tridimensionales para Slam Visual." Tesis, Universidad de Chile, 2011. http://www.repositorio.uchile.cl/handle/2250/102620.

Full text

Abstract:

En los métodos actuales de SLAM visual, los mapas son representados mediante landmarks puntuales. Como la observación de un landmark puntual entrega sólo información angular sobre la cámara, se debe estimar una matriz de covarianza que considere todos los puntos para poder converger a una escala global. Sin embargo, como la complejidad computacional asociada al trabajo con matrices de covarianza crece de una forma cuadrática respecto al número de landmarks, la cantidad máxima de puntos con los cuales se puede trabajar n tiempo real está limitada a unos cientos. En este trabajo se propone un sistema de SLAM visual basado en el uso de los denominados landmarks cuerpo rígido. Un landmark cuerpo rígido representa la pose completa 6D (posición y orientación) de un cuerpo rígido en el espacio, y la observación de uno de estos landmarks proporciona información completa acerca de la pose de una cámara móvil. Cada landmarks cuerpo rígido es creado a partir de un conjunto de N landmarks puntuales mediante el colapso de 3N componentes del estado en 7 nuevas componentes del estado, además de un conjunto de parámetros que describe la forma del landmark. Los landmark cuerpo rígido son representados y estimados usando puntocuaterniones, los cuales son introducidos en este trabajo. Mediante el uso de los landmarks cuerpo rígido, el tiempo de ejecución del sistema de SLAM puede reducirse hasta un 5.5% a medida que la cantidad de landmarks aumenta. El sistema SLAM propuesto es validado y simulado en secuencias de video reales. El método propuesto puede ser extendido a cualquier sistema de SLAM que se base en el uso de landmarks puntuales, incluyendo aquellos generados mediante sensores láser.

APA, Harvard, Vancouver, ISO, and other styles

21

Borja, Luis Felipe. "Arquitectura de visión y aprendizaje para el reconocimiento de actividades de grupos usando descriptores de movimiento." Doctoral thesis, Universidad de Alicante, 2020. http://hdl.handle.net/10045/111289.

Full text

Abstract:

Según los últimos censos, nuestro planeta tiene cerca de 7.000 millones de habitantes principalmente concentrados en zonas urbanas. Consecuencia de esto las multitudes de personas se congregan en estos sitios, complicando la tarea de supervisión y vigilancia para mantener la seguridad pública en calles, plazas, avenidas y demás. Esto motiva el estudio y mejora de métodos de análisis automático del comportamiento humano. A esta área de investigación se le denomina Análisis del Comportamiento Humano, o Reconocimiento de Actividades Humanas. Gran parte de los trabajos dedicados a este problema se basan en técnicas de visión por computador junto con algoritmos de Machine Learning y, más recientemente, en Deep Learning. En este proyecto de tesis, se ha hecho inicialmente una revisión del estado del arte respecto al tema del análisis y reconocimiento de actividades y comportamientos humanos. En este estudio se han analizado los principales trabajos de machine learning tradicional y deep learning para el tema de la tesis, así como los principales datasets. Se ha visto que no existe un estándar o arquitectura que proponga solución genérica. Por otro lado, la mayoría de trabajos se centran en un determinado rango de individuos, habiendo propuestas para personas individuales, para pequeños grupos, grandes grupos o multitudes. Además, no existe un consenso en la nomenclatura respecto a los grados de complejidad, niveles de comportamiento o, como aquí se denomina, nivel de semántica de las acciones que se realizan. Tras este estudio, se ha propuesto una taxonomía bidimensional que permite clasificar las propuestas en el espacio "número de personas/nivel de semántica", siendo más descriptivo respecto al actual estado del arte y permitiendo ver donde se concentran mayormente los trabajos y cuales los retos aun no resueltos. Tras el estudio del estado del arte, en este trabajo se ha propuesto una arquitectura de visión y aprendizaje para reconocer actividades de grupos usando descriptores de movimiento. Se compone de dos bloques principales, el descriptor de movimiento y el clasificador de actividad. Las arquitecturas de red profunda que se estudian actualmente tienen la bondad de, dados unos datos en crudo (imágenes, secuencias, etc.) tratarlos internamente de forma que devuelvan un resultado, sin necesidad de pre-procesarlos primero. Sin embargo, esto los hace dependientes de los datos de entrenamiento y necesitan grandes datasets para que el entrenamiento sea suficiente. El hecho de introducir un descriptor hace que el espacio de búsqueda se reduzca, y por lo tanto se pueda entrenar con menor número de datos, y además, se pueda independizar la escena (número de individuos, localización de la actividad en el espacio, etc.) del comportamiento en sí. Para el descriptor de la arquitectura se propone en esta tesis como una variante del descriptor Activity Descriptor Vector (ADV), que se denomina D-ADV, y que obtiene dos imágenes del movimiento local acumulado, una UDF (de los movimientos arriba, Up, abajo, Down, y Frecuencia) y otra LRF (de los movimientos Left, izquierda, Right, derecha y Frecuencia). Por otro lado, como instancias de la arquitectura haciendo uso del D-ADV, se proponen el D-ADV-MultiClass para clasificación de múltiples clases. Esta propuesta se basa en utilizar los dos streams UDF y LRF, junto con una red profunda y transfer learning, para reconocer la actividad del grupo. Además, se ha propuesto otra instancia, llamada D-ADV-OneClass, que añade a los dos streams anteriores, otro con información de contexto. Esta última instancia da solución a problemas en los que solo se conoce una clase durante el entrenamiento, y por lo tanto se utilizan técnicas de one-class classification. En la experimentación se ha validado la arquitectura con las dos instancias D-ADV-MultiClass y D-ADV-OneClass utilizando los datasets públicos ampliamente conocidos, como son BEHAVE, INRIA y CAVIAR para multi-class, y para one-class los datasets Ped 1, Ped 2 y Avenue. Los resultados experimentales muestran la capacidad de la arquitectura para clasificar las actividades de los grupos presentados en los datasets. Además, se demuestra que la arquitectura es capaz de tener buenos resultados utilizando datasets con poca cantidad de datos. En este caso, no a partir de la imagen sino de la representación del movimiento. Por último se plantean como trabajos futuros experimentar con otros datasets de mayor tamaño o con otro tipo de datos (peleas callejeras y en rings de boxeo para ver como afecta el contexto en estas situaciones). A medio o largo plazo se realizarán mejoras aumentando y comprobando otras instancias de la arquitectura utilizando múltiples streams de entrada que puedan permitir detectar otros comportamientos.

APA, Harvard, Vancouver, ISO, and other styles

22

Verschae, Tannenbaum Rodrigo. "Object Detection Using Nested Cascades of Boosted Classifiers. A Learning Framework and Its Extension to The Multi-Class Case." Tesis, Universidad de Chile, 2010. http://www.repositorio.uchile.cl/handle/2250/102398.

Full text

APA, Harvard, Vancouver, ISO, and other styles

23

Agustí, Melchor Manuel. "Análisis y clasificación de imágenes repetitivas mediante técnicas de simetría computacional." Doctoral thesis, Universitat Politècnica de València, 2016. http://hdl.handle.net/10251/63270.

Full text

Abstract:

[EN] Currently we handle a lot of visual information. We see, create and use many images in our diary lives and work. Analysis techniques based on low level features are, in many cases, little descriptive or representative for the human user. This is partly because they are highly dependent on the conditions of acquisition of each image and also, due to the difficulty of matching the content of the image with a high number of numeric values that describe very small details of the image. In the way of approximating the computational process to describe the image content to the human way of reasoning, current trends are aimed at the construction of descriptions that involve the use of more complex concepts. These abstractions are achieved by building more elaborate descriptions assume the variability (and tolerances) with which humans make the decisions when it comes to describe the visual content of images. This thesis addresses the use of symmetry and uses the combinations of symmetries presents in an image for description based on symmetry patterns rather than pixels patterns (textures). The problem of image description in these contexts can be viewed as a classification, because of its relationship to plane group theory (WallPaper Group Theory) also called mosaic or tessellation groups, is formulated as the determination of symmetry group an image belongs to. The number of these groups is finite (there are only seventeen in 2D) and are described by a set of internal symmetries with respect to a basic element that encapsulates the entire contents of the design. If we can determine the existence of repetitive content in a picture, we get a pattern for describing the image in terms of an area that is repeated indefinitely in the plane (no gaps, nor overlaps), in discrete steps obtained from the two directions of translational symmetry that defines the grid. Under this formulation, the image content can be expressed from a minimum elemental form, which contains no internal symmetry. [ES] Actualmente manejamos mucha información de carácter visual. Vemos, creamos y usamos imágenes en gran medida para nuestra comunicación. Las técnicas de análisis basadas en características de bajo nivel son, en muchas ocasiones, poco descriptivas o representativas para el usuario humano. Esto es debido en parte a que son muy dependientes de las condiciones de adquisición de cada imagen y, también, a la dificultad de asociar el contenido de la imagen con una gran cantidad de valores numéricos que describen detalles muy pequeños de la misma. Buscando acercar la forma computacional a la humana de describir el contenido de una imagen, las tendencias actuales están encaminadas a la construcción de descripciones que implican el uso de conceptos mas complejos. Estas abstracciones se consiguen construyendo descripciones más elaboradas que asuman la variabilidad (y las tolerancias) con que los humanos tomamos las decisiones a la hora de describir el contenido visual de las imágenes. En esta tesis se aborda el uso de la simetría y la determinación de qué combinaciones de simetrías aparecen en una imagen para su descripción en base a patrones de simetría en lugar de por ejemplo patrones de píxeles, basados en las texturas, el color, etc. El problema de la descripción de imágenes en estos contextos se puede ver como uno de clasificación, debido a su relación con la teoría de grupos en el plano (WallPaper Group Theory) también denominada de mosaicos o teselación que se formula como la determinación del grupo de simetría al que pertenecen, caracterizado por un conjunto de simetrías interiores a un elemento básico que condensa todo el contenido del diseño. Si somos capaces de determinar si existe contenido repetitivo en una imagen, podremos obtener un patrón que permita describir la imagen en términos de un área que se repite de forma indefinida en el plano (sin dejar huecos y sin solapes), en pasos discretos marcados por las dos direcciones de simetría de traslación que define la retícula. Bajo esta formulación, el contenido de la imagen se puede expresar a partir de una forma elemental mínima, que no contiene ninguna simetría interior. [CAT] Actualment fem ús de molta informació de caràcter visual. Veiem, creem i fem ús d'imatges en gran quantitat per a la nostra comunicació. Les tècniques d'anàlisi basades en característiques de baix nivell són, moltes voltes, poc descriptives o representatives per a l'usuari humà. Açò és degut en part a què són molt dependents de les condicions d'adquisició de cada imatge i, per la dificultat d'associar el contingut de la imatge amb una gran quantitat de valors numèrics que descriuen detalls molt menuts de la imatge. Per aproximar la forma computacional a la humana de descriure el contingut d'una imatge, les tendències actuals estan encaminades a la construcció de descripcions que impliquen l'ús de conceptes mes complexos. Estes abstraccions s'aconseguixen construint descripcions més elaborades que assumisquen la variabilitat (i les toleràncies) amb que els humans prenem les decisions a l'hora de descriure el contingut visual de les imatges. En esta tesi s'aborda l'ús de la simetria i la determinació de quines combinacions de simetries apareixen en una imatge per a la seua descripció basant-se en patrons de simetria en compter de patrons de píxels (textures) . El problema de la descripció d'imatges en estos contextos es pot veure com un de classificació, degut a la seua relació amb la teoria de grups en el pla (WallPaper Group Theory) també denominada de mosaics o teselación, es formula com la determinació del grup de simetria a què pertanyen, que és de cardinal finit (només hi ha dèsset en 2D) i es descriuen per un conjunt de simetries interiors a un element bàsic que condensa tot el contingut del disseny. Si som capaços de determinar si n'hi ha contingut repetitiu a una imatge, podrem obtindre un patró que permeta descriure la imatge en termes d'una àrea que es repetix de forma indefinida en el pla (sense deixar buits i sense solapamentss), en passos discrets marcats per les dos direccions de simetria de translació que definix la malla. Davall esta formulació, el contingut de la imatge es pot expressar a partir d'una forma elemental mínima, que no conté cap simetria interior Agustí Melchor, M. (2016). Análisis y clasificación de imágenes repetitivas mediante técnicas de simetría computacional [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/63270 TESIS

APA, Harvard, Vancouver, ISO, and other styles

24

Sanz, Kirbis David. "Aplicación de las técnicas de visión artificial como herramientas de expresión audiovisual en el campo del cine interactivo." Doctoral thesis, Universitat Politècnica de València, 2014. http://hdl.handle.net/10251/36531.

Full text

Abstract:

En este estudio práctico sobre nuevas estrategias de lenguaje audiovisual se utilizan sistemas innovadores de hardware y software de visión artificial a la hora de buscar otras aplicaciones artísticas de los recursos cinematográficos tanto en la adquisición (encuadre, movimientos, fuera de campo, etc.) como en el montaje (fundidos, cortes, elipsis, metáforas, etc.). La hipótesis que aquí se propone es que las herramientas y técnicas de visión artificial pueden ser utilizadas para generar nuevos lenguajes audiovisuales en el campo del cine interactivo. Para demostrar esta hipótesis se siguen una serie de pasos consecutivos que han permitido llevar una investigación progresiva sobre la base de un estudio de referentes artísticos. A partir de este estudio se han sintetizado una serie de conceptos clave identificados tanto en las obras artísticas como en los debates críticos referenciados. Con estos conceptos como guía se han elaborado una serie de estudios experimentales previos al desarrollo de los prototipos que finalmente componen el sistema completo expuesto al público tras ser finalizado. Tanto de las pruebas de campo de los estudios experimentales como de la exposición del prototipo final se extrajeron una serie de conclusiones a modo de evaluación de los resultados globales del estudio. Finalmente, a partir de estas conclusiones se han perfilado posibles líneas futuras de investigación. Como resultado, por una parte se han obtenido relaciones entre sonido e imagen que son singulares en el empleo de recursos como el ritmo de cambio de plano, la interdependencia sonido-imagen o el tipo de sincronía sonido-imagen en comparación con los audiovisuales desarrollados habitualmente por otros medios en contextos similares; por otra parte se ha demostrado, por medio de una serie de experimentos de campo, que depositar parcialmente la responsabilidad creativa de audiovisuales en un dispositivo automático puede proporcionar nuevas experiencias estéticas al espectador. Sanz Kirbis, D. (2014). Aplicación de las técnicas de visión artificial como herramientas de expresión audiovisual en el campo del cine interactivo [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/36531 TESIS

APA, Harvard, Vancouver, ISO, and other styles

25

Campos, Quispe Luis Fernando. "Diseño e implementación de una interface usuario-máquina basada en visión computacional para automatizar la selección de frutos cítricos según la forma, tamaño, color y defectos externos." Master's thesis, Pontificia Universidad Católica del Perú, 2020. http://hdl.handle.net/20.500.12404/16878.

Full text

Abstract:

Dentro del proceso de producción de cítricos para exportación y consumo local existen etapas que, por su alta especialización, requiere de una persona para ser ejecutadas. Tales etapas pueden ser identificadas como la medición del tamaño, la forma, el color y la detección de defectos externos. La participación de una persona para llevar a cabo estas tareas trae como consecuencia una ralentización del proceso de producción debido a que la velocidad de trabajo de una persona no se puede comparar a la de una máquina industrial. En vista de este problema se ha trabajado en el diseño de una interface basada en una cámara de visión computacional para realizar todos los trabajos que aun dependían del ojo y del cerebro humano para ser llevadas a cabo. La interface diseñada es capaz de evaluar cada fruto a una velocidad de 0.6 segundo por fruto. Este es el tiempo que demora cada fruto en atravesar el campo de visión de la cámara del recinto de captura y procesamiento de imágenes. La interface está basada en algoritmos computacionales, los cuales a su vez están basados en métodos de procesamiento de imágenes para poder extraer las características más importantes de la fruta evaluada. Los resultados obtenidos, luego de probar la interface con diferentes frutos cítricos son alentadores. Se pudo medir con una precisión del 100% el calibre de cincuenta naranjas y con una precisión de 94% el calibre de cincuenta mandarinas. El error máximo obtenido en la medición de los diámetros de los frutos evaluados fue de 2.5% para el caso de las naranjas y de 4.8% para el caso de las mandarinas. También se lograron resultados importantes al momento de medir el color y el área externa defectuosa, sin embargo, estos aspectos requieren ser mejorados. En líneas generales los logros alcanzados en el presente trabajo de tesis representan la base para futuros trabajos más especializados. Tesis

APA, Harvard, Vancouver, ISO, and other styles

26

Torres, Farro Denis Joel. "Sistema inteligente con visión computacional para mejorar la postura en la fase de salida de los atletas con discapacidad física, mental e intelectual del club Oswen, Chiclayo-Perú." Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2021. http://hdl.handle.net/20.500.12423/3715.

Full text

Abstract:

En la presente tesis se plantea el problema de ¿Cómo se puede mejorar la postura en la fase salida de los atletas con discapacidad física, mental e intelectual del club Oswen, Chiclayo - Perú?, teniendo como objetivo principal mejorar la postura en la fase de salida de los atletas con habilidades especiales y dificultades motoras del club Oswen, Chiclayo – Perú y como objetivos específicos: “Diseñar una base de conocimiento basada en la información de uno o más expertos en preparación física de atletas especiales del club Oswen, Chiclayo – Perú”, “Determinar la arquitectura del sistema inteligente con visión computacional basado en variables, hechos y reglas para la detección de errores en las técnicas deportivas”, “Desarrollar los módulos del sistema inteligente con visión computacional considerando la arquitectura propuesta” y “Validar el sistema inteligente con visión computacional a través de juicios expertos”. Como resultado, se obtuvo que la implementación de un sistema inteligente con visión computacional ayudo a mejorar la postura de los atletas con habilidades especiales y dificultades motoras en la fase de salida.

APA, Harvard, Vancouver, ISO, and other styles

27

Oré, Huacles Gian Carlos, and García Alexis Vásquez. "Desarrollo de un equipo electrónico/computacional orientado a extraer información de interés para el diagnóstico de Mildiu en plantaciones de quinua de la costa peruana basado en procesamiento digital de imágenes." Bachelor's thesis, Universidad Peruana de Ciencias Aplicadas (UPC), 2021. http://hdl.handle.net/10757/654958.

Full text

Abstract:

La presente tesis propone un equipo portátil y ergonómico que permita la captura de imágenes de cultivos de quinua y, mediante un método de procesamiento eficaz, detecte los segmentos donde la planta se encuentra afectada por la enfermedad del Mildiu (representada por un amarillamiento particular sobre las hojas) para así obtener un resultado numérico que represente dicho efecto. La realización de este proyecto resuelve el principal problema del análisis cualitativo en los que se basa el cliente para el diagnóstico de la enfermedad ya que ofrecerá una solución cuantitativa para la identificación y medición de daño en los cultivos que proporcione al agrónomo un dato vital para poder suministrar la dosis adecuada de fungicida a las plantaciones y obtener un producto de mejor calidad. Este trabajo se basa en dos procesos de segmentación: primero, se realizó, a partir de la imagen original capturada, la segmentación de vegetación sobre el entorno mediante el modelo de color L*a*b, histograma bidimensional, filtrado y binarización; y, segundo, se realizó, a partir de la imagen resultante del primer proceso, la segmentación de amarillamiento sobre la vegetación mediante de los modelos de histogramas bidimensionales, filtrado, binarización y propiedades de excentricidad. Para la validación se tomó 50 imágenes de un cultivo de quinua del Instituto Nacional de Innovación Agraria (INIA) - Sede Lima, las cuales fueron procesadas a través del equipo desarrollado y verificado por el agrónomo especialista. Finalmente, se utilizó el índice de Kappa de Cohen para comparar los resultados donde se obtuvo un resultado de 0.789. This thesis proposes a portable and ergonomic equipment that allows the capture of images of quinoa crops and, through an effective processing method, detect the segments where the plant is affected by Mildew disease (represented by a particular yellowing on the leaves) in order to obtain a numerical result that represents that effect. The realization of this project solves the main problem of the qualitative analysis on which the client is based for the diagnosis of the disease since it will offer a quantitative solution for the identification and measurement of crop damage that provides the agronomist with a vital data to be able to Supply the appropriate dose of herbicide to the plantations and obtain a better quality product. This work is based on two segmentation processes: first, from the original image captured, the segmentation of vegetation over the environment was carried out using the L*a*b color model, two-dimensional histogram, filtering and binarization; and, secondly, from the image resulting from the first process, the segmentation of yellowing on the vegetation was carried out using the two-dimensional histogram, filtering, binarization and eccentricity properties models. For validation, 50 images of a quinoa crop from INIA - Lima Headquarters were taken, which were processed through the equipment developed and verified by the specialist agronomist. Finally, Cohen’s Kappa index was used to compare the results where a result of 0.789 was obtained. Tesis

APA, Harvard, Vancouver, ISO, and other styles

28

Thomas, Brigneti Andrés Attilio. "Multi-object tracking with camera." Tesis, Universidad de Chile, 2019. http://repositorio.uchile.cl/handle/2250/170746.

Full text

Abstract:

Memoria para optar al título de Ingeniero Civil Eléctrico En este trabajo se evaluarán distintos algoritmos de trackeo para el problema de seguimiento de peatones, donde teniendo un video obtenido de una camara de seguridad, nos interesa reconocer correctamente cada individuo a traves del tiempo, buscando minimizar la cantindad de etiquetas mal asignadas y objetos (peatones) no identificados. Para esto se ocuparán algorimos basados en el concepto de Conjuntos Aleatorios Finitos (Random Finite Sets - RFS), los cuales usan mediciones pasadas de los objetos para predecir posiciones futuras de todos ellos simultaneamente, mientras que también se consideran los casos de nacimientos y muertes de los objetos. Estos algoritmos fueron concebidos para el trackeo de objetos con movimientos simples y predecibles en condiciones de una gran cantidad ruido en las mediciones. mientras que las condiciones en las que se evaluarán son drasticamente opuestas, con un nivel muy alto de certeza en las mediciones pero con movimientos altamente no linear y muy impredecible. Se ocupará una libreria abierta creada por el investigador Ba Tuong Vo, donde están implementados varios de los más clásicos algoritmos en esta área. Es por esto que el trabajo se basará más en el análisis de los resultados en estas nuevas condiciones y observar como se comparán a los algoritmos actuales del area de Computer Vision (CV)/ Machine Learning (ML), usando tanto métricas de RFS como del área de CV.

APA, Harvard, Vancouver, ISO, and other styles

29

Ferrugem, Anderson Priebe. "Visão computacional : indexação automatizada de imagens." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2004. http://hdl.handle.net/10183/153228.

Full text

Abstract:

O avanço tecnológico atual está permitindo que as pessoas recebam cada vez mais informações visuais dos mais diferentes tipos, nas mais variadas mídias. Esse aumento fantástico está obrigando os pesquisadores e as indústrias a imaginar soluções para o armazenamento e recuperação deste tipo de informação, pois nossos computadores ainda utilizam, apesar dos grandes avanços nessa área, um sistema de arquivos imaginado há décadas, quando era natural trabalhar com informações meramente textuais. Agora, nos deparamos com novos problemas: Como encontrar uma paisagem específica em um banco de imagens, em que trecho de um filme aparece um cavalo sobre uma colina, em que parte da fotografia existe um gato, como fazer um robô localizar um objeto em uma cena, entre outras necessidades. O objetivo desse trabalho é propor uma arquitetura de rede neural artificial que permita o reconhecimento de objetos genéricos e de categorias em banco de imagens digitais, de forma que se possa recuperar imagens específicas a partir da descrição da cena fornecida pelo usuário. Para que esse objetivo fosse alcançado, foram utilizadas técnicas de Visão Computacional e Processamento de Imagens na etapa de extração de feições de baixo nível e de Redes Neurais(Mapas Auto-Organizáveis de Kohonen) na etapa de agrupamento de classes de objetos. O resultado final desse trabalho pretende ser um embrião para um sistema de reconhecimento de objetos mais genérico, que possa ser estendido para a criação de indices de forma automática ou semi-automática em grandes bancos de imagens. The current technological progress allows people to receive more and more visual information of the most different types, in different medias. This huge augmentation of image availability forces researchers and industries to propose efficient solutions for image storage and recovery. Despite the extraordinary advances in computational power, the data files system remain the same for decades, when it was natural to deal only with textual information. Nowadays, new problems are in front of us in this field. For instance, how can we find an specific landscape in a image database, in which place of a movie there is a horse on a hill, in which part of a photographic picture there is a cat, how can a robot find an object in a scene, among other queries. The objective of this work is to propose an Artificial Neural Network (ANN) architecture that performs the recognition of generic objects and object’s categories in a digital image database. With this implementation, it becomes possible to do image retrieval through the user´s scene description. To achieve our goal, we have used Computer Vision and Image Processing techniques in low level features extraction and Neural Networks (namely Kohonen’s Self-Organizing Maps) in the phase of object classes clustering. The main result of this work aims to be a seed for a more generic object recognition system, which can be extended to the automatic or semi-automatic index creation in huge image databases.

APA, Harvard, Vancouver, ISO, and other styles

30

Saracchini, Rafael Felipe Veiga 1984. "Métodos fotométricos para visão computacional." [s.n.], 2012. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275694.

Full text

Abstract:

Orientador: Jorge Stolfi Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-20T23:28:47Z (GMT). No. of bitstreams: 1 Saracchini_RafaelFelipeVeiga_D.pdf: 51136325 bytes, checksum: 85143775bfe25a7a66b61a5dcd0303d2 (MD5) Previous issue date: 2012 Resumo: O principal objetivo desta tese de doutorado é o desenvolvimento e implementação de técnicas inovadoras para visão estereoscópica ou estéreo - a reconstrução de um modelo tridimensional de uma cena, a partir de duas ou mais imagens bidimensionais da mesma. Especificamente, estudamos e aprimoramos métodos de estéreo fotométrico, que utilizam imagens tomadas com mesmo ponto de vista sob várias condições de iluminação e determinam a normal à superfície da cena em cada pixel das imagens. Estas normais podem ser então integradas para gerar um mapa de alturas que fornece a terceira dimensão da cena. Consideramos principalmente métodos em que as condições de iluminação e o acabamento da superfície da cena são determinadas pela análise de imagens de objetos de referência (gabaritos) com forma conhecida. As contribuições desta tese consistem em: (1) desenvolvimento de gabaritos virtuais para eliminar o ruído presente nas imagens de gabaritos reais; (2) um método de grade bidimensional para determinação rápida das normais da cena; (3) uma abordagem robusta baseada em inferência bayesiana para determinação das normais na presença de anomalias de tonalização; e (4) dois métodos para integração multi-escala para mapas de normais que podem ser usados em mapas com lacunas e ruído. Investigamos também uma aplicação prática dessas técnicas: a captura da geometria da face de uma pessoa em movimento Abstract: The main goal of this PhD thesis is the development and implementation of innovative techniques for stereo vision or stereo - the reconstruction of a tridimensional model of a scene from two or more two dimensional images. Specifically, we studied and improved photometric stereo methods, which use images taken from the same viewpoint under different lighting conditions, and determine the surface normal of the scene at each pixel. We mainly studied methods that determine the lighting conditions and surface finish by the analysis of images of reference objects (gauges or example objects) with known geometry. The contributions of this thesis consist of: (1) development of virtual example objects in order to eliminate noise and defects present in images of real example objects; (2) a 2D hashing grid method for fast normal computation; (3) a robust approach based in Bayesian inference for surface normal computation in the presence of shading anomalies, and (4) two methods for multi-scale normal map integration that can be used in maps with missing or noisy data. We also investigated a practical application of such methods: the capture of the 3D facial geometry of a person in movement Doutorado Ciência da Computação Doutor em Ciência da Computação

APA, Harvard, Vancouver, ISO, and other styles

31

PINTO, MIGUEL ANGELO GASPAR. "POSITIONING AND CALIBRATION OF A UNDERWATER ROBOTIC MANIPULATOR WITH USE OF COMPUTACIONAL VISION." PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO, 2006. http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=9319@1.

Full text

Abstract:

COORDENAÇÃO DE APERFEIÇOAMENTO DO PESSOAL DE ENSINO SUPERIOR Muitos dos robôs industriais utilizados atualmente seguem uma programação baseada em rastreamento de trajetórias. O robô é guiado por um operador humano para localizações fixas onde ele atuará. Esses movimentos são, então, gravados na linguagem de programação residente no controlador do robô, de forma que este seja capaz de repetir as tarefas. Este método pode ser suficiente para, por exemplo, movimentar objetos entre locais fixos. Como o robô está treinado para se movimentar em posições fixas, todas as partes do manipulador, bem como todos os objetos que serão manipulados devem estar em posições bem definidas, ou uma nova programação deverá ser feita. Outra metodologia é a de teleoperação, na qual a movimentação de sistemas robóticos é executada em modo manual, no qual o operador trabalha em uma arquitetura mestre-escravo controlando direta e continuamente as posições do manipulador. Para essas tarefas é necessário apenas que o sistema possua um alto grau de repetibilidade, uma vez que quaisquer erros absolutos de posicionamento são visualmente compensados pelo operador humano. Porém em certas aplicações robóticas essas técnicas de programação de manipuladores são impraticáveis ou insatisfatórias. A primeira vem a ser impraticável no caso de alta variabilidade do ambiente onde a tarefa está sendo feita. O segundo método atribui ao robô uma precisão absoluta baixa, devido a própria deficiência da percepção humana. Este trabalho segue pelas tendências modernas de automação, as quais vêm colocando uma crescente ênfase em robôs guiados por sensores e programação off-line, automatizando total ou parcialmente muitas das tarefas a serem executadas. Sensores, como câmeras ligadas a um sistema de visão computacional, detectam diferenças entre a posição real do manipulador e a posição desejada. Estas diferenças são então enviadas para os controladores, para que estes corrijam a trajetória pré-programada. Os comandos de movimento do manipulador são programados off-line por um sistema de CAD, sem a necessidade de ativar o robô, permitindo maior velocidade em sua validação e na resolução de problemas. Apresentam-se neste trabalho metodologias e técnicas para o posicionamento do manipulador utilizando-se, para tanto, câmeras em sua extremidade. Uma vez posicionado o manipulador em relação ao espaço de coordenadas do mundo, é possível deslocá-lo com segurança e precisão em sua área de trabalho, o que é imprescindível para automatização de tarefas complexas. O trabalho está concentrado nas aplicações de técnicas de visão computacional à calibração de manipuladores. Como estudo de caso utiliza-se uma situação real, de um manipulador submarino de seis graus de liberdade, para intervenções submarinas em plataformas de petróleo. Abordam-se a calibração de câmeras, reconhecimento de padrões, correlação de padrões em imagens distintas, estereoscopia, cinemática direta e inversa de manipuladores e a união de todas estas técnicas para o posicionamento do manipulador em sua área de trabalho. Many of today´s industrial robots are still programmed to follow trajectories. The robot is guided by a human operator to the desired fixed application locations. These motions are recorded and are later edited, within the robotic language residing in the robot controller, and played back, for the robot to be able to repetitively perform its task. This methodology is enough to move objects between fixed locations. As the robot is trained to move within fixed positions, all manipulator parts, as well as all the objects which will be manipulated need to be in well defined positions, otherwise another program is needed. Another methodology would be teleoperation, where the robotic system`s movements are executed in manual mode, having the operator working in a master-slave architecture, controlling direct and continuously the positions of the robot. For these tasks it is needed only for the system to have enough repeatability, once any absolute positioning errors can be visually compensated by the human operator. On the other side, in certain robotic applications, both programming techniques are either not practical or inefficient. The first, where the human operator teaches the trajectories to the robot, is not possible when there is high variance in the environment where the task is being performed. The second method, the teleoperation, has low absolute accuracy, due the deficiencies of human perception. This project follows modern tendencies of automation, which give increasing emphasis on robots guided by sensors and off-line programming, partially or completely automating many of the tasks to be executed. Sensors such as cameras eloed to a system of computational vision detect differences between the actual and desired position of the manipulator. This information is sent to controllers to correct the pre-programated trajectory. The manipulator movement commands are programmed off-line by a CAD system, without need even to turn on the robot, allowing for greatest speed on its validation, as well as problem solving. This work presents methodologies and techniques which allow the precise positioning of the manipulator using cameras in its end-effector. Once it is positioned in relation with the world frame, it is possible to move the manipulator with safety and precision its work area, as is needed for automation of complex tasks. This work is focused on computational vision techniques applied for manipulator calibration. It is based on a real case of a subsea manipulator of six degrees of freedom, used for underwater interventions in oil exploring platforms. The subjects treated in this work include camera calibration, pattern recognition, position tracking, stereopsis, direct and inverse manipulator kinematics and the union of all techniques for manipulator positioning in the work area.

APA, Harvard, Vancouver, ISO, and other styles

32

Andaló, Fernanda Alcântara 1981. "Métodos de visão computacional aplicáveis à ciência forense." [s.n.], 2012. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275672.

Full text

Abstract:

Orientador: Siome Klein Goldenstein Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-22T01:13:30Z (GMT). No. of bitstreams: 1 Andalo_FernandaAlcantara_D.pdf: 40510814 bytes, checksum: d6c348c91f07e6085e27cec5408c1ab2 (MD5) Previous issue date: 2012 Resumo: A criminalidade, crescente em termos de volume e sofisticação, vem determinando a necessidade de conhecimento e aplicação de métodos científicos para sua prevenção e investigação. Isso faz com que essas tarefas mereçam significativa atenção de governos e pesquisadores. A investigação forense de um crime é um processo complexo, que tem seu início na cena do evento e continua no laboratório, suprindo o tribunal onde o julgamento _e realizado, de informações e argumentos necessários a materializar a ocorrência do delito e a identificação dos culpados. Os investigadores precisam de suporte técnico e de conhecimento para que os resultados alcançados sejam os mais eficientes e eficazes possíveis. Esta tese apresenta três métodos de visão computacional, que podem ser aplicados no processo de investigação forense: um para fotogrametria, que possibilita medir alturas de objetos em imagens; um framework para reconstrução tridimensional de impressões de calçados (pegadas tridimensionais) em cenas de crime; e um método para a reconstrução de imagens a partir de uma coleção de pequenos fragmentos. Obter medidas de objetos em imagens -fotogrametria - é um requisito consuetudinário em Ciência Forense. Em um sistema confiável, a altura estimada de uma pessoa pode ser usada como evidência corroborativa. No segundo método, utilizam-se técnicas de visão estéreas para a obtenção de um modelo tridimensional, reconstruído a partir de fotografias tiradas de impressões de calçados em cenas de crime. No terceiro método, a necessidade de reconstruir imagens fragmentadas é explorada. Imagens podem ser danificadas a _m de ocultar informações e cabe à Computação Forense explorar metodologias para a reconstrução automática de tais imagens, já que o processo manual é muito laborioso. As contribuições desta tese são: (a) novo e eficaz detector de pontos de fuga, em uma única imagem, que possui maior acurácia do que os presentes na literatura e que foi desenvolvido para facilitar medições de altura em uma única imagem bidimensional; (b) pipeline para reconstrução tridimensional de impressões de calçados, a partir de fotografias tiradas do vestígio em diferentes ângulos, e sua validação em comparação aos métodos utilizados na prática atualmente; (c) novo método determinístico de reconstrução automática de imagens, a partir de uma coleção de pequenos fragmentos retangulares, baseado em programação quadrática e que fornece resultados com maior acurácia do que os propostos na literatura Abstract: Crimes in our society, increasing in volume and sophistication, have determined the need for knowledge and use of scientific methods to their prevention and investigations, deserving significant attention from governments and researchers. The forensic investigation of a crime is a complex process that starts at the scene of the event and continues on the laboratory, providing the court, where the trial is conducted, with information and arguments needed to confirm the occurrence of the offense and to identify suspects. Investigators need technical support and knowledge to achieve efficient and effective results. This thesis presents three Computer Vision methods that can be applied in forensic investigations: one for photogrammetry, which allows measurement of objects' heights in images; a framework to the recovery of footwear impressions from crime scenes; and a method for image reconstruction from a collection of small unordered fragments. The process of obtaining measurements in images - photogrammetry - is a customary requirement in Forensic Science. In a trusted system, the estimated height of a person can be used to corroborate or refute pieces of evidence. In the second method, multiview stereo techniques are used to obtain a three-dimensional model, reconstructed from photographs taken from footwear impressions at the crime scene. In the third method, the need for reconstructing shredded images is explored. Photographs can be shredded in order to hide information and it is up to the field of Computer Forensics to explore methodologies for the automatic reconstruction of such images, since their manual assembling is very laborious. The contributions of this thesis are: (a) new effective vanishing point detector that achieves better accuracy than the previous methods in the literature and that was designed to facilitate the process of making measurements in single 2D image; (b) a new methodology for the recovery of 3D footwear impression, from images taken from the evidence at different angles, and its validation in comparison to methods currently used in practice (c) new deterministic method, based on quadratic programming, to reconstruct images from a collection of small rectangular fragments, providing more accurate results than other proposed methods in the literature Doutorado Ciência da Computação Doutor em Ciência da Computação

APA, Harvard, Vancouver, ISO, and other styles

33

Hiramatsu, Roberto Kenji. "Sistema de visão computacional sobre processadores com arquitetura multi núcleos." Universidade de São Paulo, 2008. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-14082008-174651/.

Full text

Abstract:

Esta tese apresenta um estudo sobre a implementação de sistema de detecção e reconhecimento de faces no processador CELL na plataforma CBE, utilizando um sistema Playstation 3. Inicialmente, diversas abordagens para reconhecimento e detecção de faces são estudadas, bem como arquiteturas de processador multi núcleos. São apresentadas três implementação, sendo a segunda implementação premiada com quarto colocado no IBM CELL UNIVERSITY CHALLENGE 2007 para desenvolvimento de programas para plataforma Cell BE. A terceira implementação apresenta os resultados interessantes relacionados a vetorização do processamento dos dados da detecção de objetos e os recursos adotados para obter o melhor desempenho. This thesis presents a study of face detection implementation on CBE plataform and employ the system with Playstation 3 hardware. Several approaches for face detection and recognition are studied as well as multicore processor architetures. We implemented three versions of system. First implementation was a naive reference implementation with worst performance. Second implementation granted fourth prize in IBM CELL UNIVERSITY CHALLENGE 2007 that incentive development on CBE plataform. Third implementation had most interesting results with vectorized approaches on code of object detection.

APA, Harvard, Vancouver, ISO, and other styles

34

Frick, Marcio André Dell'aglio. "CARACTERIZAÇÃO DE MINÉRIO DE FERRO POR VISÃO COMPUTACIONAL." Universidade Federal de Santa Maria, 2008. http://repositorio.ufsm.br/handle/1/8080.

Full text

Abstract:

Ore classification is useful for understanding and controlling industrial beneficiation processes. The present work contributes to the developement of a computer vision system for automated classification of iron ores by image analysis of optical micrographs. For this purpose, morphological feature extraction algorithms were implemented and feature based classification algorithms were developed. These methods were successfully applied to the classification of hematite grains into four classes determined by their shape (lamellar or granular) and porosity (porous and compact) as characterized by just four features, namely, circularity, aspect ratio, fiber ratio and porosity. A classificação de minérios é útil para o entendimento e controle processos de beneficiamento industrial. O presente trabalho contribui para o desenvolvimento de um sistema de visão computacional para realizar a classificação automática de minério de ferro por análise de imagens de micrografia ótica. Com este propósito, algoritmos de extração de características morfológicas foram implementados e algoritmos de classificação com base em características foram desenvolvidos. Estes métodos foram aplicados com sucesso à classificação de grãos de hematita em quatro classes determinadas pela sua forma (lamelar ou granular) e porosidade (porosa e compacta) utilizando apenas quatro características, a saber, circularidade, razão de aspecto, razão de fibra e porosidade.

APA, Harvard, Vancouver, ISO, and other styles

35

Gonçalves, Wesley Nunes. "Caminhadas determinísticas em redes complexas aplicadas em visão computacional." Universidade de São Paulo, 2010. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08042010-112016/.

Full text

Abstract:

As redes complexas têm recebido um crescente interesse nas mais diversas áreas do conhecimento. Esse crescimento se deve principalmente a sua flexibilidade em modelar e simular estruturas topológicas que aparecem em nosso cotidiano. Na maioria das vezes, a caracterização das redes complexas é baseada em medidas básicas, como média dos graus, graus hierárquicos, coeficiente de aglomeração, entre outras. Muitas das medidas propostas são correlacionadas, implicando em redundância. Este trabalho propõe o uso das caminhadas determinísticas do turista como uma medida de representação robusta e eficiente de redes complexas. Nesta medida, caminhadas são iniciadas por exploradores que partem de um dos vértices da rede e em seguida, informações são extraídas sobre essas caminhadas. Experimentos foram realizados em redes complexas artificiais e em redes modelando imagens de textura. No reconhecimento de redes artificiais, o método proposto foi aplicado em quatro modelos de redes complexas teóricos: redes aleatórias, pequenomundo, livre de escala e geográficas. No reconhecimento de textura, o método foi avaliado em bancos de texturas sintéticas e reais (texturas de folhas de plantas). Em ambas as aplicações, o método alcançou excelentes resultados comparados com o estado da arte Complex networks have received a growing interest in several areas of knowledge. This growth is mainly due to its flexibility in modeling and simulating topological structures that appear in our daily life. In most cases, complex networks characterization are based on basic measurements such as average degree, hierarchical degree, clustering coefficient, among others. Many of the measures are correlated, resulting in redundancy. This dissertation proposes the use of deterministic walks as a robust and efficient complex network measurement. In this measurement, walks are initiated by explorers starting from each vertex and then, informations are extracted on these walks. Experiments were performed on artificial complex networks and network modeling texture images. In artificial network recognition, the proposed method was applied to four theoretical complex network models: random, small-world, free-scale and geographical networks. In texture recognition, the method was evaluated in synthetic and real (texture of leaves) databases. In both applications, the method achieved excellent results compared with the state of the art methods

APA, Harvard, Vancouver, ISO, and other styles

36

Couto, Leandro Nogueira. "Sistema para localização robótica de veículos autônomos baseado em visão computacional por pontos de referência." Universidade de São Paulo, 2012. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-04092012-110014/.

Full text

Abstract:

A integração de sistemas de Visão Computacional com a Robótica Móvel é um campo de grande interesse na pesquisa. Este trabalho demonstra um método de localização global para Robôs Móveis Autônomos baseado na criação de uma memória visual, através da detecção e descrição de pontos de referência de imagens capturadas, com o método SURF, associados a dados de odometria, em um ambiente interno. O procedimento proposto, associado com conhecimento específico sobre o ambiente, permite que a localização seja obtida posteriormente pelo pareamento entre quadros memorizados e a cena atual observada pelo robô. Experimentos são conduzidos para mostrar a efetividade do método na localização robótica. Aprimoramentos para situações difíceis como travessia de portas são apresentados. Os resultados são analisados, e alternativas para navegação e possíveis futuros refinamentos discutidos Integration of Computer Vision and Mobile Robotics systems is a field of great interest in research. This work demonstrates a method of global localization for Autonomous Mobile Robots based on the creation of a visual memory map, through detection and description of reference points from captured images, using the SURF method, associated to odometer data in a specific environment. The proposed procedure, coupled with specific knowledge of the environment, allows for localization to be achieved at a later stage through pairing of these memorized features with the scene being observed in real time. Experiments are conducted to show the effectiveness of the method for the localization of mobile robots in indoor environments. Improvements aimed at difficult situations such as traversing doors are presented. Results are analyzed and navigation alternatives and possible future refinements are discussed

APA, Harvard, Vancouver, ISO, and other styles

37

GOMIDE, Renato de Sousa. "Ambiente virtual para reabilitação de membros superiores utilizando visão computacional." Universidade Federal de Goiás, 2012. http://repositorio.bc.ufg.br/tede/handle/tde/971.

Full text

Abstract:

Made available in DSpace on 2014-07-29T15:08:18Z (GMT). No. of bitstreams: 1 dissertacaoRenatoGomide.pdf: 2296595 bytes, checksum: 2dddc092b65cb82c20f3e729fd541225 (MD5) Previous issue date: 2012-05-02 The use of computing devices used in virtual reality has been exploited to provide solutions in healthcare, specifically in functional rehabilitation. There are studies that indicate that immersion caused by the use of virtual environments in rehabilitation presents positive results on the evolution of a patient in therapy. From this information, there was motivation for this study, which aims at developing a low cost solution consisting in a virtual environment for upper limbs rehabilitation. This work describes the internal elements of the computing device and also the development of the virtual environment. The user interacts with the virtual environment through computer vision techniques, having a webcam as a data input device. Acquired images by the webcam are processed so that an object of interest may be in evidence by algorithms of image segmentation. There were analyzed five techniques of image segmentation in RGB and HSV color spaces. By the results obtained in the development environment, it wasn't possible to classify the best method of segmentation, and the performance of the methods varies according to the color of the object of interest and lighting of the external environment. The virtual environment was modeled after technical visits made in rehabilitation center supported by physiotherapists and occupational therapists. The virtual environment was tested only in research environment. Therefore it is necessary to employ the system in rehabilitation clinic in partnership with health professionals so that there is a validation of the virtual environment developed in this project in the area of rehabilitation. A utilização da computação em dispositivos de realidade virtual tem sido explorada para prover soluções na área da saúde, mais especificamente em recuperação funcional. Há estudos que indicam que a imersão causada pela utilização de ambientes virtuais em reabilitação apresenta resultados positivos sobre a evolução do quadro de um paciente em terapia motora. A partir desta informação, houve motivação para este estudo, que tem como objetivo principal desenvolver um ambiente virtual de baixo custo para recuperação funcional de membros superiores. O ambiente virtual foi modelado a partir de visitas técnicas realizadas em centro de reabilitação com o apoio de fisioterapeutas e terapeutas ocupacionais. Além disso, este trabalho descreve quais elementos internos do dispositivo computacional e também qual ambiente virtual foram desenvolvidos. O usuário interage com o ambiente virtual por meio de técnicas de visão computacional, tendo uma webcam como dispositivo de entrada de dados. As imagens adquiridas pela webcam são processadas de modo que um objeto de interesse fique em evidência por meio de segmentação da imagem. Foram analisadas cinco técnicas de segmentação de imagem nos espaços de cores RGB e HSV. Por meio dos resultados obtidos no ambiente de desenvolvimento, não foi possível classificar o melhor método de segmentação, pois o desempenho de cada um varia de acordo com a cor do objeto de interesse e da iluminação do ambiente externo. O ambiente virtual foi testado apenas em laboratório e em ambiente de desenvolvimento. Portanto, em parceria com profissionais da saúde, é necessário empregar o sistema em clínica de reabilitação para que haja a validação do ambiente virtual desenvolvido neste projeto.

APA, Harvard, Vancouver, ISO, and other styles

38

Selvatici, Antonio Henrique Pinto. "AAREACT: uma arquitetura comportamental adaptativa para robôs móveis que integra visão, sonares e odometria." Universidade de São Paulo, 2005. http://www.teses.usp.br/teses/disponiveis/3/3141/tde-10062005-104556/.

Full text

Abstract:

Para ter uma aplicação real, um robô móvel deve poder desempenhar sua tarefa em ambientes desconhecidos. Uma arquitetura para robôs móveis que se adapte ao meio em que o robô se encontra é então desejável. Este trabalho apresenta uma arquitetura adaptativa para robôs móveis, de nome AAREACT, que aprende como coordenar comportamentos primitivos codificados por Campos Potenciais através de aprendizado por reforço. Cada comportamento utiliza a informação de apenas um tipo de sensor (visão, sonar ou odometria). O sensor de visão foi desenvolvido neste trabalho, e utiliza os tempos para colisão obtidos através da análise de seqüências de imagens para indicar a disposição dos objetos à frente do robô. A atuação da arquitetura proposta é comparada com a apresentada por uma arquitetura com coordenação fixa dos comportamentos, demonstrando melhor desempenho. Os resultados obtidos neste trabalho também apontam a alta capacidade de adaptação da arquitetura AAREACT. It is desirable that mobile robots applied to real world applications perform their operations in previously unknown environments. Thus, a mobile robot architecture capable of adaptation is very suitable. This work presents an adaptive architecture for mobile robots called AAREACT, that has the ability of learning how to coordinate primitive behaviors codified by the Potential Fields method through reinforcement learning. Each behavior uses the information of a single sensor (vision, sonar or odometer). This work also brings details about the vision sensor\'s development, which uses time-to-crash information in order to detect distances to frontal obstacles. The proposed architecture\'s actuation is compared to that showed by an architecture that performs a fixed coordination of its behaviors, and shows a better performance. The obtained results also suggest that AAREACT has good adaptation skills.

APA, Harvard, Vancouver, ISO, and other styles

39

Rubin, Ricardo Soares. "Estudo de parâmetros para caracterização de fraturas ósseas experimentais utilizando visão computacional." Universidade de São Paulo, 2004. http://www.teses.usp.br/teses/disponiveis/18/18133/tde-12052017-105247/.

Full text

Abstract:

O objetivo deste trabalho é a investigação da evolução da regeneração óssea de osteotomias em tíbias de carneiro utilizando processamento de imagens. Para isso, foram utilizadas radiografias digitalizadas de 15 animais divididos em 3 grupos, animais sacrificados com 30, 45 e 60 dias. O processo de regeneração da fratura foi feito com o auxílio de fixador flexível, pois este apresenta, tipicamente, uma consolidação indireta com formação de calo ósseo. A avaliação clínica baseia-se na dimensão e na densidade mineral do calo, obtidas por diferentes métodos. Neste trabalho são apresentadas a evolução do tamanho do calo ósseo em relação à largura média do osso na região da fratura e a avaliação de 14 parâmetros de textura, sendo 5 parâmetros de primeira ordem (MEAN, STDEV, KURT, SKEW e ENER) e 9 características de Haralick (ASM, CONT, CORR, IDM, ENT, VAR, DIAGM, SHADE e PROM). O acompanhamento do crescimento do calo seguiu o comportamento descrito na literatura. Os parâmetros de textura cuja performance foi insatisfatória são 6, a saber, ENER, ASM, CONT, IDM, ENT e DIAGM. Outros 6 possuem comportamento distintos. O parâmetro CORR mostra-se útil para separar imagens com definição de imagens ruidosas. Os parâmetros SHADE e PROM demarcam regiões de contorno. Os parâmetros STDEV, KURT e SKEW têm uma similaridade ao longo do tempo e separam a osteotomia da medular nas imagens iniciais. Os valores dos parâmetros MEAN e VAR refletem a calcificação do tecido na região do calo e conseqüentemente, a rigidez do mesmo durante o processo de regeneração. Estes dois parâmetros discretizam a regeneração ao longo do tempo. Os parâmetros de textura podem ser usados como classificadores da regeneração óssea de forma não-invasiva em um sistema automático de classificação. The present dissertation investigates the evolution characteristics of bone regeneration in goat\'s tibia osteotomies by image processing. Digitized radio-graphs of 13 animals were used. They were divided into three groups sacrificed at 30, 45 and 60 days respectively. The fracture healing was performed with the aid of flexible fixation, which often develops indirect regeneration with bone callus. The clinical evaluation is based on the dimensional and mineral density of bone callus measured by one of the existent methods. The evolution of the bone callus relative to the bone thickness and 14 texture parameters evaluated at the fractured site are presented here. Nine of the parameters are characteristics of Haralick (ASM, CONT, CORR, IDM, ENT, VAR, DIAGM, SHADE and PROM) and the others are first order parameters (MEAN, STDEV, KURT, SKEW and ENER). The bone callus behaves as described in literature. Six texture parameters, ENER, ASM, CONT, IDM, ENT and DIAGM had no relation with regeneration. The CORR parameter experesses the quality of the image. SHADE and PROM parameters mark the ontour of the images. SKEW, KURT and STDEV have a similar behavior once they separete osteotomy from medular in the initial images. The VAR and MEAN parameters show a commom variation among images along the time. This pattern represents the evolution of regeneration and distinguishes bone concentration at osteomotmy site and therefore its rigidity. Texture parameters are capable ofcharacterizing bone regeneration in a noninvasive way for an automatic classification system.

APA, Harvard, Vancouver, ISO, and other styles

40

Bianchi, Reinaldo Augusto da Costa. "Uma arquitetura de controle distribuída para um sistema de visão computacional propositada." Universidade de São Paulo, 1998. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-10122004-222058/.

Full text

Abstract:

Esta dissertação apresenta uma arquitetura de controle distribuída para um sistema de visão computacional propositada, modelada segundo uma abordagem de Inteligência Artificial Distribuída com ênfase em Sistemas Multi-Agentes. O principal problema abordado é o da integração de diversos módulos com tarefas e comportamentos diferentes em um sistema robótico, que utiliza visão computacional para perceber o mundo. Esta integração surge da organização de diversas soluções dedicadas a diferentes tarefas visuais, resultando na proposta de uma arquitetura constituída por uma sociedade de Agentes Autônomos (AAs), que comunicam entre si através de uma rede de comunicação descentralizada e totalmente conectada, sendo cada AA responsável por um comportamento independente, organizados segundo regras de comportamento e uma estrutura de autoridade. Essa arquitetura integra diversos módulos da cognição, como percepção visual, planejamento, controle e atuação. Como tentativa de validação experimental da proposta, essa arquitetura foi implementada em um sistema dotado de um manipulador robótico e uma câmera, trabalhando em um domínio de montagem. A estrutura básica da arquitetura foi desenvolvida segundo uma metodologia de projeto orientada a objetos e consiste em uma biblioteca de classes que definem o modelo dos agentes e as estruturas para as interações entre esses em uma sociedade. O sistema robótico proposto foi implementado na Célula Flexível de Montagem da Escola Politécnica da USP, tendo por objetivo realizar tarefas de montagens simples e visualmente guiadas. O sistema foi testado exaustivamente e os resultados experimentais indicaram algumas vantagens e desvantagens da metodologia empregada, possibilitando a definição de algumas diretrizes importantes para o projeto e implementação de sistemas robóticos inteligentes atuando no mundo real. This dissertation presents a distributed control architecture for a purposive computer vision system, modeled according to a Distributed Artificial Intelligence approach, with emphasis in Multi-Agents Systems. The main problem addressed is the integration of several modules with different purposes and behaviors in a robotic system, which uses computer vision to perceive the world. This integration arises from the organization of several dedicated solutions to different visual tasks, resulting in the proposal of one architecture that consists of a society of Autonomous Agents, communicating with each other through a decentralized and fully connected network, where each AA is responsible for an independent behavior. This society is organized according to behavior rules and an authority structure. Furthermore, this architecture integrates several cognitive modules, like visual perception, planning, control and action. As an attempt of an experimental validation of the proposal, this architecture was implemented in a system composed of a robotic manipulator and one camera, working in an assembly domain. The basic structure of the architecture was developed according to an object oriented methodology and consists of a library of classes which defines the agents\' model and the structures needed for the interactions among these agents in a society. The proposed robotic system was implemented in the Flexible Assembly Cell of the Escola Politécnica da USP, with the objective of accomplishing simple and visually guided assembly tasks. The system was thoroughly tested and the experimental results indicated some advantages and inconveniences of the methodology, allowing the definition of some important guidelines for the design and implementation of intelligent robotic systems acting in the real world.

APA, Harvard, Vancouver, ISO, and other styles

41

Buscariollo, Paulo Henrique. "Sistema de posicionamento dinâmico baseado em visão computacional e laser." Universidade de São Paulo, 2008. http://www.teses.usp.br/teses/disponiveis/3/3135/tde-01102008-140354/.

Full text

Abstract:

Nos últimos anos, tem se intensificado o desenvolvimento de novas tecnologias para serem aplicadas à veículos submersíveis não tripulados. Uma delas é a visão computacional, que tem o objetivo de extrair informações úteis das imagens captadas do ambiente, podendo ser utilizada como um sensor para o posicionamento do veículo, além de contribuir para o reconhecimento automático de objetos a serem inspecionados. A finalidade de um veículo submersível não tripulado é efetuar missões de inspeções ou pequenos reparos em estruturas submersas em meios oceânicos ou fluviais. Nessas operações, é importante que o veículo possua um controle autônomo, por meio de um sistema de posicionamento dinâmico, para facilitar a sua operação e garantir o sucesso da missão. Em função destas necessidades, este trabalho concentra-se no desenvolvimento de um sistema de visão computacional auxiliado por ponteiros de raio laser, que geram marcos visuais artificiais em ambientes não estruturados, possibilitando medir distâncias e ângulo de aproamento baseado no método da triangulação. Foram testados lasers com diferentes comprimentos de onda, em ambiente aéreo e subaquático, com diferentes índices de turbidez, nível de luminosidade e distância. Baseado nos resultados e utilizando o sistema de visão e laser como método de sensoriamento, foi projetado e implantado um sistema de posicionamento dinâmico para o plano horizontal, utilizando Filtro de Kalman. A avaliação do sistema de posicionamento dinâmico e do método de sensoriamento foi realizada por meio de simulação numérica e averiguação experimental, utilizando-se um modelo reduzido de um veículo de superfície no laboratório do Departamento de Engenharia Naval e Oceânica da Escola Politécnica da Universidade de São Paulo. Os resultados experimentais indicaram a viabilidade da aplicação do método de sensoriamento baseado em visão computacional e laser para sistemas de posicionamento dinâmico, mostrando-se um método simples, confiável, ativo e independente. The development of new technologies to improve unmanned underwater vehicles has recently intensified. Computer vision, one such example, has the objective of extracting useful information from images captured in the environment; this information can facilitate vehicle positioning and the reconnaissance of objects to be inspected. Purposes of unmanned underwater vehicles include inspection missions and small repairs in underwater structures located in oceans or rivers. For these operations it is important for the vehicle to have an autonomous control system using dynamic positioning system to facilitate its operation and to guarantee the missions success. Given these necessities, this study concentrates on the development of a computer vision system supported by laser pointing devices that generate artificial landmarks in non-structured environments, facilitating distance and angle measurement based on the triangulation method. Lasers of different wavelengths were tested in air and underwater environments, where the latter had different indices of turbidity, levels of luminosity, and distance. Based on the results and utilizing the system of vision and laser as a sensor method, a dynamic positioning system for the horizontal plane has been created through the use of Extended Kalman Filter. The evaluation of this dynamic positioning system and of the sensor method was accomplished through numeric simulation and experimental checks using a reduced model of a surface vehicle, located in the University of São Paulos Department of Naval and Oceanic Engineering. The experimental results show that the application of the sensor method based on laser and computer vision for the dynamic positioning system is viable and proved to be an independent, active, reliable, and simple method.

APA, Harvard, Vancouver, ISO, and other styles

42

Rojas, Rojas Oscar Ernesto 1987. "Implementação de um sistema de medição de ângulos para alinhamento de direção veicular usando visão computacional." [s.n.], 2013. http://repositorio.unicamp.br/jspui/handle/REPOSIP/264532.

Full text

Abstract:

Orientador: Paulo Roberto Gardel Kurka Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica Made available in DSpace on 2018-08-22T04:30:40Z (GMT). No. of bitstreams: 1 RojasRojas_OscarErnesto_M.pdf: 6796048 bytes, checksum: b8ed20ae8705d42b0bf18085a62d0b64 (MD5) Previous issue date: 2013 Resumo: Este trabalho tem como finalidade a implementação de um método de medição de ângulos de alinhamento de direção veicular, baseado em imagens estereoscópicas. São desenvolvidas soluções de processamento e análise de imagens, bem como a sua integração em um programa gerenciador da tarefa de medição dos ângulos. A implementação do programa de gerenciamento é feita utilizando os conceitos model-view-control (MVC) e programação orientada a objetos. Utilizam-se os pacotes de código livre framework C++ Qt®, Armadillo, OpenCV e DOxygen. São apresentados resultados de operação do sistema utilizando imagens virtuais e reais. Abstract: The main objective of this work is the implementation of a measuring methodology to obtain the angles of alignment of the steering mechanism of a car, based on stereoscopic images. Solutions for image processing and analysis are proposed and implemented in the form of integrated operating software. Implementation of the software is done using the MVC (Model-View-Controller) and OOP (Object Oriented Programming) concepts. Free software packages are used, such as the Qt® C++ Framework, Armadillo, OpenCV and DOxygen. Results from the use of the operating software are presented, using virtual and real images. Mestrado Mecanica dos Sólidos e Projeto Mecanico Mestre em Engenharia Mecânica

APA, Harvard, Vancouver, ISO, and other styles

43

Almeida, Carlos Caetano de 1976. "Arquitetura do módulo de convolução para visão computacional baseada em FPGA." [s.n.], 2015. http://repositorio.unicamp.br/jspui/handle/REPOSIP/265780.

Full text

Abstract:

Orientador: Eurípedes Guilherme de Oliveira Nóbrega Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica Made available in DSpace on 2018-08-27T23:49:29Z (GMT). No. of bitstreams: 1 Almeida_CarlosCaetanode_M.pdf: 5316196 bytes, checksum: 8c3ec7a0c5709f2507df4dbc54c137b0 (MD5) Previous issue date: 2015 Resumo: Esta dissertação apresenta o estudo de uma arquitetura para o processamento digital de imagens, desenvolvido através de dispositivos de hardware programável, no caso FPGA, para a implementação eficiente no domínio do tempo do algoritmo da convolução discreta, que permita sua integração em redes neurais de convolução com múltiplas camadas, conhecidas como ConvNets, visando sua aplicação na área de visão computacional. A implementação em software pode acarretar elevado custo computacional de muitos algoritmos, o que pode não atender às restrições de aplicações em tempo real, logo o uso de implementações em FPGA torna-se uma ferramenta atraente. A convolução 2D na área de visão computacional é um desses algoritmos. O uso de FPGA permite a adoção de execução concorrente para os algoritmos, por ser em hardware, possibilitando que as redes de convolução possam vir a ser adotadas em sistemas embarcados de visão computacional. Neste trabalho de pesquisa foram estudadas duas soluções. Na primeira foi implementado no FPGA o processador soft core NIOS II®, e programado o algoritmo. Na segunda solução, foi desenvolvida uma configuração em que o algoritmo foi implementado diretamente em hardware, sem a necessidade de um microprocessador tradicional. Os resultados mostram que uma redução expressiva do tempo de processamento pode ser esperada em aplicações reais. Na continuidade do trabalho, deverá ser implementado e testado o algoritmo completo como parte de uma aplicação de redes ConvNets Abstract: This research work presents a study of the architecture applied to image processing, using programmable hardware devices, in this case FPGA, to an efficient implementation of the time domain discrete convolution algorithm, which enables its integration into multiple layers networks, known as ConvNets, aiming applications of computational vision. For some algorithms, the software implementation can imply high computational costs, which may not satisfy specific real time restrictions, which turns FPGA adoption an attractive solution. Image processing application of 2D convolution is one of these algorithms. Hardware implementation using FPGA can adopt algorithm concurrency, habilitating convolution nets to be adopted in embedded systems for computer vision applications. In this research work, two different solutions were studied. In the first solution, a soft core NIOS II® processor was implemented in a FPGA, and the convolution algorithm programmed. In the second solution, a complete hardware implemented algorithm was developed, exempting the need for a regular processor. Results show that an expressive processing time reduction may be expected in real applications. In the continuity of the research work, a complete ConvNet will be implemented and the convolution algorithm application tested in a more realistic condition Mestrado Mecanica dos Sólidos e Projeto Mecanico Mestre em Engenharia Mecânica

APA, Harvard, Vancouver, ISO, and other styles

44

Hauagge, Daniel Cabrini. "Aplicação de algoritmos de visão computacional a inspeção industrial de maçãs." [s.n.], 2008. http://repositorio.unicamp.br/jspui/handle/REPOSIP/276162.

Full text

Abstract:

Orientador: Siome Klein Goldenstein Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-13T11:06:36Z (GMT). No. of bitstreams: 1 Hauagge_DanielCabrini_M.pdf: 29273846 bytes, checksum: d697300202f6081a1441b4748b9a711c (MD5) Previous issue date: 2008 Resumo: Apresentamos nesta dissertação quatro algoritmos voltados para a classicação automatizada de frutas. A subtração de fundo baseada na distância de Mahalanobis. O rastreamento das frutas em uma esteira usando a subtração de fundo, casamento de padrões e fluxo óptico. A reconstrução tridimensional da fruta a partir de imagens dela na esteira, onde recuperamos a posição da câmera com relação a fruta usando fluxo óptico e uma estimativa grosseira do movimento da fruta. A forma da fruta é obtida a partir das silhuetas reprojetadas no espaço tridimensional usando duas abordagens diferentes. Finalmente, a localização do pedúnculo e cálice a partir do eixo de simetria da reconstrução tridimensional. Realizamos testes com os quatro algoritmos. Obtivemos bons resultados com os dois primeiros. Para a reconstrução tridimensional verificamos bons resultados para algumas etapas do processo (fluxo óptico, estimativa inicial e otimização não-linear do movimento de câmera). Resultados fracos foram obtidos para a reprojeção das silhuetas usando os dois métodos. Analisamos as causas dos erros e propomos métodos que poderiam ser usados para melhorá-los. Os resultados da localização do pedúnculo e cálice foram insatisfatórios mas acreditamos que melhorariam se obtivéssemos uma reconstrução mais precisa. Também criamos um sistema de captura que reproduz as condições dentro de um sistema comercial de classificação. Com este aparato construímos quatro grandes bases de dados com aproximadamente 3000 frutas, 35 imagens de cada uma, contendo quatro variedades de maçã. Outras 6 bases menores foram criadas. Abstract: We present in this dissertation four algorithms targeted at the automated classification of fruits. Background subtraction based on Mahalanobis distance. Fruit tracking on a conveyor belt using background subtraction, pattern matching and optical flow. The 3D reconstruction of the fruit from its images on the conveyor belt, where we recover the camera position, with respect to the fruit, using optical flow and a rough estimate of fruit motion. The fruit's shape is recovered from the silhouette re-projected into 3D space using two different approaches. Finally, the location of the stem and calyx based on the symmetry axis of the 3D reconstruction. We also present the results of tests conducted with the four algorithms. We obtained good results with the first two. For the three-dimensional reconstruction we obtained good results with some of the intermediary steps (optical flow, initial estimate and nonlinear re_nement of camera motion). Poor results were obtained for the re-projection of the silhouette's, using two approaches. We analyze the causes of these difficulties and suggest approaches that could improve them. The localization of stem and calyx was compromised by the poor 3D reconstruction so we believe that it will improve once we address the problems with the reconstruction algorithm. We created an image capturing system that reproduces the conditions inside a commercial grading machine. With this device we acquired four big data sets with approximately 3000 apples, 35 images of each, comprising four varieties. Another 6 smaller data-sets were also created. Mestrado Visão Computacional Mestre em Ciência da Computação

APA, Harvard, Vancouver, ISO, and other styles

45

Mingoto, Junior Carlos Roberto. "Método de medição de alinhamento de suspensão veicular não intrusivo baseado em visão computacional." [s.n.], 2012. http://repositorio.unicamp.br/jspui/handle/REPOSIP/264577.

Full text

Abstract:

Orientador: Paulo Roberto Gardel Kurka Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Mecânica Made available in DSpace on 2018-08-21T02:23:47Z (GMT). No. of bitstreams: 1 MingotoJunior_CarlosRoberto_D.pdf: 4676498 bytes, checksum: f396cb633ba04f6ff1589cea747bb133 (MD5) Previous issue date: 2012 Resumo: O presente projeto de pesquisa aplica técnicas de visão estereoscópica computacional no desenvolvimento da configuração de um equipamento de medição de ângulos de alinhamento de suspensão veicular, usando câmeras de vídeo de baixo custo. Atualmente, a maioria dos dispositivos de medição de ângulos de alinhamento de suspensão de veículos baseia-se no uso de componentes eletromecânicos, como pêndulos resistivos, inclinômetros capacitivos, dispositivos opto-mecânicos (espelhos e raio de luz monocromática de baixa intensidade). Com a sequência aqui estabelecida dos fundamentos algébricos e técnicas de visão computacional, realizam-se estudos de viabilidade científica e proposta de construção de um equipamento de verificação de ângulos de alinhamento veicular. São apresentados testes virtuais e reais, ilustrativos da potencialidade operacional do equipamento Abstract: This research project uses stereoscopic computer vision techniques to develop a system to measure alignment angles of vehicular suspensions, using low cost cameras. Currently, most of the devices intended to measure vehicular suspension angles are based on the use of electromechanical components, such as resistive pendulums, capacitive inclinometers or opticmechanical devices (mirrors and projection of beams of monochromatic light of low intensity). Fundaments of linear algebra and computer vision techniques, lead to studies of feasibility and practical implementation of a system used to measure vehicular suspension alignment angles. Virtual and real measurements are carried out to illustrate the operative potential of such a system Doutorado Mecanica dos Sólidos e Projeto Mecanico Doutor em Engenharia Mecânica

APA, Harvard, Vancouver, ISO, and other styles

46

José, Marcelo Archanjo. "Reconstrução tridimensional de baixo custo a partir de par de imagens estéreo." Universidade de São Paulo, 2008. http://www.teses.usp.br/teses/disponiveis/3/3142/tde-13082008-133946/.

Full text

Abstract:

A obtenção e a reconstrução da geometria tridimensional (3D) de objetos e ambientes têm importância crescente em áreas como visão computacional e computação gráfica. As formas atuais de obtenção e reconstrução 3D necessitam de equipamentos e montagens sofisticadas que, por conseqüência, têm custos elevados e aplicação limitada. Este trabalho apresenta criticamente os principais algoritmos para a reconstrução 3D a partir de par de imagens estéreo e identifica os mais viáveis para utilização com equipamentos convencionais. Por meio da implementação de alguns destes algoritmos, da comparação dos resultados obtidos em sua execução e também pela comparação com os resultados encontrados na literatura, são identificadas as principais deficiências. São propostas adequações aos algoritmos existentes, em particular, é apresentada a proposta da técnica das faixas que proporciona a redução drástica no consumo de memória para o processamento da geometria 3D e que possui desempenho computacional melhor em relação às técnicas tradicionais. Foi implementado um protótipo de sistema de reconstrução 3D que permite a reconstrução pelas diferentes técnicas estudadas e propostas, bem como permite visualizar o cenário reconstruído sob diferentes pontos de vista de forma interativa. The acquisition and reconstruction of three-dimensional (3D) geometry of objects and environments have their importance growing in areas such as Computer Vision and Computer Graphics. The current methods to acquire and reconstruct three-dimensional data need sophisticated equipments and assemblies, which have expensive costs and limited applications. This work presents the main algorithms for 3D reconstruction using a pair of stereo images and identifies which are viable to use with conventional equipments. Through the implementation of some of these algorithms, by comparing the results obtained and comparing with the results presented in the literature, the main limitations were identified. This work proposes adjustments in the existing algorithms, in particular it proposes the stripping technique, which provides a huge memory usage reduction for 3D geometry processing and better computing performance if compared with traditional approaches. A prototype system for 3D reconstruction was implemented, which allows the reconstruction using the different researched and proposed techniques and allows interactive visualization of the reconstructed scene in different angles.

APA, Harvard, Vancouver, ISO, and other styles

47

Dias, René Octavio Queiroz. "A computer vision system for recognizing plant species in the wild using convolutional neural networks." reponame:Repositório Institucional da UnB, 2017. http://repositorio.unb.br/handle/10482/24650.

Full text

Abstract:

Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Mecânica, 2017. Submitted by Albânia Cézar de Melo (albania@bce.unb.br) on 2017-08-24T13:58:08Z No. of bitstreams: 1 2017_RenéOctavioQueirozDias.pdf: 17746801 bytes, checksum: 9dc00a9435aa0263edd4056fbbad2612 (MD5) Approved for entry into archive by Raquel Viana (raquelviana@bce.unb.br) on 2017-09-26T16:44:32Z (GMT) No. of bitstreams: 1 2017_RenéOctavioQueirozDias.pdf: 17746801 bytes, checksum: 9dc00a9435aa0263edd4056fbbad2612 (MD5) Made available in DSpace on 2017-09-26T16:44:32Z (GMT). No. of bitstreams: 1 2017_RenéOctavioQueirozDias.pdf: 17746801 bytes, checksum: 9dc00a9435aa0263edd4056fbbad2612 (MD5) Previous issue date: 2017-09-26 Classificação de plantas tem sido um problema recorrente na comunidade de Visão Computacional. Visualmente, as plantas apresentam uma variabilidade muito grande, decorrente principalmente de efeitos sazonais, idade e fundos. Sistemas de classificação mais antigos tinham problemas para lidar com estas variações e seus bancos de dados usavam imagens mais simples com apenas partes desmembradas de plantas (como folhas e flores) e fundo branco. Com o advento das Redes Neurais Profundas, que demostraram ser bastante competitivas como classificadores de propósito geral, o objetivo é testá-las com um banco de dados de propósito mais específico, que podem tencionar mais estes classificadores tentando classificar espécies de plantas similares em poses bastante diferentes. Construiu-se um banco de dados que é focado em como o usuário comum tira retratos de plantas. Este novo banco de dados, chamado Plantas, foi feito para ter poucas restrições. Inicialmente, há 50 espécies diferentes que são usados comumente em jardinagem, e há mais de 33.000 imagens. Estas fotos foram tiradas in loco e da Internet. Depois, treinou-se com técnicas recentes do estado da arte, como os Métodos de Codificação e Redes Neurais Profundas. Nos Métodos de Codificação, são usados três codificadores: Saco de Palavras Visuais (BoVW), Vetores Fisher (FV) e Vetores de Descritores Linearmente Agregados (VLAD). Nos Métodos de Codificação, há duas fases: uma aprendizagem sem-supervisão e em seguida uma supervisionada. Em todos os métodos, o processo é parecido. Na fase sem-supervisão, obtêm-se os descritores SIFT, retira-se uma amostra destes descritores, faz uma aprendizagem da projeção da Análise de Componentes Principais e usa-se k-médias para agregar estas características em k grupos, que são o número de palavras. Aqui se separa o treinamento de BoVW e VLAD dos Vetores Fisher. Para os primeiros, cria-se uma árvore k-d para facilitar o posterior processo de pesquisa. Para os Vetores Fisher, usa-se os grupos como inicialização dos Modelos de Mistura de Distribuições Normais. Na fase de aprendizagem supervisionada, passa-se uma imagem pelos processos de obtenção dos descritores SIFT, amostragem e PCA. Então, para cada característica de uma imagem, pesquisase o grupo a qual pertencente. Para BoVW, obtém-se um histograma que conta cada palavra da imagem que tem o equivalente no dicionário. Para VLAD, obtém-se o desvio à média destas palavras, e com Vetores Fisher, além do desvio à média, calcula-se o desvio à covariância. Estes, representam os descritores finais que são posteriormente treinados com uma Máquina de Vetores de Suporte Linear (Linear-SVM). Nas redes neurais, são treinadas diferentes arquiteturas recentes como AlexNet, CaffeNet, GoogLeNet e ResNet. Elas contêm técnicas que exploram a estrutura espacial das imagens, como as camadas de convoluções, e usam técnicas de regularização que evitam sobreajuste—que era algo especialmente comum em redes com muitos parâmetros—como Dropout e Normalização em Lotes. Também foi a primeira vez em que se usou uma função de ativação que não sofre problemas de saturação, a Unidade Linear Retificada (ReLU) que tomou o lugar de Sigmóides e Tangentes Hiperbólicas. Usando estas arquiteturas, faz-se experimentos para saber como elas respondem ao novo banco de dados, e quais são as melhores especificações para obter-se a melhor acurácia e quais as razões que uma escolha é melhor que a outra. Nestes experimentos, funções de ativações mais recentes como a Unidade Linear Retificada Parametrizada (PReLU) e a Unidade Linear Exponencial (ELU) foram testadas. Também, usa-se técnicas de ajuste fino em que se reutiliza parâmetros de uma rede treinada para um certo banco de dados em outro, também conhecido como transferência de conhecimento. Classifying plant species has been a recurrent topic in the Computer Vision community. Visually, plants present a high level of variability, mostly because of seasonal effects, age and background. Early classification systems had difficulties to deal with this variability and early databases relied on simple images, using dismembered parts of the plants, such as leaves and flowers, and a distinctive background (usually white). With the advent of Deep Neural Networks, which proved to be very competitive as a generalpurpose classifier, we aim to assess them with a more specific-purpose database, which can be further strained by trying to classify similar plant species in some very different poses. We created a new database that focus on how the common user takes plant pictures. This database, named Plantas, is meant to be highly unconstrained. Initially, it contains 50 common different species and cultivars used in gardening worldwide, and more than 33,000 images. These images were taken on site and download from the Internet. Then, we train this database with the latest state of the art techniques, such as Encoding Methods and Deep Neural Networks. We further explore neural networks by testing some recent activation functions and also fine-tuning.

APA, Harvard, Vancouver, ISO, and other styles

48

Medina, Betânia Vargas Oliveira. "Sistema de visão computacional aplicado a um robô cilíndrico acionado pneumaticamente." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2015. http://hdl.handle.net/10183/118877.

Full text

Abstract:

O reconhecimento da posição e orientação de objetos em uma imagem é importante para diversos segmentos da engenharia, como robótica, automação industrial e processos de fabricação, permitindo às linhas de produção que utilizam sistemas de visão, melhorias na qualidade e redução do tempo de produção. O presente trabalho consiste na elaboração de um sistema de visão computacional para um robô cilíndrico de cinco graus de liberdade acionado pneumaticamente. Como resultado da aplicação do método desenvolvido, obtêm-se a posição e orientação de peças a fim de que as mesmas possam ser capturadas corretamente pelo robô. Para a obtenção da posição e orientação das peças, utilizou-se o método de cálculo dos momentos para extração de características de uma imagem, além da relação entre suas coordenadas em pixels com o sistema de coordenadas do robô. O desenvolvimento do presente trabalho visou também a integrar a esse sistema de visão computacional, um algoritmo de planejamento de trajetórias do robô, o qual, após receber os valores das coordenadas necessárias, gera a trajetória a ser seguida pelo robô, de forma que este possa pegar a peça em uma determinada posição e deslocá-la até outra posição pré-determinada. Também faz parte do escopo deste trabalho, a integração do sistema de visão, incluindo o planejamento de trajetórias, a um algoritmo de controle dos atuadores com compensação de atrito e a realização de testes experimentais com manipulação de peças. Para a demonstração da aplicação do método através de testes experimentais, foi montada uma estrutura para suportar as câmeras e as peças a serem manipuladas, levando em conta o espaço de trabalho do robô. Os resultados obtidos mostram que o algoritmo proposto de visão computacional determina a posição e orientação das peças permitindo ao robô a captação e manipulação das mesmas. The recognition of the position and orientation of objects in an image is important for several technological areas in engineering, such as robotics, industrial automation and manufacturing processes, allowing production lines using vision systems, improvements in quality and reduction in production time. The present work consists of the development of a computer vision system for a pneumatically actuated cylindrical robot with five degrees of freedom. The application of the proposed method furnishes the position and orientation of pieces in a way that the robot could properly capture them. Position and orientation of the pieces are determined by means of a technique based on the method of calculating the moments for an image feature extraction and the relationship between their pixels coordinates with the robot coordinate system. The scope of the present work also comprises the integration of the computer vision system with a (previously developed) robot trajectory planning algorithm that use key-point coordinates (transmitted by the vision system) to generate the trajectory that must be followed by the robot, so that, departing from a given position, it moves suitably to another predetermined position. It is also object of this work, the integration of both vision system and trajectory planning algorithm with a (also previously developed) nonlinear control algorithm with friction compensation. Aiming at to demonstrate experimentally the application of the method, a special apparatus was mounted to support cameras and the pieces to be manipulated, taking into account the robot workspace. To validate the proposed algorithm, a case study was performed, with the results showing that the proposed computer vision algorithm determines the position and orientation of the pieces allowing the robot to capture and manipulation thereof.

APA, Harvard, Vancouver, ISO, and other styles

49

Pereira, Leandro Martins. "Avaliação da qualidade da carne bovina através de visão computacional." reponame:Repositório Institucional da UFABC, 2017.

Find full text

Abstract:

Orientador: Prof. Dr. Ricardo Gaspar Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia e Gestão da Inovação, 2017. No Brasil, verifica-se uma demanda crescente por carnes e produtos cárneos onde somente no segundo trimestre de 2016 foram abatidos mais de 7,5 milhões de cabeças de gado, as carnes e os produtos cárneos são considerados muito perecíveis e tem a proliferação microbiana como principal fator limitante ao seu tempo de prateleira. Neste contexto aplicações tecnológicas como sistemas baseados em visão computacional vêm ganhando crescente adesão. Tais sistemas se baseiam no processamento de imagens por computadores para a avaliação de aspectos da qualidade de alimentos. O presente trabalho teve como objetivo estabelecer correlação entre a coloração da carne bovina fresca (Longissimus dorsi) e sua carga microbiológica e propor um sistema de avaliação de qualidade da carne bovina fresca baseado em visão computacional. Para que isso fosse possível foram realizadas avaliações instrumentais da coloração da carne bovina fresca e contagens de micro-organismos mesófilos e psicrotróficos ao longo de seu tempo de prateleira. Como resultado encontrou-se uma correlação negativa de intensidade média entre a variação da intensidade do componente vermelho do espectro de cor da carne e a sua contagem de micro-organismos psicotróficos. In Brazil, there is a growing demand for meats and meat products, in the second quarter of 2016 more than 7.5 million head of cattle were slaughtered, meat and products are very perishable and have a microbial proliferation as main a limiting factor to their shelf life. In this context technological applications such as systems based on computer vision has been gaining adhesion, such systems are based on the processing of images by computers for a food quality assessment. The objective of this study was to establish a correlation between the fresh beef colour (Longissimus dorsi) and its microbiological load and to propose a quality assessment system for fresh beef based on computer vision. For this to be possible instrumental evaluations of the fresh meat, colour and microbiological counts of mesophilic and psychrotrophic microorganisms were performed throughout the meat shelf life. As a result, a negative correlation of mean intensity between the intensity variation of the red component of the color spectrum of the meat and its count of psychotrophic microorganisms was found.

APA, Harvard, Vancouver, ISO, and other styles

50

Oliveira, Leandro Luiz Rezende de. "Controle de trajetória baseado em visão computacional utilizando o Framework ROS." Universidade Federal de Juiz de Fora (UFJF), 2013. https://repositorio.ufjf.br/jspui/handle/ufjf/4184.

Full text

Abstract:

Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-04-26T12:41:45Z No. of bitstreams: 1 leandroluizrezendedeoliveira.pdf: 11529978 bytes, checksum: 0d088d792c8861423c02cd09cfcdc538 (MD5) Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-04-26T13:54:24Z (GMT) No. of bitstreams: 1 leandroluizrezendedeoliveira.pdf: 11529978 bytes, checksum: 0d088d792c8861423c02cd09cfcdc538 (MD5) Made available in DSpace on 2017-04-26T13:54:24Z (GMT). No. of bitstreams: 1 leandroluizrezendedeoliveira.pdf: 11529978 bytes, checksum: 0d088d792c8861423c02cd09cfcdc538 (MD5) Previous issue date: 2013-11-11 O objetivo do presente trabalho é apresentar o desenvolvimento de um controle de trajetória para robôs móveis baseado em visão computacional, implementado no Framework ROS (Robotic Operating System). O ambiente do futebol de robôs foi utilizado como plataforma de teste da metodologia proposta. Para executar essa tarefa foi desenvolvido um algoritmo para o sistema de visão robótica, capaz de executar a calibração do sistema de captura de imagens e a identiﬁcação dos robôs no campo de acordo com a forma e a cor das etiquetas de identiﬁcação através da biblioteca OpenCV, a qual é integrada na estrutura fornecida pelo ROS. Os algoritmos elaborados de visão computacional, controle de alto nível e controle de baixo nível foram estruturados conforme as diretrizes do ROS, sendo assim denominados de nós. Os algoritmos de alto nível responsáveis pelo controle de trajetória, tratamento de imagem e controle são executados em um computador desktop ou notebook, ao passo que o algoritmo de baixo nível para controle é executado em uma plataforma Arduino embarcada no robô. O computador ou notebook e a plataforma Arduino embarcadas nos robôs trocam informações entre si de forma distribuída utilizando tópicos que interligam os nós e transmitem mensagens utilizando o padrão Publisher/Subscriber. Ainda é abordado o desenvolvimento do robô diferencial proposto, com seus dispositivos de controle, comunicação e tração. The goal of this work is to present the development of a path control for mobile robots based on computer vision, implemented in ROS (Robotic Operating System) Framework. The robot soccer environment was used as test platform for the proposed methodology. To accomplish this task was developed an algorithm to the robotic vision system, able to perform the calibration of image capture system and the identiﬁcation of robots in the ﬁeld according to the shape and color identiﬁcation labels through the OpenCV library, which is integrated into the structure provided by ROS. The algorithms developed for computer vision, high-level control and low-level control were structured according to the guidelines of the ROS, therefore called nodes. The algorithms responsible for the high-level path control, image processing and control are performed on a desktop computer or notebook, while the algorithm for low-level control is running on a platforms Arduino embedded in the robots. The computer or notebook and embedded platform Arduino exchange informations among themselves in a distributed manner using topics, interconnecting nodes and transmit messages using the Publisher/Subscriber default. Also is addresses the development of a differential robot proposed, with their control devices, communications and traction.

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Visión computacional'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles