Siga este enlace para ver otros tipos de publicaciones sobre el tema: Reconocimiento visual de palabras.

Tesis sobre el tema "Reconocimiento visual de palabras"

Crea una cita precisa en los estilos APA, MLA, Chicago, Harvard y otros

Elija tipo de fuente:

Consulte los 32 mejores tesis para su investigación sobre el tema "Reconocimiento visual de palabras".

Junto a cada fuente en la lista de referencias hay un botón "Agregar a la bibliografía". Pulsa este botón, y generaremos automáticamente la referencia bibliográfica para la obra elegida en el estilo de cita que necesites: APA, MLA, Harvard, Vancouver, Chicago, etc.

También puede descargar el texto completo de la publicación académica en formato pdf y leer en línea su resumen siempre que esté disponible en los metadatos.

Explore tesis sobre una amplia variedad de disciplinas y organice su bibliografía correctamente.

1

Orihuela, Kuri Karla Beatriz. "Visual word recognition of morphological complex words and multilingualism". Thesis, Toulouse 2, 2019. http://www.theses.fr/2019TOU20034.

Texto completo
Resumen
Cette thèse de doctorat s'attache à décrire les processus impliqués en lecture dans une perspective psycholinguistique. Elle s'intéresse spécifiquement au rôle de la morphologie dans les premières phases de la reconnaissance visuelle des mots. Un des objectifs est de mieux comprendre les différences et les similitudes entre les représentations mentales monolingues et multilingues. Pour cela, plusieurs études expérimentales ont été conçues. L'effet de “pseudo-morphologie” a été testé dans les premières sections (examinant l'affixation et la directionnalité) pour explorer de quelle manière la structure du mot et la saillance (par exemple, les caractéristiques internes et la fréquence) jouent un rôle dans l'accès lexical. Les sections suivantes sont dédiées aux effets des tests multilingues en langue maternelle et en langue seconde et à l'effet de facilitation à travers les langues (anglais, français et espagnol). Les résultats s'inscrivent dans la lignée du modèle supra-lexical (Giraudo & Dal Maso, 2018)
This PhD thesis describes the processes involved during reading from a psycho-linguistic perspective, in particular, the role of morphology in the early stages of visual word recognition. It also seeks to better understand the differences and similarities between Monolingual and Multilingual mental lexical representation. To this end a series of experimental studies were designed. The so called ”pseudo-morphology” effect was tested in the first sections (exploring affixation and directionality), with the aim to explore how the structure of the word and saliency (for example, internal characteristics and frequency) play a role in lexical access. The section dedicated to multilingualism tests effect in first and second language and the cognate facilitation effect across languages (English, Spanish and French). The results obtained go in line with the recent supra-lexical model (Giraudo & Dal Maso, 2018) which postulates that construction morphology (Booij, 2010) is the main principle of organization of the mental lexicon
La presente tesis doctoral describe los procesos involucrados durante la lectura desde una perspectiva psico-lingüística, en particular, el papel de la morfología en las primeras etapas del reconocimiento visual de palabras. También busca comprender mejor las diferencias y similitudes entre la representación léxica mental monolingüe y multilingüe. Para ello se diseñaron una serie de estudios experimentales. El supuesto efecto "pseudo-morfológico" se pexploró de forma experimental, con el objetivo de comprender cómo la estructura de la palabra y la sus características (por ejemplo, frecuencia) desempeñan un papel en el acceso léxico. Incluye de igual manera una sección dedicada a experimentos con participantes multilingües en la cual se explora el afecta el efecto de facilitación de reconocimiento de cognados (en inglés, español y francés). Los resultados obtenidos concuerdan con el reciente modelo supra-léxico (Giraudo & Dal Maso, 2018)
Los estilos APA, Harvard, Vancouver, ISO, etc.
2

González, Galleguillos Diego Mauricio. "Estrategias de reconocimiento visual en la percepción del movimiento biológico : exploración visual libre o fijación visual forzada". Tesis, Universidad de Chile, 2018. http://repositorio.uchile.cl/handle/2250/151367.

Texto completo
Resumen
Grado de magíster en neurociencias
Uno de los movimientos complejos con importancia evolutiva en humanos es el movimiento biológico, definido como un conjunto de puntos de alto contraste que siguen un patrón coherente de movimiento y que involucra un nivel de procesamiento complejo que integra la velocidad, la forma de los objetos en movimiento, interpretando acciones, estímulos sociales y emociones. Se proponen tres hipótesis para entender qué estrategias visuales permiten la percepción del movimiento biológico. Por una parte, a través de un seguimiento ocular continuo que explora el movimiento biológico (“por partes”), por otra, a través de un foco de atención local discontinuo que extrapola la percepción del movimiento biológico sin explorarlo (“un todo”) y una última que integra ambas hipótesis. Estas hipótesis plantean vías de procesamiento en dos fases: la primera de movimientos locales que se integran en regiones corticales sensoriales de fragmentos del cuerpo. Y la segunda, de fragmentos que generan representaciones completas en la corteza multimodal. Existe actualmente una discusión abierta acerca de cuál de estas estrategias es prioritaria para la percepción del movimiento biológico. Para ello se determinó qué estrategias de reconocimiento visual son usadas preferentemente para la percepción del MB observando si existen diferencias en el desempeño conductual de la percepción visual del MB, durante la exploración libre comparada con la fijación forzada de un objetivo mediante el uso de un sistema de seguimiento ocular (“eye tracker”). Según hallazgos de este estudio se puede afirmar que en la muestra evaluada para un mejor desempeño de la percepción del movimiento biológico es necesario el uso de estrategias de exploración visual libre, y esta conducta ocular obedece a lugares estratégicos del movimiento biológico según la valencia de este. Estudios futuros de este paradigma podrían incluir registro de actividad de señales corticales como el uso de EEG, tanto en sujetos sanos como en personas con patologías que afecten la percepción de esta tarea, como en pacientes con esquizofrenia.
One of the complex movements with evolutionary importance in humans is the biological movement, defined as a set of high-contrast points that follow a coherent pattern of motion and involve a complex processing level that integrates speed the form of moving objects, interpreting actions, social stimuli and emotions. Three hypotheses are proposed to understand visual strategies allow the perception of biological movement. On the one hand, through follow-up continuous ocular that explores the biological movement ("by parts"). On the other, to through a discontinuous local focus of attention that extrapolates the perception of biological movement without exploring it ("a whole"). And a last one that integrates both hypothesis these hypotheses are ways of processing in two phases: The first of local movements which are integrated into sensory cortical regions of fragments of the body. The second of fragments generate by complete representations in multimodal crust. There is currently an open discussion about which of these strategies is a priority for the perception of biological movement. For this, it was determined which visual recognition strategies are used preferentially for MB perception by observing if there are differences in behavioral performance of MB visual perception. During the scan-free compared with forced fixation of a target by using an ocular tracking system (eye tracker). According to findings of this study it can be said that use sample evaluated for a better performance of the perception of biological movement It is necessary to use free visual scanning strategies, and this ocular behavior is due to strategic location of biological movement according to the valence of this. Future studies of this paradigm could include recording activity of cortical signals such as the use of EEG, Both in healthy subject as in people with pathologies that affect the perception of this task as in patients with schizophrenia.
Los estilos APA, Harvard, Vancouver, ISO, etc.
3

Simón, Bendezú Giovani Said. "Filtro adaptivo LMS y su aplicación en el reconocimiento de palabras aisladas para el control de un equipo de sonido por medio de la voz". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2004. http://tesis.pucp.edu.pe/repositorio/handle/123456789/280.

Texto completo
Resumen
Esta investigación intenta mejorar el porcentaje de aciertos de un sistema de reconocimiento ante la presencia de ruido, y por tal motivo se va a intentar controlar un equipo de sonido marca Panasonic y modelo SC-AK45 con control remoto modelo EUR644853, del cual se tomarán algunas de las funciones para el control mediante la voz.
Tesis
Los estilos APA, Harvard, Vancouver, ISO, etc.
4

Padilla, López José Ramón. "Protección de la Privacidad Visual basada en el Reconocimiento del Contexto". Doctoral thesis, Universidad de Alicante, 2015. http://hdl.handle.net/10045/52056.

Texto completo
Resumen
En la actualidad, la cámara de vídeo se ha convertido en un dispositivo omnipresente. Debido a su miniaturización, estas se pueden encontrar integradas en multitud de dispositivos de uso diario, desde teléfonos móviles o tabletas, hasta ordenadores portátiles. Aunque estos dispositivos son empleados por millones de personas diariamente de forma inofensiva, capturando vídeo, realizando fotografías que luego son compartidas, etc.; el empleo de videocámaras para tareas de videovigilancia levanta cierta preocupación entre la población, sobre todo cuando estas forman parte de sistemas inteligentes de monitorización. Esto supone una amenaza para la privacidad debido a que las grabaciones realizadas por estos sistemas contienen una gran cantidad de información que puede ser extraída de forma automática mediante técnicas de visión artificial. Sin embargo, la aplicación de esta tecnología en diversas áreas puede suponer un impacto muy positivo para las personas. Por otro lado, la población mundial está envejeciendo rápidamente. Este cambio demográfico provocará que un mayor número de personas en situación de dependencia, o que requieren apoyo en su vida diaria, vivan solas. Por lo que se hace necesario encontrar una solución que permita extender su autonomía. La vida asistida por el entorno (AAL por sus siglas en inglés) ofrece una solución aportando inteligencia al entorno donde residen la personas de modo que este les asista en sus actividades diarias. Estos entornos requieren la instalación de sensores para la captura de datos. La utilización de videocámaras, con la riqueza en los datos que ofrecen, en entornos privados haría posible la creación de servicios AAL orientados hacia el cuidado de las personas como, por ejemplo, la detección de accidentes en el hogar, detección temprana de problemas cognitivos y muchos otros. Sin embargo, dada la sencilla interpretación de imágenes por las personas, esto plantea problemas éticos que afectan a la privacidad. En este trabajo se propone una solución para poder hacer uso de videocámaras en entornos privados con el objetivo de dar soporte a las personas y habilitar así el desarrollo de servicios de la vida asistida por el entorno en un hogar inteligente. En concreto, se propone la protección de la privacidad en aquellos servicios AAL de monitorización que requieren acceso al vídeo por parte de un cuidador, ya sea profesional o informal. Esto sucede, por ejemplo, cuando se detecta un accidente en un sistema de monitorización y ese evento requiere la confirmación visual de lo ocurrido. Igualmente, en servicios AAL de telerehabilitación puede ser requerida la supervisión por parte de un humano. En este tipo de escenarios es fundamental proteger la privacidad en el momento en que se esté accediendo u observando el vídeo. Como parte de este trabajo se ha llevado a cabo el estudio del estado de la cuestión en la cual se han revisado los métodos de protección de la privacidad visual presentes en la literatura. Esta revisión es la primera en realizar un análisis exhaustivo de este tema centrándose, principalmente, en los métodos de protección. Como resultado, se ha desarrollado un esquema de protección de la privacidad visual basado en el reconocimiento del contexto que permite adecuar el nivel de privacidad durante la observación cuando las preferencias del usuario coinciden con el contexto. La detección del contexto es necesaria para poder detectar en la escena las circunstancias en que el usuario demanda determinado nivel de privacidad. Mediante la utilización de este esquema, cada uno de los fotogramas que componen un flujo de vídeo en directo es modificado antes de su transmisión teniendo en cuenta los requisitos de privacidad del usuario. El esquema propuesto hace uso de diversas técnicas de modificación de imágenes para proteger la privacidad, así como de visión artificial para reconocer dicho contexto. Por tanto, en esta tesis doctoral se realizan diversas contribuciones en distintas áreas con el objetivo de llevar a cabo el desarrollo del esquema propuesto de protección de la privacidad visual. De este modo, se espera que los resultados obtenidos nos sitúen un paso más cerca de la utilización de videocámaras en entornos privados, incrementando su aceptación y haciendo posible la implantación de servicios AAL basados en visión artificial que permitan aumentar la autonomía de las personas en situación de dependencia.
Los estilos APA, Harvard, Vancouver, ISO, etc.
5

Redolfi, Javier A. "Aplicación en agricultura de precisión de esquemas actuales de reconocimiento visual". Doctoral thesis, Universidad Nacional de Córdoba Facultad de Ciencias Exactas, Físicas y Naturales, 2018. http://hdl.handle.net/11086/6564.

Texto completo
Resumen
Tesis (DCI)--FCEFN-UNC, 2018
En esta tesis se aplican modelos de clasificación de imágenes como son vectores de Fisher y redes neuronales convolucionales a problemas de agricultura de precisión, como la clasificación de especies de plantas, variedades de semillas y uso de suelo a través de imágenes PolSAR. Con la inclusión de tales modelos se logra otorgar un mayor nivel de robustez y escalabilidad a los sistemas lo cual se traduce en un aumento en la exactitud de la solución de estos problemas.
Los estilos APA, Harvard, Vancouver, ISO, etc.
6

Guerrero, Ocaña Celly Elpidia y Leon Yany Victoria Neyra. "Dificultades específicas en el aprendizaje de la lectura a nivel de reconocimiento de palabras. Estudio de caso de un niño de 9 años". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2018. http://hdl.handle.net/20.500.12404/14351.

Texto completo
Resumen
Las dificultades de aprendizaje tienen su origen en el proceso evolutivo temprano del individuo y se evidencian de manera frecuente durante la etapa escolar afectando de forma directa a los niños o jóvenes que las presentan y, de una manera indirecta, a su entorno familiar y escolar. El presente estudio de caso tiene como objetivo diseñar un plan de evaluación e intervención de los procesos involucrados en las áreas del aprendizaje relacionadas con los aspectos deficitarios que presenta un niño de 9 años con dificultades específicas en el aprendizaje de la lectura a nivel de reconocimiento de la palabra, a fin de que pueda tener un desempeño académico concordante con su edad y grado de escolaridad. El diseño del trabajo se realiza teniendo como base el marco teórico que da sustento a cada uno de los aspectos analizados de acuerdo con la problemática presentada, el establecimiento del plan de evaluación y el proceso de intervención. Finalmente, los resultados obtenidos muestran un incremento en la fluidez en la lectura de sílabas de diferente estructura, palabras de uso frecuente e infrecuente y pseudopalabras de diferente longitud y estructura silábica, incremento en la velocidad y evocación de elementos de las categorías establecidas, así como una mejora sustancial en la evocación de estímulos previamente escuchados. Se puede concluir que con el plan de intervención aplicado, el niño ha logrado avances significativos en los procesos léxicos de la lectura, léxicos semánticos del lenguaje y en los procesos cognitivos básicos, específicamente en la memoria auditiva.
Tesis de segunda especialidad
Los estilos APA, Harvard, Vancouver, ISO, etc.
7

Soto, Barra Claudia Naiomi. "Reconocimiento rápido de objetos usando objects proposals y deep learning". Tesis, Universidad de Chile, 2017. http://repositorio.uchile.cl/handle/2250/150337.

Texto completo
Resumen
Ingeniera Civil Eléctrica
El reconocimiento (o detección) de objetos es un área activa y en continua mejora de la visión computacional. Recientemente se han introducido distintas estrategias para mejorar el desempeño y disminuir los costos y el tiempo de detección. Entre estas, se encuentran la generación de Object Proposals (regiones en la imágen donde hay alta probabilidad de encontrar un objeto) para acelerar la etapa de localización, como respuesta al paradigma de ventana deslizante; el cada vez más popular uso de redes Deep Learning y, en particular, para la clasi cación y detección de imágenes, las redes convolucionales (CNN). Si bien existen diversos trabajos que utilizan ambas técnicas, todos ellos se centran en tener una buena performance en conocidas bases de datos y competencias en lugar de estudiar su comportamiento en problemas reales y el efecto que tiene la modi cación de arquitecturas de redes convencionales y la elección adecuada de un sistema de generación de proposals. En este trabajo de título, entonces, se tiene como objetivo principal el caracterizar métodos de generación de proposals para su uso en el reconocimiento de objetos con redes CNN, comparando el desempeño tanto de los proposals generados como del sistema completo en bases de datos fabricadas manualmente. Para estudiar el sistema completo, se comparan dos estructuras conocidas, llamadas R-CNN y Fast R-CNN, que utilizan de distintas formas ambas técnicas (generación de proposals y detección) y donde se considera en el estado del arte mejor Fast R-CNN. Se propone en este trabajo que esta hipótesis no es del todo cierta en el caso de que se trabaje con un número su cientemente bajo de proposals (donde las bases de datos acá construidas se enfocan en precisamente asegurar una cantidad baja de objetos de tamaños similares presentes en cada una: objetos sobre super cies y objetos de una sala de estar) y se acelere el proceso de clasi cación alterando el tamaño de entrada de la red convolucional utilizada. Se eligieron tres métodos de generación de Proposals de la literatura a partir de su desempe ño reportado, y fueron comparados en distintos escenarios sus tiempos de procesamiento, calidad de proposals generados (mediante análisis visual y numérico) en función del número generados de estos. El método llamado BING presenta una ventaja sustancial en términos del tiempo de procesamiento y tiene un desempeño competitivo medido con el recall (fracción de los objetos del ground truth correctamente detectados) para las aplicaciones escogidas. Para implementar R-CNN se entrenan dos redes del tipo SqueezeNet pero con entradas reducidas y seleccionando los 50 mejores proposals generados por BING se encuentra que para una red de entrada 64x64 se alcanza casi el mismo recall (~ 40%) que se obtiene con el Fast R-CNN original y con una mejor precisión, aunque es 5 veces más lento (0.75s versus 0.14s). El sistema R-CNN implementado en este trabajo, entonces, no sólo acelera entre 10 y 20 veces la etapa de generación de proposals en comparación a su implementación original, si no que el efecto de reducir la entrada de la red utilizada logra disminuir el tiempo de detección a uno que es sólo 5 veces más lento que Fast R-CNN cuando antes era hasta 100 veces más lento y con un desempeño equivalente.
Los estilos APA, Harvard, Vancouver, ISO, etc.
8

Mate, Castellà Judit. "El efecto de similitud en la memoria de trabajo visual mediante tareas de reconocimiento". Doctoral thesis, Universitat Autònoma de Barcelona, 2010. http://hdl.handle.net/10803/4779.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
9

Enríquez, Vásquez Raúl Antonio. "Sistema Móvil de Recuperación de Información Visual Utilizando Formas y Colores para el Reconocimiento de Obras Arquitectónicas". Thesis, Universidad de las Américas Puebla, 2013. http://catarina.udlap.mx/u_dl_a/tales/documentos/lst/enriquez_v_ra/.

Texto completo
Resumen
En la actualidad, el gran número de información que se encuentra disponible en el Internet ha hecho que el acceso a la misma se realice de manera sencilla gracias a los motores de búsqueda que existen. Debido a la gran cantidad de imágenes que se encuentran disponibles ha provocado que los algoritmo de recuperación de información que actualmente manejan los motores de búsqueda sean poco eficiente, debido a que solo se requiere que la palabra que conforma la consulta se encuentre en el nombre de la imagen o descripción de la misma, además de que se requiere de accesar a un sitio web para poder realizar las consultas. El presente trabajo tiene como objetivo el desarrollo de una aplicación para dispositivos móviles enfocada al reconocimiento de obras arquitectónicas, en base al análisis de los métodos de recuperación de información visual que tomen en cuenta características de bajo nivel. Para la implementación del sistema se utilizó como dispositivo móvil un iPad, el cual trabaja con el lenguaje de programación XCode y utilizando las librerías de OpenCV para el procesamiento de imágenes. Los resultados obtenidos en la fase de pruebas fueron satisfactorios ya que el sistema tiene la capacidad de hacer la comparación del contorno de las imágenes, así como los colores con los que cuenta dicha imagen y regresar las tres imágenes más similares. A partir del presente trabajo, se pueden realizar aplicaciones enfocadas al turismo, al área mercadológica y en sistemas de localización.
Los estilos APA, Harvard, Vancouver, ISO, etc.
10

Figueroa, Flores Carola. "Visual Saliency for Object Recognition, and Object Recognition for Visual Saliency". Doctoral thesis, Universitat Autònoma de Barcelona, 2021. http://hdl.handle.net/10803/671964.

Texto completo
Resumen
Per als humans, el reconeixement d’objectes és un procés gairebé instantani, precís i extremadament adaptable. A més, tenim la capacitat innata d’aprendre classes d’objectes nous a partir d’uns pocs exemples. El cervell humà redueix la complexitat de les dades entrants filtrant part de la informació i processant només aquelles coses que ens capturen l’atenció. Això, barrejat amb la nostra predisposició biològica per respondre a determinades formes o colors, ens permet reconèixer en un simple cop d’ull les regions més importants o destacades d’una imatge. Aquest mecanisme es pot observar analitzant sobre quines parts de les imatges hi posa l’atenció; on es fixen els ulls quan se’ls mostra una imatge. La forma més precisa de registrar aquest comportament és fer un seguiment dels moviments oculars mentre es mostren imatges. L’estimació computacional de la salubritat té com a objectiu identificar fins a quin punt les regions o els objectes destaquen respecte als seus entorns per als observadors humans. Els mapes Saliency es poden utilitzar en una àmplia gamma d’aplicacions, inclosa la detecció d’objectes, la compressió d’imatges i vídeos i el seguiment visual. La majoria de les investigacions en aquest camp s’han centrat en estimar automàticament els mapes de salubritat donats una imatge d’entrada. En el seu lloc, en aquesta tesi, ens proposem incorporar mapes de salubritat en una canalització de reconeixement d’objectes: volem investigar si els mapes de salubritat poden millorar els resultats del reconeixement d’objectes.En aquesta tesi, identifiquem diversos problemes relacionats amb l’estimació de la salubritat visual. En primer lloc, fins a quin punt es pot aprofitar l’estimació de la salubritat per millorar la formació d’un model de reconeixement d’objectes quan es disposa de dades d’entrenament escasses. Per solucionar aquest problema, dissenyem una xarxa de classificació d’imatges que incorpori informació d’informació salarial com a entrada. Aquesta xarxa processa el mapa de saliència a través d’una branca de xarxa dedicada i utilitza les característiques resultants per modular les característiques visuals estàndard de baix a dalt de l’entrada d’imatge original. Ens referirem a aquesta tècnica com a classificació d’imatges modulades en salinitat (SMIC). En amplis experiments sobre conjunts de dades de referència estàndard per al reconeixement d’objectes de gra fi, demostrem que la nostra arquitectura proposada pot millorar significativament el rendiment, especialment en el conjunt de dades amb dades de formació escasses.A continuació, abordem l’inconvenient principal de la canonada anterior: SMIC requereix un algorisme de saliència explícit que s’ha de formar en un conjunt de dades de saliència. Per solucionar-ho, implementem un mecanisme d’al·lucinació que ens permet incorporar la branca d’estimació de la salubritat en una arquitectura de xarxa neuronal entrenada de punta a punta que només necessita la imatge RGB com a entrada. Un efecte secundari d’aquesta arquitectura és l’estimació de mapes de salubritat. En experiments, demostrem que aquesta arquitectura pot obtenir resultats similars en reconeixement d’objectes com SMIC, però sense el requisit de mapes de salubritat de la veritat del terreny per entrenar el sistema. Finalment, hem avaluat la precisió dels mapes de salubritat que es produeixen com a efecte secundari del reconeixement d’objectes. Amb aquest propòsit, fem servir un conjunt de conjunts de dades de referència per a l’avaluació de la validesa basats en experiments de seguiment dels ulls. Sorprenentment, els mapes de salubritat estimats són molt similars als mapes que es calculen a partir d’experiments de rastreig d’ulls humans. Els nostres resultats mostren que aquests mapes de salubritat poden obtenir resultats competitius en els mapes de salubritat de referència. En un conjunt de dades de saliència sintètica, aquest mètode fins i tot obté l’estat de l’art sense la necessitat d’haver vist mai una imatge de saliència real.
El reconocimiento de objetos para los seres humanos es un proceso instantáneo, preciso y extremadamente adaptable. Además, tenemos la capacidad innata de aprender nuevas categorias de objetos a partir de unos pocos ejemplos. El cerebro humano reduce la complejidad de los datos entrantes filtrando parte de la información y procesando las cosas que captan nuestra atención. Esto, combinado con nuestra predisposición biológica a responder a determinadas formas o colores, nos permite reconocer en una simple mirada las regiones más importantes o destacadas de una imagen. Este mecanismo se puede observar analizando en qué partes de las imágenes los sujetos ponen su atención; por ejemplo donde fijan sus ojos cuando se les muestra una imagen. La forma más precisa de registrar este comportamiento es rastrear los movimientos de los ojos mientras se muestran imágenes. La estimación computacional del ‘saliency’, tiene como objetivo diseñar algoritmos que, dada una imagen de entrada, estimen mapas de ‘saliency’. Estos mapas se pueden utilizar en una variada gama de aplicaciones, incluida la detección de objetos, la compresión de imágenes y videos y el seguimiento visual. La mayoría de la investigación en este campo se ha centrado en estimar automáticamente estos mapas de ‘saliency’, dada una imagen de entrada. En cambio, en esta tesis, nos propusimos incorporar la estimación de ‘saliency’ en un procedimiento de reconocimiento de objeto, puesto que, queremos investigar si los mapas de ‘saliency’ pueden mejorar los resultados de la tarea de reconocimiento de objetos. En esta tesis, identificamos varios problemas relacionados con la estimación del ‘saliency’ visual. Primero, pudimos determinar en qué medida se puede aprovechar la estimación del ‘saliency’ para mejorar el entrenamiento de un modelo de reconocimiento de objetos cuando se cuenta con escasos datos de entrenamiento. Para resolver este problema, diseñamos una red de clasificación de imágenes que incorpora información de ‘saliency’ como entrada. Esta red procesa el mapa de ‘saliency’ a través de una rama de red dedicada y utiliza las características resultantes para modular las características visuales estándar ascendentes de la entrada de la imagen original. Nos referiremos a esta técnica como clasificación de imágenes moduladas por prominencia (SMIC en inglés). En numerosos experimentos realizando sobre en conjuntos de datos de referencia estándar para el reconocimiento de objetos ‘fine-grained’, mostramos que nuestra arquitectura propuesta puede mejorar significativamente el rendimiento, especialmente en conjuntos de datos con datos con escasos datos de entrenamiento. Luego, abordamos el principal inconveniente del problema anterior: es decir, SMIC requiere explícitamente un algoritmo de ‘saliency’, el cual debe entrenarse en un conjunto de datos de ‘saliency’. Para resolver esto, implementamos un mecanismo de alucinación que nos permite incorporar la rama de estimación de ‘saliency’ en una arquitectura de red neuronal entrenada de extremo a extremo que solo necesita la imagen RGB como entrada. Un efecto secundario de esta arquitectura es la estimación de mapas de ‘saliency’. En varios experimentos, demostramos que esta arquitectura puede obtener resultados similares en el reconocimiento de objetos como SMIC pero sin el requisito de mapas de ‘saliency’ para entrenar el sistema. Finalmente, evaluamos la precisión de los mapas de ‘saliency’ que ocurren como efecto secundario del reconocimiento de objetos. Para ello, utilizamos un de conjuntos de datos de referencia para la evaluación de la prominencia basada en experimentos de seguimiento ocular. Sorprendentemente, los mapas de ‘saliency’ estimados son muy similares a los mapas que se calculan a partir de experimentos de seguimiento ocular humano. Nuestros resultados muestran que estos mapas de ‘saliency’ pueden obtener resultados competitivos en mapas de ‘saliency’ de referencia.
For humans, the recognition of objects is an almost instantaneous, precise and extremely adaptable process. Furthermore, we have the innate capability to learn new object classes from only few examples. The human brain lowers the complexity of the incoming data by filtering out part of the information and only processing those things that capture our attention. This, mixed with our biological predisposition to respond to certain shapes or colors, allows us to recognize in a simple glance the most important or salient regions from an image. This mechanism can be observed by analyzing on which parts of images subjects place attention; where they fix their eyes when an image is shown to them. The most accurate way to record this behavior is to track eye movements while displaying images. Computational saliency estimation aims to identify to what extent regions or objects stand out with respect to their surroundings to human observers. Saliency maps can be used in a wide range of applications including object detection, image and video compression, and visual tracking. The majority of research in the field has focused on automatically estimating saliency maps given an input image. Instead, in this thesis, we set out to incorporate saliency maps in an object recognition pipeline: we want to investigate whether saliency maps can improve object recognition results. In this thesis, we identify several problems related to visual saliency estimation. First, to what extent the estimation of saliency can be exploited to improve the training of an object recognition model when scarce training data is available. To solve this problem, we design an image classification network that incorporates saliency information as input. This network processes the saliency map through a dedicated network branch and uses the resulting characteristics to modulate the standard bottom-up visual characteristics of the original image input. We will refer to this technique as saliency-modulated image classification (SMIC). In extensive experiments on standard benchmark datasets for fine-grained object recognition, we show that our proposed architecture can significantly improve performance, especially on dataset with scarce training data. Next, we address the main drawback of the above pipeline: SMIC requires an explicit saliency algorithm that must be trained on a saliency dataset. To solve this, we implement a hallucination mechanism that allows us to incorporate the saliency estimation branch in an end-to-end trained neural network architecture that only needs the RGB image as an input. A side-effect of this architecture is the estimation of saliency maps. In experiments, we show that this architecture can obtain similar results on object recognition as SMIC but without the requirement of ground truth saliency maps to train the system. Finally, we evaluated the accuracy of the saliency maps that occur as a side-effect of object recognition. For this purpose, we use a set of benchmark datasets for saliency evaluation based on eye-tracking experiments. Surprisingly, the estimated saliency maps are very similar to the maps that are computed from human eye-tracking experiments. Our results show that these saliency maps can obtain competitive results on benchmark saliency maps. On one synthetic saliency dataset this method even obtains the state-of-the-art without the need of ever having seen an actual saliency image for training.
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
Los estilos APA, Harvard, Vancouver, ISO, etc.
11

Ghosh, Suman Kumar. "Word spotting and recognition in images from heterogeneous sources". Doctoral thesis, Universitat Autònoma de Barcelona, 2018. http://hdl.handle.net/10803/665691.

Texto completo
Resumen
El text es la manera més habitual d’intercanviar informació des de les edats. Amb el desenvolupament recent d’imatges de bases de dades de manuscrits manuscrits històrics, la demanda d’algorismes per fer accessibles aquestes bases de dades per a la navegació i la indexació estan augmentant. L’augment exponencial de les bases de dades d’imatges disponibles públicament i les col·leccions personals d’imatges, aquest interès també inclou l’enteniment del text sobre imatges naturals. Activar la cerca o comprendre una gran collecció de manuscrits o bases de dades d’imatges requereix un mètode ràpid i robust. Els investigadors han trobat diferents maneres de representar paraules retallades per a la comprensió i la concordança, cosa que funciona bé quan les paraules ja estan segmentades. No obstant això, no hi ha cap manera trivial d’estendre’ls per a documents no segmentats. En aquesta tesi, explorem diferents mètodes per a la recuperació i el reconeixement de text a partir d’imatges sense escena de documents i escenes. Hi ha dues formes de representació diferents a la literatura, s’utilitza una representació de longitud fixa a partir de paraules retallades i una altra amb una seqüència de característiques de longitud variable. Al llarg d’aquesta tesi, hem estudiat aquestes dues representacions per la seva idoneïtat en la lliure comprensió del text. A la primera part, ens hem centrat en la segmentació de paraules lliures amb una representació de longitud fixa. Vam ampliar l’ús d’una representació exitosa per a la recuperació gratuïta de segmentacions. En la segona part de la tesi, explorem funcions basades en seqüències i, finalment, proposem una solució unificada on el mateix marc pot generar ambdós tipus de representacions.
El texto es la forma más común de compartir información desde edades. Con el reciente desarrollo de bases de datos de imágenes de manuscritos históricos manuscritos, la demanda de algoritmos para hacer accesibles estas bases de datos para la navegación y la indexación están en aumento. El aumento exponencial de las bases de datos de imágenes disponibles al público y las colecciones personales de imágenes, este interés ahora también abarca la comprensión de texto en imágenes naturales. La habilitación de la búsqueda o la comprensión de una gran colección de manuscritos o bases de datos de imágenes necesita un método rápido y sólido. Los investigadores han encontrado diferentes maneras de representar la palabra recortada para la comprensi ón y la coincidencia, que funciona bien cuando las palabras ya están segmentadas. Sin embargo, no hay una forma trivial de ampliar estos para documentos no segmentados. En esta tesis, exploramos diferentes métodos para la recuperación y el reconocimiento de texto a partir de documentos no segmentados e imégenes de escena. Existen dos formas diferentes de representación en la literatura, una usa una representaci ón de longitud fija aprendida de palabras recortadas y otra una secuencia de características de longitud variable. A lo largo de esta tesis, hemos estudiado estas dos representaciones por su idoneidad en la segmentación, la comprensión libre del texto. En la primera parte, nos centramos en la detección de palabras sin segmentación utilizando una representación de longitud fija. Extendimos el uso de una representación exitosa para la recuperación libre de segmentación. En la segunda parte de la tesis, exploramos las características basadas en secuencia y finalmente proponemos una soluci´on unificada donde el mismo marco puede generar ambos tipos de representaciones.
Text is the most common way of information sharing from ages. With recent development of images databases of handwritten historic manuscripts the demand for algorithms to make these databases accessible for browsing and indexing are in rise. Exponential increase of publicly available image databases and personal collections of pictures, this interest now also embraces text understanding on natural images. Enabling search or understanding large collection of manuscripts or image databases need fast and robust method. Researchers have found different ways to represent cropped word for understanding and matching, which works well in when words are already segmented. However there is no trivial way to extend these for non-segmented documents. In this thesis we explore different methods for text retrieval and recognition from unsegmented document and scene images. Two different ways of representation exists in literature, one uses a fixed length representation learned from cropped words and another a sequence of features of variable length. Throughout this thesis, we have studied both these representation for their suitability in segmentation free understanding of text. In the first part we are focused on segmentation free word spotting using a fixed length representation. We extended the use of one successful representation for segmentation free retrieval. In the second part of the thesis, we explore sequence based features and finally propose a unified solution where same framework can generate both kind of representations.
Los estilos APA, Harvard, Vancouver, ISO, etc.
12

Mateo, Agulló Carlos. "Reconocimiento geométrico de objetos 3D y detección de deformaciones en manipulación robótica". Doctoral thesis, Universidad de Alicante, 2017. http://hdl.handle.net/10045/72265.

Texto completo
Resumen
Recientemente, con la aparición de nuevos sensores visuales de bajo coste capaces de adquirir y reconstruir datos 3D, y de los desarrollos de nuevos métodos, algoritmos y sistemas de percepción basados en información visual 3D, se ha producido una revolución en el desarrollo de aplicaciones robóticas, tales como el reconocimiento de objetos para la interacción de los robots con su entorno en tareas de agarre y manipulado inteligente. Para realizar estas tareas, los robots son dotados con diferentes sensores (como pueden ser cámaras, sensores de presión, fuerza, etc.) que les permitan extraer la información necesaria del entorno de trabajo. En esta tesis serán usados sensores de visión 3D, basados en RGBD. La detección y el reconocimiento de objetos en entornos de trabajo utilizando información tridimensional es un campo de estudio en el que se centran actualmente numerosas investigaciones. Sin embargo, no se ha llegado a resolver por completo el problema del reconocimiento de objetos, en especial cuando el robot se enfrenta a situaciones donde las escenas son complejas. También se debe tener en cuenta temas como el rendimiento de los procesos, ya que cuando se desean desarrollar aplicaciones de manipulado robótico se requieren tiempos de respuesta elevados. Como será discutido durante la tesis, la estructura utilizada para representar los datos e información 3D serán las nubes de puntos. Existen diferentes métodos que permiten extraer la información necesaria de ellas con el fin de reconocer y recuperar la pose de los objetos que contienen. Principalmente hay dos grandes tipos de aproximaciones, las que se basan en información local de las variaciones de la superficie y las que se basan en las características globales de la superficie. El primer grupo ha alcanzado una relativa madurez y esto ha conducido a sistemas de reconocimiento robustos. Sin embargo, presentan inconvenientes como tiempos de computación elevados cuando se trabaja con nubes de puntos densas para representar objetos, o de los elevados requisitos de memoria. El segundo grupo, basado en la extracción global de características, representan la geometría de una superficie con una única firma o histograma (en ocasiones la mezcla de ambos). De este modo se consiguen métodos de descripción con un rendimiento mucho más eficiente. Esta tesis discute cual de las dos aproximaciones es más idónea en tareas de manipulación robótica, para ello se realiza un amplio estudio a nivel teórico-práctico, del cual se presentará un nuevo método de descripción basado en información geométrica global. Por otro lado, se hace especialmente difícil el problema de la manipulación robótica cuando los objetos a manipular tienen propiedades de elasticidad. Como segundo objetivo de esta tesis es presentar un sistema de percepción visual para tareas de manipulación robótica de objetos elásticos. La percepción visual es idónea en tareas de agarre complejas o de manipulación inteligente para ayudar al control de robots cuando otros sistemas sensoriales, como pueden ser los sistemas de percepción táctil o de fuerza, no son capaces de obtener información útil. El sistema visual que se presenta, sirve como soporte de ayuda a otros sistemas de percepción basados en tacto, para llevar a cabo tareas de manipulación de objetos con propiedades de elasticidad. Por un lado, el sistema propuesto presenta una aproximación visual cuyo objetivo es supervisar la interacción entre el objeto manipulado y la herramienta robótica, ya sea pinza o mano, con la que se realiza la manipulación del objeto. Esta aproximación es de gran utilidad en ausencia de información procedente de otro tipo de sensores (p.e. fuerza o táctil) o cuando ésta es pobre o presenta inconsistencias. Por otro lado, el método de supervisión, también, está concebido para medir cambios en la geometría de la superficie del objeto manipulado y por lo tanto, éste es capaz de detectar y localizar deformaciones en la superficie causadas por presiones inadecuadas aplicadas por los dedos de la pinza o mano robótica. Todo los métodos y sistemas propuestos en la presente tesis han sido probados utilizando bases de datos públicas, además los experimentos desarrollados se han realizado empleando distintas plataformas robóticas, pero en todas ellas se emplea como herramienta de manipulación una mano antropomórfica de varios dedos. Es de destacar, que además de utilizar bases de datos de objetos públicas, también se ha desarrollado una base de datos de objetos simples con formas geométricas ambiguas. En el último capítulo de esta tesis se utiliza, un conjunto de objetos para realizar las pruebas en las cuales los elementos a manipular tienen distinta geometría y están fabricados con distintos materiales; esto permite mostrar el comportamiento de la estrategia presentada cuando los objetos tienen distintas propiedades de rigidez, elasticidad y flexibilidad.
Los estilos APA, Harvard, Vancouver, ISO, etc.
13

Aguilar, Ramírez Ximena. "Programa de comunicación audiovisual con fines educativos, basado en un sistema de reconocimiento para el Parque Zoológico Buin Zoo". Tesis, Universidad de Chile, 2004. http://repositorio.uchile.cl/handle/2250/100556.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
14

Kosti, Ronak. "Visual scene context in emotion perception". Doctoral thesis, Universitat Oberta de Catalunya, 2019. http://hdl.handle.net/10803/667808.

Texto completo
Resumen
Els estudis psicològics demostren que el context de l'escena, a més de l'expressió facial i la postura corporal, aporta informació important a la nostra percepció de les emocions de les persones. Tot i això, el processament del context per al reconeixement automàtic de les emocions no s'ha explorat a fons, en part per la manca de dades adequades. En aquesta tesi presentem EMOTIC, un conjunt de dades d'imatges de persones en situacions naturals i diferents anotades amb la seva aparent emoció. La base de dades EMOTIC combina dos tipus de representació d'emocions diferents: (1) un conjunt de 26 categories d'emoció i (2) les dimensions contínues valència, excitació i dominància. També presentem una anàlisi estadística i algorítmica detallada del conjunt de dades juntament amb l'anàlisi d'acords d'anotadors. Els models CNN estan formats per EMOTIC, combinant característiques de la persona amb funcions d'escena (context). Els nostres resultats mostren com el context d'escena aporta informació important per reconèixer automàticament els estats emocionals i motiven més recerca en aquesta direcció.
Los estudios psicológicos muestran que el contexto de la escena, además de la expresión facial y la pose corporal, aporta información importante a nuestra percepción de las emociones de las personas. Sin embargo, el procesamiento del contexto para el reconocimiento automático de emociones no se ha explorado en profundidad, en parte debido a la falta de datos adecuados. En esta tesis presentamos EMOTIC, un conjunto de datos de imágenes de personas en situaciones naturales y diferentes anotadas con su aparente emoción. La base de datos EMOTIC combina dos tipos diferentes de representación de emociones: (1) un conjunto de 26 categorías de emociones y (2) las dimensiones continuas de valencia, excitación y dominación. También presentamos un análisis estadístico y algorítmico detallado del conjunto de datos junto con el análisis de concordancia de los anotadores. Los modelos CNN están entrenados en EMOTIC, combinando características de la persona con características de escena (contexto). Nuestros resultados muestran cómo el contexto de la escena aporta información importante para reconocer automáticamente los estados emocionales, lo cual motiva más investigaciones en esta dirección.
Psychological studies show that the context of a setting, in addition to facial expression and body language, lends important information that conditions our perception of people's emotions. However, context's processing in the case of automatic emotion recognition has not been explored in depth, partly due to the lack of sufficient data. In this thesis we present EMOTIC, a dataset of images of people in various natural scenarios annotated with their apparent emotion. The EMOTIC database combines two different types of emotion representation: (1) a set of 26 emotion categories, and (2) the continuous dimensions of valence, arousal and dominance. We also present a detailed statistical and algorithmic analysis of the dataset along with the annotators' agreement analysis. CNN models are trained using EMOTIC, combining a person's features with those of the setting (context). Our results not only show how the context of a setting contributes important information for automatically recognizing emotional states but also promote further research in this direction.
Los estilos APA, Harvard, Vancouver, ISO, etc.
15

Pequeño, Bueno Andrea. "Palabras, imágenes, cosas: sentidos de pertenencia y vínculos transnacionales en inmigrados/as chilenos/as en Barcelona, España, a partir de la cultura material visual". Doctoral thesis, Universitat Autònoma de Barcelona, 2017. http://hdl.handle.net/10803/457428.

Texto completo
Resumen
Mi investigación doctoral explora los procesos identitarios y la experiencia familiar transnacional de inmigrantes chilenos/as que residen en unión mixta en Barcelona, España. Y lo hace poniendo especial atención a la cultura material, y con énfasis en la fotografía. Así, indago las trayectorias de desplazamiento y de conformación de pareja y vida en familia, los lazos con el país, la cultura y el núcleo de origen y, en suma, las relaciones y los ajustes continuos que suponen estos procesos y las identidades que entran en juego (género, país de procedencia, nivel socio-profesional, entre otras). Mi acento ha estado en entender el rol jugado por objetos e imágenes en estas vivencias. Y, paralelamente, comprender cómo influye en todo ello la pareja (su origen y características). La investigación tiene una naturaleza etnográfica cualitativa. En el trabajo de campo (realizado entre los años 2012 y 2015 en la Provincia de Barcelona, Comunidad Autónoma de Cataluña), contemplé la observación participante y las entrevistas en profundidad. En el marco de estas, incluí visitas guiadas por el espacio doméstico (Hometour) y el visionado conjunto de fotografías familiares. En algunos casos, además, los/as entrevistados/as construyeron -mediante objetos e/o imágenes- una narrativa sobre su proceso migratorio y de vida en pareja. Los/as informantes son chilenos/as que, habiendo nacido y permanecido en Chile hasta su mayoría de edad legal (18 años), se han establecido en Barcelona, en unión binacional heterosexual. Responden a distintos perfiles migratorios (económicos, estudios y amor) y a características sociodemográficas variadas. Incluí, además, a modo de contrapunto, a un informante en unión endogámica (Chile/Chile). Esto, bajo el interés de explorar la eventual influencia del origen de la pareja en los sentidos de pertenencia y los lazos transnacionales. Su trayectoria migratoria (exiliado político) ha aportado a la riqueza analítica de mi estudio. A ello también ha contribuido las particularidades biográficas y las características sociodemográficas variadas de los/as entrevistados/as (en género, edad, nivel socio-profesional, tiempo de residencia en Barcelona, entre otros aspectos). La forma de trabajo desplegada y el análisis mismo, han aportado antecedentes sobre los significados sociales y personales que tiene la cultura material y visual en la experiencia de los/as inmigrados/as y en sus lazos transnacionales, los modos en que se autorepresentan y las narrativas que se tejen, permitiendo con ello reconstruir trayectorias biográficas y de relacionalidad familiar, entre otros aspectos. Si bien, existe una amplia producción de investigaciones sobre migración y sobre cultura material, hasta hace poco eran escasos los trabajos que vincularan ambos ámbitos. En este sentido, mi tesis representa un aporte. Este se refuerza al considerar que la población chilena inmigrada en Cataluña y en España, ha merecido una exigua atención en los círculos académicos, más todavía en lo que respecta a parejas mixtas. Finalmente, señalar que mi formación doctoral se enmarca en el Programa Formación de Capital Humano Avanzado, de la Comisión de Nacional de Investigación Científica y Tecnológica (CONICYT) del Gobierno de Chile.
My doctoral research explores identity formation processes and transnational family experiences among Chilean immigrants living in mixed (binational) unions in Barcelona, Spain. In this effort, I pay attention to material culture, with a focus on photography. I analyze immigrants’ displacement trajectories and the conformation of family life and romantic partnerships, as well as ties with the country, culture and nucleus of origin. In sum, I look at the relationships and continuous adjustments that such processes entail and the different identities that come into play (gender, country of origin, socio-professional status, among others). I do this by focusing on the role of objects and images in such life experiences. In tandem, I analyze how these processes are affected by the migrant’s partner (place of origin and characteristics). This research project is ethnographic and qualitative in nature. My fieldwork (undertaken between 2012 and 2015 in the Province of Barcelona, Autonomous Community of Cataluña) is based on participant observation and in-depth interviews. During interviews, I included guided tours of domestic spaces (Hometour) and a shared visualization and discussion of family photos. In some cases, interviewees constructed- through objects and images- narratives about their migration process and couple life. My informants are people who were born in Chile, lived there until they reached the legal age of majority (18 years), and now reside in Barcelona in heterosexual binational unions. They exhibit diverse migratory profiles and motivations (economic, studies and love) as well as varied sociodemographic characteristics. I also included, as a counterpoint, an informant in an endogamic union (Chile/Chile). I included this informant to explore the relative influence of partner’s place of origin on the construction of a sense of belonging and transnational ties. His migratory trajectory (political exile) has contributed to the analytical richness of this study. The biographic particularities and varied sociodemographic characteristics of my interviewees (in terms of gender, age, socio-professional status, time residing in Barcelona, among others) further enrich this study. The methodology I deployed and the analysis of data itself contribute to the understanding of visual and material culture’s social and personal meanings in the experiences of immigrants and in their transnational ties. This research also delves on the ways immigrants represent themselves and the narratives they produce, allowing for a reconstruction of biographic trajectories and family relations, among other aspects. Even though there is a wealth of research on migration and material culture, up until recently few studies approached these two aspects together and the links between them. In this sense, my dissertation is a contribution. This contribution is accentuated by the fact that the Chilean population who has migrated to Cataluña and Spain, receives very scant attention among academic circles, even more so when it comes to considering binational couples. Finally, I would like to add that my doctoral studies were supported by Chile’s government program: Programa Formación de Capital Humano Avanzado, launched by the Comisión Nacional de Investigación Científica y Tecnológica (CONICYT).
Los estilos APA, Harvard, Vancouver, ISO, etc.
16

Silva, Leal Juan Sebastián. "Optimización de proceso de detección de partículas a partir de imágenes de video mediante paralelización". Tesis, Universidad de Chile, 2012. http://www.repositorio.uchile.cl/handle/2250/111362.

Texto completo
Resumen
Ingeniero Civil en Computación
La detección de objetos a partir de imágenes se ha convertido en una herramienta muy poderosa para diferentes disciplinas. El Laboratorio de Materia Fuera del Equilibrio del Departamento de Física de la Facultad cuenta con una implementación en C del Método χ^2 usando bibliotecas ad-hoc compatibles con Mac OSX para detectar partículas en sistemas granulares cuasi-bidimensionales compuestos por miles de partículas de acero de 1 mm de diámetro, pudiendo detectar partículas en una imagen de 1 MegaPixel en alrededor de 10 segundos. Sin embargo, estas imágenes provienen de videos que se desean analizar y en una sesión de trabajo se puede requerir analizar alrededor de unas 100.000 imágenes en total, por lo cual el procesamiento y posterior análisis de estas imágenes de video tiene una duración de varios días. Es por esto que fue necesario agilizar de alguna manera este procesamiento de imágenes y generar una solución robusta. El objetivo principal de la memoria consistió en reducir los tiempos de detección de partículas generando un nuevo software basado en el anterior, facilitando extensiones futuras, y utilizando el máximo poder de cómputo disponible en el laboratorio. El alumno ideó como solución un sistema distribuido haciendo uso de todos los computadores disponibles para el procesamiento de imágenes, reimplementando el código del software, en ese entonces utilizado, de C a C++ utilizando patrones de diseño para facilitar futuras extensiones del software y threads con el fin de aumentar el rendimiento de este. También se agregó tecnología CUDA para el procesamiento de datos reduciendo de forma considerable los tiempos de ejecución. Como resultado final de la memoria, se logró obtener un speedup de alrededor de 5x haciendo uso de distribución de carga computacional, uso de procesos en paralelo, hilos de ejecución y tecnología CUDA, además se logró una solución más robusta y extensible para futuros cambios o generación de nuevos algoritmos de procesamiento. Todo el proceso de investigación, desde la obtención de datos hasta la validación de la hipótesis, lleva mucho tiempo, en donde la detección de partículas es solo una parte de todo el calculo computacional que se debe realizar, por lo que se aconseja implementar en lenguajes no interpretados y más rápidos, como por ejemplo C++, otras etapas de cálculo de datos y además, en lo posible, distribuir el computo y usar CUDA.
Los estilos APA, Harvard, Vancouver, ISO, etc.
17

Pérez, Lucero Paloma. "Edición de un medio de comunicación visual, para Guia de reconocimiento, identificación y valoración del Patrimonio Cultural-Histórico del casco de Santiago Centro, orientado al turismo cultural". Tesis, Universidad de Chile, 2004. http://repositorio.uchile.cl/handle/2250/100551.

Texto completo
Resumen
Planificar , Diseñar y Editar un documento guía, de imagen didáctica y persuasión, que registre los intereses del turista, de ser informado, instruido, orientado e inducido a recorrer y reconocer los atractivos el patrimoniales de valor histórico-cultural dentro de Santiago-Centro.
Los estilos APA, Harvard, Vancouver, ISO, etc.
18

Haro, Rodríguez Juan. "Semantic ambiguity: The role of number of meanings and relatedness of meanings in word processing". Doctoral thesis, Universitat Rovira i Virgili, 2018. http://hdl.handle.net/10803/586087.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
19

Arenas, Sepúlveda Matías Esteban. "Detección y Seguimiento de Robots Articulados Mediante Análisis Computacional de Imágenes". Tesis, Universidad de Chile, 2009. http://repositorio.uchile.cl/handle/2250/102172.

Texto completo
Resumen
El objetivo de esta tesis es diseñar e implementar un sistema de detección y seguimiento de robots articulados mediante el análisis computacional de imágenes. El principal aporte es extender el uso de técnicas de detección de objetos rígidos a robots articulados y lograr un seguimiento en tiempo real de la posición de éstos en imágenes y secuencias de video. El trabajo realizado está enfocado principalmente a condiciones de fútbol robótico pero es fácilmente extendible a otras aplicaciones. El reconocimiento de robots articulados requiere la detección de éstos en cualquier estado y posición. Para lograrlo, se probaron distintos tipos de clasificadores de manera de obtener una mayor tasa de detección, independiente del estado del robot (acostado, parado, caminando, etc…). Los robots utilizados para probar los algoritmos fueron el robot Aibo y los robots de tipo Humanoide (basado en el modelo Hajime). El sistema antes mencionado necesitó la creación e implementación de distintas herramientas computacionales. Para la detección de robots en imágenes se utilizó un sistema basado en Adaboost, y para el posterior seguimiento se ocupó el algoritmo “mean-shift”. Para la detección mediante Adaboost se generaron una serie de bases de datos para el entrenamiento del algoritmo. Posteriormente se construyeron diversos clasificadores (frontal, lateral, trasero, global, etc…), y se probaron distintas estrategias de detección. El detector con mejores resultados para Aibos fue el Lateral, con una tasa de detección de hasta 94.7% con 98 falsos positivos en la base de datos AIBODetUChileEval. Luego siguen el detector Trasero, con 89.9% y 166 falsos positivos y, por último, el detector Frontal con 89.4% y 254 falsos positivos. Finalmente se probó la detección de los Aibos en todas las posiciones con un detector múltiple, el cual obtuvo una tasa de detección de 94.8% con 392 falsos positivos. Aplicando solo el detector frontal sobre todas las imágenes con Aibos obtuvo solo un 90% de detecciones con 392 falsos positivos, pero es más rápido que el detector múltiple. Para los Humanoides se desarrolló un solo detector que logró un 92.2% de detecciones con 123 falsos positivos sobre la base de datos HDetUChileEval. Se concluyó finalmente que los clasificadores Adaboost elegidos en este trabajo para hacer las clasificaciones reportan excelentes resultados, y no se duda que puedan también hacerlo en otros tipos de aplicaciones de similares características. Además se logró hacer la detección y el seguimiento de robots en tiempos muy cercanos al tiempo real, lo cual permite ocuparlo en aplicaciones con altas restricciones de procesamiento.
Los estilos APA, Harvard, Vancouver, ISO, etc.
20

Luvizotto, André Luiz. "The Encoding and decoding of complex visual stimuli : a neural model to optimize and read out a temporal population code". Doctoral thesis, Universitat Pompeu Fabra, 2012. http://hdl.handle.net/10803/94143.

Texto completo
Resumen
The mammalian visual system has a remarkable capacity of processing a large amount of information within milliseconds under widely varying conditions into invariant representations. Recently a model of the primary visual system exploited the unique feature of dense local excitatory connectivity of the neo-cortex to match these criteria. The model rapidly generates invariant representations integrating the activity of spatially distributed modeled neurons into a so-called Temporal Population Code (TPC). In this thesis, we first investigate an issue that has persisted TPC since its introduction: to extend the concept to a biologically compatible readout stage. We propose a novel neural readout circuit based on wavelet transform that decodes the TPC over different frequency bands. We show that, in comparison with pure linear readouts used previously, the proposed system provides a robust, fast and highly compact representation of visual input. We then generalized this optimized encoding-decoding paradigm to deal with a number of robotics application in real-world tasks to investigate its robustness. Our results show that complex stimuli such as human faces, hand gestures and environmental cues can be reliably encoded by TPC which provides a powerful biologically plausible framework for real-time object recognition. In addition, our results suggest that the representation of sensory input can be built into a spatial-temporal code interpreted and parsed in series of wavelet like components by higher visual areas.
El sistema visual dels mamífers té una remarcable capacitat per processar informació en intervals de temps de mili-segons sota condicions molt variables i adquirir representacions invariants d'aquesta informació. Recentment un model del còrtex primari visual explota les característiques d'alta connectivitat excitatriu local del neocortex per modelar aquestes capacitats. El model integra ràpidament l'activitat repartida espaialment de les neurones i genera codificacions invariants que s'anomenen Temporal Population Codes (TPC). Aquí investiguem una qüestió que ha persistit des de la introducció del TPC: estudiar un procés biològicament possible capaç de fer la lectura d'aquestes codificacions. Nosaltres proposem un nou circuit neuronal de lectura basat en la Wavelet Transform que decodifica la senyal TPC en diferents intervals de freqüència. Monstrem que, comparat amb lectures purament lineals utilitzades previament, el sistema proposat proporciona una representació robusta, ràpida i compacta de l'entrada visual. També presentem una generalització d'aquest paradigma de codificació-decodificació optimitzat que apliquem a diferents tasques de visió per computador i a la visió dins del context de la robòtica. Els resultats del nostre estudi suggereixen que la representació d'escenes visuals complexes, com cares humanes, gestos amb les mans i senyals del medi ambient podrien ser codificades pel TPC el qual es pot considerar un poderós marc biològic per reconeixement d'objectes en temps real. A més a més, els nostres resultats suggereixen que la representació de l'entrada sensorial pot ser integrada en un codi espai-temporal interpretat i analitzat en una serie de components Wavelet per àrees visuals superiors.
Los estilos APA, Harvard, Vancouver, ISO, etc.
21

Santos, Vilma Constancia Fioravante dos. "A saúde como direito : um manifesto visual da luta por reconhecimento". reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2018. http://hdl.handle.net/10183/186177.

Texto completo
Resumen
A presente tese tem como tema de pesquisa a saúde como um direito de cidadania, centrando-se na figura do profissional de saúde como um elemento importante para pensarmos a construção de espaços públicos que sustentem o exercício da cidadania pela via da saúde. Tendo como despertar a reflexão de que o alcance do espaço público se dá quando os sujeitos se vêm reconhecidos como integrantes dignos de valor em relações intersubjetivas, constituindo assim uma vida pública capaz de promover a saúde como um direito de cidadania, atuando em nome do campo da saúde como fonte de valorização e visibilidade social. Realizou-se um estudo etnográfico, com o uso de imagens para a constituição de narrativas visuais que indicassem espaços e situações envolvidas no estabelecimento de relações intersubjetivas e na ocupação de um espaço público por profissionais da saúde no rural. A geração dos dados se deu em um serviço de saúde do rural do Município de Gravataí, com a produção de fotografias, observação participante, registros em diário de campo e realização de entrevistas semiestruturadas, entre setembro de 2016 a março de 2017. O processo de análise dos dados se deu por meio da orientação interpretativa realizada à luz das contribuições de Clifford Gueertz e do referencial teórico oferecido pela Teoria do Reconhecimento em Axel Honneth. As imagens, mais do que ilustrar a configuração das relações que se estabelecem entre os profissionais e usuários no cotidiano de um serviço de saúde ou nas trajetórias assistenciais, explicitam o sentido do texto construído a partir das esferas do Reconhecimento: o afeto, o direito e a estima social A sociabilidade que se conforma no espaço institucionalizado do serviço de saúde impõe mais formas de desrespeito do que de fortalecimento do interesse pelo espaço público. As narrativas visuais do cotidiano do serviço de saúde enunciam as formas de desrespeito vivenciado pelos profissionais, instigando a reflexão sobre a repressão imposta pela lógica normativa de funcionamento dos serviços de saúde. As trajetórias assistenciais expressam experiências na saúde (não necessariamente experiências de cidadania ou do alcance de direitos), transcritas pelas e com as fotografias, e visibilizam mecanismos que se conformam no cotidiano de um serviço de saúde. Esses mecanismos tem o potencial de valorizar as relações intersubjetivas, invisibilizadas pela lógica da organização institucional e da formulação das políticas públicas no campo da saúde, explicitando que o espaço público estabelecido fora do espaço físico do serviço de saúde ocorre de forma mais respeitosa. De modo geral, as narrativas visuais trazem à luz o esvaziamento do espaço público em seu potencial de ser mediador da formação da vontade pública, assim como os mecanismos que endossam a invisibilidade dos sujeitos. A gramática das relações sociais indica a produção de sujeitos anônimos que não conseguem simbolizar o quanto suas necessidades individuais são relevantes para colaborar com o coletivo e conformar uma vida pública. Disso emerge a consideração de que é preciso ocupar o espaço público como um exercício de cidadania, onde a luta pela saúde, como um direito, vem da ressignificação e do envolvimento com o que é público.
The present thesis deals with health as a right of citizenship, focusing on the health professional as an important element to think about the construction of public spaces that support the exercise of citizenship through health. Having as a turning point the fact that the scope of the public space occurs when subjects are recognized as worthy members in intersubjective relations, thus constituting a public life capable of promoting health as a right of citizenship, acting in the name of the field health as a source of appreciation and social visibility. An ethnographic study was carried out using images for the constitution of visual narratives that indicated the spaces and situations involved in the establishment of intersubjective relations and in the occupation of a public space by health professionals in the rural areas. The data was generated in a rural area health service in the city of Gravataí (RS, Brazil), with the production of photographs, participant observation, field diary records and semi-structured interviews. The activities in empirical field occurred between September 2016 to March 2017. The process of data analysis took place through an interpretative orientation performed in the light of the contributions of Clifford Gueertz and the theoretical framework offered by the Theory of Recognition of Axel Honneth. The images, rather than illustrate, explain the meaning of the text constructed from the spheres of Recognition as an analytical reference of daily life, affection, law and social esteem. The imagens also bring the description of assistential trajectories that reveal the configuration of relationships which are established between professionals and users. The visual narratives enunciate the forms of disrespect experienced by the professionals, instigating the reflection on the repression imposed by the normative logic of health services functioning. The sociability that conforms in the institutionalized space of the health service imposes more forms of disrespect than of strengthening interest in the public space. The construction of visual narratives that express experiences in health (not necessarily experiences of citizenship or experiences rights reaching), transcribed by the assistential trajectories by and with the photographs, occurred in order to visualize mechanisms that conform the daily life of a health service. These mechanisms have the potential to value intersubjective relations, invisible by the logic of institutional organization and the formulation of public policies in the field of health, stating that the public space established outside the physical space of the health service takes place in a more respectful way. In general, the visual narratives bring to light the emptying of the public space in its potential to be mediator of the formation of the public will and to mechanisms that endorse the invisibility of the subjects. The grammar of social relations indicates the production of anonymous subjects who cannot symbolize how their individual needs are relevant to collaborate with the collective and conform a public life. From this emerges the consideration that it is necessary to occupy the public space as an exercise of citizenship. The struggle for health, as a right, comes from the re-signification of the senses of what is public, from the desire of those who are involved in activities such as health professionals to engage with what is public.
La presente tesis tiene como tema de investigación a la salud como un derecho de ciudadanía, centrándose en la figura del profesional de la salud como un elemento importante en la construcción de espacios públicos que sustentan el ejercicio de la ciudadanía por la vía de la salud. Partimos de la reflexión de que el alcance del espacio público se da cuando los sujetos se ven reconocidos como integrantes dignos de valor en las relaciones intersubjetivas, constituyendo de esta manera una vida pública capaz de promover la salud como un derecho de ciudadanía, actuando en nombre del campo de la salud como fuente de valoración y visibilidad social. Se realizó un estudio etnográfico, con uso de imágenes para la constitución de narrativas visuales que muestren los espacios y situaciones involucradas en el establecimiento de relaciones intersubjetivas y en la ocupación de un espacio público atendido por profesionales de la salud en el ámbito rural. Los datos fueron recolectados en un servicio de salud rural del Municipio de Gravataí, con elaboración de fotografías, observación participante, registros en diario de campo y realización de entrevistas semi-estructuradas. Las actividades en campo empírico se realizaron entre septiembre de 2016 a marzo de 2017. El proceso de análisis de los datos se efectuó por medio de la orientación interpretativa realizada a la luz de las contribuciones de Clifford Gueertz y del referente teórico ofrecido por la Teoría del Reconocimiento de Axel Honneth. Las imágenes, más que ilustrar, explican el sentido del texto construido a partir de las esferas del Reconocimiento: del afecto, del derecho y de la estima social. Las narrativas visuales enuncian las formas de irrespeto vivenciadas por los profesionales, instigando la reflexión sobre la represión impuesta por la lógica normativa de funcionamiento de los servicios de salud. La sociabilidad que se conforma en el espacio institucionalizado del servicio de salud impone más formas de irrespeto que de fortalecimiento del interés por el espacio público. La construcción de narrativas visuales que expresan experiencias en salud (no necesariamente experiencias de ciudadanía o de alcance de derechos), transcritas por las trayectorias asistenciales y las fotografías, se efectuó con la intención de visibilizar mecanismos que se conforman en lo cotidiano de un servicio de salud. Estos mecanismos tienen el potencial de valorizar las relaciones intersubjetivas, invisibilizadas por la lógica de la organización institucional y la formulación de las políticas públicas en el campo de la salud, explicitando que el espacio público establecido fuera del espacio físico del servicio de salud ocurre de forma más respetuosa. De modo general, las narrativas visuales muestran el vaciamiento del espacio público en su potencial de ser mediador de la formación de voluntad pública y de mecanismos que endosan la invisibilidad de los sujetos. La gramática de las relaciones sociales indica la producción de sujetos anónimos que no logran simbolizar cuán relevantes son sus necesidades individuales para colaborar con el colectivo y conformar una vida pública. Surge entonces, la consideración de que es preciso ocupar el espacio público como un ejercicio de ciudadanía. La lucha de la salud como un derecho, proviene de la re-significación del sentido de lo público y del deseo de involucrarse con lo que es público, desde los profesionales de la salud.
Los estilos APA, Harvard, Vancouver, ISO, etc.
22

Liu, Xialei. "Visual recognition in the wild: learning from rankings in small domains and continual learning in new domains". Doctoral thesis, Universitat Autònoma de Barcelona, 2019. http://hdl.handle.net/10803/670154.

Texto completo
Resumen
Les xarxes neuronals convolucionals profundes (CNNs) han assolit resultats molt positius en diverses aplicacions de reconeixement visual, tals com classificació, detecció o segmentació d’imatges. En aquesta tesis, abordem dues limitacions de les CNNs. La primera, entrenar CNNs profundes requereix grans quantitats de dades etiquetades, les quals són molt costoses i àrdues d’aconseguir. La segona és que entrenar CNNs en sistemes d’aprenentatge continuu és un problema obert per a la recerca. L’oblit catastròfic en xarxes és molt comú quan s’adapta un model entrenat a nous entorns o noves tasques. Per tant, en aquesta tesis, tenim com a objectiu millorar les CNNs per a les aplicacions amb dades limitades i adaptar-les de forma contínua en noves tasques. L’aprenentatge auto-supervisat compensa la falta de dades etiquetades amb la introducció de tasques auxiliars en les quals les dades estan fàcilment disponibles. En la primera part de la tesis, mostrem com els rànquings es poden utilitzar de forma semblant a una tasca auto-supervisada per a problemes de regressió. Després, proposem una tècnica de propagació cap endarrera eficient per a xarxes siameses que prevenen el còmput redundant introduït per les arquitectures de xarxa multi-branca. A més a més, demostrem que mesurar la incertesa de les xarxes en les tasques semblants a les auto-supervisades és una bona mesura de la quantitat d’informació que contenen les dades no etiquetades. Aquesta mesura pot ser, aleshores, utilitzada per a l’execució de algoritmes d’aprenentatge actiu. Aquests marcs que proposem els apliquem doncs a dos problemes de regressió: Avaluació de la Qualitat d’Imatge (IQA) i el comptador de persones. En els dos casos, mostrem com generar de forma automàtica grups d’imatges ranquejades per a les dades no etiquetades. Els nostres resultats mostren que les xarxes entrenades per a la regressió de les anotacions de les dades etiquetades a la vegada que per aprendre a ordenar els rànquings de les dades no etiquetades, obtenen significativament millors resultats que superen l’estat de l’art. També demostrem que l’aprenentatge actiu utilitzant rànquings pot reduir la quantitat d’etiquetatge en un 50% per ambdues tasques de IQA i comptador de persones. A la segona part de la tesis, proposem dosmètodes per a evitar l’oblit catastròfic en escenaris d’aprenentatge seqüencial de tasques. El primer mètode deriva del de Consolidació Elàstica de Pesos, el qual utilitza la diagonal de la Matriu d’Informació de Fisher (FIM) per a mesurar la importància dels paràmetres de la xarxa. No obstant, l’aproximació assumida no és realista. Per tant, diagonalitzem aproximadament la FIMutilitzant un grup de paràmetres de rotació factoritzada proporcionant una millora significativa del rendiment de tasques seqüencials en el cas de l’aprenentatge continu. Per al segon mètode, demostrem que l’oblit es manifesta de forma diferent en cada capa de la xarxa i proposem un mètode híbrid on la destil·lació s’utilitza per a l’extractor de característiques i la rememoració en el classificador mitjançant generació de característiques. El nostremètode soluciona la limitació de la rememoració mitjançant la generació d’imatges i la destil·lació de probabilitats (com l’utilitzat en el mètode Aprenentatge Sense Oblit), i pot afegir de forma natural noves tasques en un únic classificador ben calibrat. Els experiments confirmen que el mètode proposat sobrepassa les mètriques de referència i part de l’estat de l’art.
Las redes neuronales convolucionales profundas (CNNS) han alcanzado resultados muy positivos en diferentes aplicaciones de reconocimiento visual, tales como clasificación, detección o segmentación de imágenes. En esta tesis, abordamos dos limitaciones de las CNNs. La primera, entrenar CNNs profundas requiere grandes cantidades de datos etiquetados, los cuales sonmuy costosos y arduos de conseguir. La segunda es que entrenar en sistemas de aprendizaje continuo es un problema abierto para la investigación. El olvido catastrófico en redes es muy común cuando se adapta un modelo entrenado a nuevos entornos o nuevas tareas. Por lo tanto, en esta tesis, tenemos como objetivo mejorar las CNNs para aplicaciones con datos limitados y adaptarlas de forma continua a nuevas tareas. El aprendizaje auto-supervisado compensa la falta de datos etiquetados con la introducción de tareas auxiliares en las cuales los datos están fácilmente disponibles. En la primera parte de la tesis, mostramos cómo los ránquings se pueden utilizar de forma parecida a una tarea auto-supervisada para los problemas de regresión. Después, proponemos una técnica de propagación hacia atrás eficiente para redes siamesas que previene el computo redundante introducido por las arquitecturas de red multi-rama. Además, demostramos quemedir la incertidumbre de las redes en las tareas parecidas a las auto-supervisadas, es una buena medida de la cantidad de información que contienen los datos no etiquetados. Dicha medida puede ser entonces usada para la ejecución de algoritmos de aprendizaje activo. Estosmarcos que proponemos los aplicamos entonces a dos problemas de regresión: Evaluación de Calidad de Imagen (IQA) y el contador de personas. En los dos casos, mostramos cómo generar de forma automática grupos de imágenes ranqueadas para los datos no etiquetados. Nuestros resultados muestran que las redes entrenadas para la regresión de las anotaciones de los datos etiquetados, a la vez que para aprender a ordenar los ránquings de los datos no etiquetados, obtienen resultados significativamente mejores al estado del arte. También demostramos que el aprendizaje activo utilizando ránquings puede reducir la cantidad de etiquetado en un 50% para ambas tareas de IQA y contador de personas. En la segunda parte de la tesis, proponemos dos métodos para evitar el olvido catastrófico en escenarios de aprendizaje secuencial de tareas. El primer método deriva del de Consolidación Elástica de Pesos, el cuál utiliza la diagonal de laMatriz de Información de Fisher (FIM) para medir la importancia de los pesos de la red. No obstante, la aproximación asumida no es realista. Por lo tanto, diagonalizamos la aproximación de la FIM utilizando un grupo de parámetros de rotación factorizada proporcionando una mejora significativa en el rendimiento de tareas secuenciales para el caso del aprendizaje continuo. Para el segundo método, demostramos que el olvido se manifiesta de forma diferente en cada capa de la red y proponemos un método híbrido donde la destilación se utiliza para el extractor de características y la rememoración en el clasificador mediante generación de características. Nuestro método soluciona la limitación de la rememoración mediante generación de imágenes y la destilación de probabilidades (como la utilizada en elmétodo Aprendizaje Sin Olvido), y puede añadir de forma natural nuevas tareas en un único clasificador bien calibrado. Los experimentos confirman que el método propuesto sobrepasa las métricas de referencia y parte del estado del arte.
Deep convolutional neural networks (CNNs) have achieved superior performance in many visual recognition application, such as image classification, detection and segmentation. In this thesis we address two limitations of CNNs. Training deep CNNs requires huge amounts of labeled data, which is expensive and labor intensive to collect. Another limitation is that training CNNs in a continual learning setting is still an open research question. Catastrophic forgetting is very likely when adapting trainedmodels to new environments or new tasks. Therefore, in this thesis, we aim to improve CNNs for applications with limited data and to adapt CNNs continually to new tasks. Self-supervised learning leverages unlabelled data by introducing an auxiliary task for which data is abundantly available. In the first part of the thesis, we show how rankings can be used as a proxy self-supervised task for regression problems. Then we propose an efficient backpropagation technique for Siamese networks which prevents the redundant computation introduced by the multi-branch network architecture. In addition, we show that measuring network uncertainty on the self-supervised proxy task is a good measure of informativeness of unlabeled data. This can be used to drive an algorithm for active learning. We then apply our framework on two regression problems: Image Quality Assessment (IQA) and Crowd Counting. For both, we show how to automatically generate ranked image sets from unlabeled data. Our results show that networks trained to regress to the ground truth targets for labeled data and to simultaneously learn to rank unlabeled data obtain significantly better, state-of-the-art results. We further show that active learning using rankings can reduce labeling effort by up to 50% for both IQA and crowd counting. In the second part of the thesis, we propose two approaches to avoiding catastrophic forgetting in sequential task learning scenarios. The first approach is derived from ElasticWeight Consolidation, which uses a diagonal Fisher InformationMatrix (FIM) tomeasure the importance of the parameters of the network. However the diagonal assumption is unrealistic. Therefore, we approximately diagonalize the FIM using a set of factorized rotation parameters. This leads to significantly better performance on continual learning of sequential tasks. For the second approach, we show that forgetting manifests differently at different layers in the network and propose a hybrid approach where distillation is used in the feature extractor and replay in the classifier via feature generation. Our method addresses the limitations of generative image replay and probability distillation (i.e. learning without forgetting) and can naturally aggregate new tasks in a single, well-calibrated classifier. Experiments confirmthat our proposed approach outperforms the baselines and some start-of-the-art methods.
Los estilos APA, Harvard, Vancouver, ISO, etc.
23

Goday, Lucas Elena. "Reconocimiento y dignificación de las víctimas del conflicto armado interno vivido en el Perú entre 1980-2000, a través de su representación visual en el libro fotográfico Yuyanapaq : para recordar : relato visual del conflicto armado interno 1980-2000 : análisis semiótico de dos fotografías". Bachelor's thesis, Pontificia Universidad Católica del Perú, 2011. http://tesis.pucp.edu.pe/repositorio/handle/123456789/1183.

Texto completo
Resumen
La presente investigación propone un acercamiento al carácter discursivo y comunicativo de la imagen fotográfica, a partir de un enfoque centrado en el valor de la fotografía como documento social en la promoción y consolidación de procesos de transformación social. En este sentido, nuestro objeto de estudio son dos de las fotografías en las que aparecen retratadas las víctimas del conflicto armado interno, que tuvo lugar en el Perú entre los años 1980-2000, publicadas en el libro fotográfico Yuyanapaq. Para recordar: Relato visual del conflicto armado interno 1980 - 2000, que formó parte del Proyecto Fotográfico de la Comisión de la Verdad y Reconciliación del Perú. El propósito central fue demostrar que las fotografías del libro Yuyanapaq. Para recordar son dispositivos comunicativos que, a través de su discurso visual, significan el reconocimiento social y dignificación de las víctimas del conflicto armado interno. De modo más preciso, nos propusimos identificar la estrategia discursiva de la CVR respecto a las víctimas del conflicto armado, utilizada en la elección de las fotografías que conforman el libro Yuyanapaq. Para recordar y determinar cómo se valora a los actores de las mismas. Para ello, se han utilizado los conceptos de la semiótica discursiva y visual, por ser la ciencia que cuenta con las herramientas necesarias para abordar la imagen fotográfica a partir del estudio de sus signos, su significación y los procesos de producción de sentido que se dan en la misma. En este sentido, la metodológica de análisis utilizada sirvió para descubrir la significación global del mensaje visual de las fotografías seleccionadas, así como reconocer el discurso visual presente en las mismas, a través del análisis semiótico de todos los elementos que la conforman. Entre las conclusiones podemos destacar que las fotografías analizadas son una fuente de conocimiento, de reparación moral y de reconocimiento social, así como herramientas idóneas para propiciar la reflexión. Además, hemos podido concluir que estas fotografías se caracterizan por conjugar plástica e icónicamente un mensaje de respeto y consideración a favor del reconocimiento y dignificación de las víctimas del conflicto armado interno.
Tesis
Los estilos APA, Harvard, Vancouver, ISO, etc.
24

Aznar, Casanova José Antonio. "El "continuum de eficacia en la recuperación": un marco integrador para el estudio de los comportamientos mnémicos. Modelo predictivo de la eficacia y contraste experimental en pruebas de reconocimiento verbal visual". Doctoral thesis, Universitat de Barcelona, 1989. http://hdl.handle.net/10803/2552.

Texto completo
Resumen
Este trabajo centra la atención en el reconocimiento verbal visual. Tiene como objetivo, mostrar las relaciones funcionales existentes entre las condiciones experimentales de reconocimiento, que provocan diversos comportamientos mnémicos, y determinados aspectos de la respuesta: velocidad, exactitud y eficacia.

La corriente del Procesamiento de información (en su enfoque neoconexionista, fundamentado en la metáfora del ordenador) ha utilizado habitualmente las pruebas de recuerdo libre, con claves de recuperación y reconocimiento, como un medio que permitía inferir una explicación del mecanismo del sistema de memoria humano. Dicho en términos cognitivistas, responder al problema de ¿qué estructuras, procesos y representaciones subyacen a la memoria? y ¿cómo éstas interactúan entre si?

En esta investigación, básicamente, pretendemos dar puesta a otras cuestiones complementarias: ¿qué factores de las pruebas mnémicas determinan las modificaciones de los procesos que subyacen a la memoria? y ¿a qué agrupamientos de procesos (estrategias) dan lugar. Es decir, se intenta buscar una explicación, en términos de procesamiento de información, sobre cómo interactúa la estructura formal de las pruebas de memoria con la estructura física y lógica de la memoria para dar lugar a comportamientos dirigidos por estrategias.

Partimos de un análisis de los comportamientos anémicos (recuerdo libre y con claves, reconstrucción y reconocimiento). Como consecuencia de éste, se ponen de manifiesta diferencias en las demandas de la tarea que inducen a distintas estrategias. Además, las condiciones de prueba de la memoria parecen ordenarse en un "continuum de recuperación", definida por la función inversa entre las variables "comprensión" y "extensión" categorial. De confirmarse dicho continuo, nos proporcionaría un marco integrador de los comportamientos mnémicos, que pueden generarse al manipular las condiciones de prueba.

Con objeto de verificar estas cuestiones, confeccionamos ocho pruebas de reconocimiento, que nos permitieran establecer comparaciones válidas en condiciones uniformes. Así, decidimos utilizar un paradigma experimental de búsqueda visual con elección múltiple forzada.

Estas situaciones de prueba (tratamientos) surgen de la combinación de tres factores dicotómicos: formato del ítem consigna, de los ítems de prueba (CG= configuración global o LC= lista de características) y nivel de procesamiento (grafémico o semántico).

De la combinación de los dos formatos (consigna y prueba) establecer dos tipos de tarea: analógica o de formatos isomórficos y categorial o de formatos heteromórficos. Y en estos tipos de tarea, cuatro direcciones de recuperación de información: CG->CG, LC->LC, CG->LC y LC->CG.

Para profundizar en los procesos que son postulados para estas condiciones de reconocimiento, seleccionamos una serie de variables que nos permiten manipular la complejidad de la tarea: nivel de integración-disociación, tamaño de la matriz de reconocimiento, tipa de ensayo (positivo, negativo), localización del ítem crítico, similitud, longitud de los ítems y familiaridad de las palabras.

También se pretende elaborar un modela predictivo de la eficacia alcanzada par los sujetos en estas tareas y contrastar otros modelos estructurales generados para cada Prueba.

El diseño de recogida de datos se ajusta a un factorial mixto, donde las variables de agrupamiento son el sexo y el orden de aplicación (contrabalanceo) indicador del entrenamiento en la tarea. Intervinieron 32 sujetos voluntarios, de 13-14 años y en igual proporción de sexo.

Los resultados se agrupan en dos bloques: análisis de variables (interpruebas e intrapruebas) y análisis del modelo (macromodelo y micromodelos). Éstos ponen de manifiesto el ajuste de las condiciones estudiadas al modelo, respecto a la variable "eficacia en los procesos de recuperación". Dicha variable, definida mediante el coste temporal (latencias) de cada acierto (exactitud) en una determinada prueba, posibilita una ordenación de los tratamientos. La pendiente de la recta nos indica la velocidad del procesamiento. Además, detectamos dos estrategias que los sujetos utilizan en estas tareas: globalista-contextual y analítico-semántica.

Estos datos apoyan la existencia de un sólo mecanismo de memoria y las diferencias interpruebas deben atribuirse, con mayor propiedad, al uso de tales estrategias deliberadas que a una dicotomía funcional entre los sistemas de memoria episódico y semántico.

Además de la importancia de variables situacionales y estimulares, también se evidenció la relevancia de las expectativas y entrenamiento en la tarea.
The objective of this work is to show the functional relations among same experimental conditions of recognition, that originate several mnemonics behaviour and certain aspects of the response (speed, exactness and efficacy).

The analysis of this behaviour manifests the following:

1) The factors that may generate them
2) Its arrangement in a continuum of efficacy in recuperation
3) The use of deliberate strategies
4) The adequacy of processes and representations to request of the task and nature of the stimulus.

In order to verify this hypothesis we carried out eight trials of recognition, formally equivalent and interrelated, that they have been applied to 32 students of 8th. E.G.B (age=13-14 years).
The results confirm the relevant facts, verify the "continuum", suggest two strategies (globalist-contextual and analytical-semantic) and inform of processes and representations.
Los estilos APA, Harvard, Vancouver, ISO, etc.
25

Hernández-Vela, Antonio. "From pixels to gestures: learning visual representations for human analysis in color and depth data sequences". Doctoral thesis, Universitat de Barcelona, 2015. http://hdl.handle.net/10803/292488.

Texto completo
Resumen
The visual analysis of humans from images is an important topic of interest due to its relevance to many computer vision applications like pedestrian detection, monitoring and surveillance, human-computer interaction, e-health or content-based image retrieval, among others. In this dissertation in learning different visual representations of the human body that are helpful for the visual analysis of humans in images and video sequences. To that end, we analyze both RCB and depth image modalities and address the problem from three different research lines, at different levels of abstraction; from pixels to gestures: human segmentation, human pose estimation and gesture recognition. First, we show how binary segmentation (object vs. background) of the human body in image sequences is helpful to remove all the background clutter present in the scene. The presented method, based on “Graph cuts” optimization, enforces spatio-temporal consistency of the produced segmentation masks among consecutive frames. Secondly, we present a framework for multi-label segmentation for obtaining much more detailed segmentation masks: instead of just obtaining a binary representation separating the human body from the background, finer segmentation masks can be obtained separating the different body parts. At a higher level of abstraction, we aim for a simpler yet descriptive representation of the human body. Human pose estimation methods usually rely on skeletal models of the human body, formed by segments (or rectangles) that represent the body limbs, appropriately connected following the kinematic constraints of the human body, In practice, such skeletal models must fulfill some constraints in order to allow for efficient inference, while actually Iimiting the expressiveness of the model. In order to cope with this, we introduce a top-down approach for predicting the position of the body parts in the model, using a mid-level part representation based on Poselets. Finally, we propose a framework for gesture recognition based on the bag of visual words framework. We leverage the benefits of RGB and depth image modalities by combining modality-specific visual vocabularies in a late fusion fashion. A new rotation-variant depth descriptor is presented, yielding better results than other state-of-the-art descriptors. Moreover, spatio-temporal pyramids are used to encode rough spatial and temporal structure. In addition, we present a probabilistic reformulation of Dynamic Time Warping for gesture segmentation in video sequences, A Gaussian-based probabilistic model of a gesture is learnt, implicitly encoding possible deformations in both spatial and time domains.
L’anàlisi visual de persones a partir d'imatges és un tema de recerca molt important, atesa la rellevància que té a una gran quantitat d'aplicacions dins la visió per computador, com per exemple: detecció de vianants, monitorització i vigilància,interacció persona-màquina, “e-salut” o sistemes de recuperació d’matges a partir de contingut, entre d'altres. En aquesta tesi volem aprendre diferents representacions visuals del cos humà, que siguin útils per a la anàlisi visual de persones en imatges i vídeos. Per a tal efecte, analitzem diferents modalitats d'imatge com són les imatges de color RGB i les imatges de profunditat, i adrecem el problema a diferents nivells d'abstracció, des dels píxels fins als gestos: segmentació de persones, estimació de la pose humana i reconeixement de gestos. Primer, mostrem com la segmentació binària (objecte vs. fons) del cos humà en seqüències d'imatges ajuda a eliminar soroll pertanyent al fons de l'escena en qüestió. El mètode presentat, basat en optimització “Graph cuts”, imposa consistència espai-temporal a Ies màscares de segmentació obtingudes en “frames” consecutius. En segon lloc, presentem un marc metodològic per a la segmentació multi-classe, amb la qual podem obtenir una descripció més detallada del cos humà, en comptes d'obtenir una simple representació binària separant el cos humà del fons, podem obtenir màscares de segmentació més detallades, separant i categoritzant les diferents parts del cos. A un nivell d'abstraccíó més alt, tenim com a objectiu obtenir representacions del cos humà més simples, tot i ésser suficientment descriptives. Els mètodes d'estimació de la pose humana sovint es basen en models esqueletals del cos humà, formats per segments (o rectangles) que representen les extremitats del cos, connectades unes amb altres seguint les restriccions cinemàtiques del cos humà. A la pràctica, aquests models esqueletals han de complir certes restriccions per tal de poder aplicar mètodes d'inferència que permeten trobar la solució òptima de forma eficient, però a la vegada aquestes restriccions suposen una gran limitació en l'expressivitat que aques.ts models son capaços de capturar. Per tal de fer front a aquest problema, proposem un enfoc “top-down” per a predir la posició de les parts del cos del model esqueletal, introduïnt una representació de parts de mig nivell basada en “Poselets”. Finalment. proposem un marc metodològic per al reconeixement de gestos, basat en els “bag of visual words”. Aprofitem els avantatges de les imatges RGB i les imatges; de profunditat combinant vocabularis visuals específiques per a cada modalitat, emprant late fusion. Proposem un nou descriptor per a imatges de profunditat invariant a rotació, que millora l'estat de l'art, i fem servir piràmides espai-temporals per capturar certa estructura espaial i temporal dels gestos. Addicionalment, presentem una reformulació probabilística del mètode “Dynamic Time Warping” per al reconeixement de gestos en seqüències d'imatges. Més específicament, modelem els gestos amb un model probabilistic gaussià que implícitament codifica possibles deformacions tant en el domini espaial com en el temporal.
Los estilos APA, Harvard, Vancouver, ISO, etc.
26

Sandoval, De Los Ríos Willy Andree. "Herramienta informática de locución automática como apoyo al proceso de aprendizaje basado en la lectoescritura en el área de comunicación de niños invidentes en un centro de educación básica especializada de la ciudad de Chiclayo". Bachelor's thesis, Universidad Católica Santo Toribio de Mogrovejo, 2020. http://hdl.handle.net/20.500.12423/2673.

Texto completo
Resumen
En la actualidad, el proceso de aprendizaje básico en niños con discapacidad visual del CEBE (Centro Educativo básico Especializado) “CERCILAM” resulta ser en la mayoría de ocasiones largo y tedioso, esto es causado por diversos motivos, pero la principal razón, es la falta de material de calidad brindado por el Ministerio de Educación. Como alternativa de solución se propone una herramienta de locución automática como apoyo al proceso de aprendizaje de la lectoescritura a niños con discapacidad visual. Esta herramienta está basada en comandos de voz, en el cual el sistema interpreta las palabras pronunciadas por el estudiante y ejecuta una determinada acción; pero también el sistema propone ejercicios para que el estudiante de respuesta de lo aprendido mediante voz. El software hace uso de tecnologías de comandos de voz y de conversión de voz a texto (Automatic Speech Recognition) y texto a voz (Text to Speech), esto se realizará mediante dos librerías libres, como son FreeTTs y JavaTalking, estas tecnologías actuaran en función de la metodología de la lectoescritura, para hacer una herramienta de aprendizaje adecuada al proceso educativo actual. La herramienta tecnológica propuesta tiene como objetivo apoyar al proceso educativo básico de los niños con discapacidad visual, específicamente al área de Comunicación, en la cual el estudiante desarrolla sus habilidades e interactúa con herramientas tecnológicas. De esta manera no solo se verán beneficiados los actores principales como son los niños invidentes sino también los docentes ya que es una herramienta de apoyo para ellos.
Los estilos APA, Harvard, Vancouver, ISO, etc.
27

Moscoso, Rios Yves Igor y Zanabria Henry Alcántara. "Propuesta para reducir reclamos en el abastecimiento de repuestos de productos de línea blanca". Bachelor's thesis, Universidad Ricardo Palma, 2015. http://cybertesis.urp.edu.pe/handle/urp/1303.

Texto completo
Resumen
La presente investigación consiste en Proponer una Solución para Reducir los Reclamos en el Abastecimiento de Repuestos de Productos de Línea Blanca. Para ello, se aplicó principalmente Métodos de Clasificación ABC, Diagramas de Análisis de Actividades, Distribución por Mezcla de Familias, Métodos de Pronósticos de la Demanda, entre otras herramientas de la Ingeniería Industrial. Finalmente, se concluyó que al mejorar la Productividad del “Picking” (Sacado) y del Embalaje, al mejorar la Identificación y Reconocimiento Visual de los Repuestos y de los Espacios y al realizar una mejor Planificación de la Demanda, un adecuado Control del Inventario, una mejor Planificación del Abastecimiento, se reducirán los Reclamos en el Abastecimiento de Repuestos de productos de línea blanca. The present research is to propose a solution to Reduce Claims in supply of spare parts Products Appliances. To do this, we will mainly apply ABC classification methods, diagrams Analysis Activities, Distribution mix of families Methods demand forecast and other tools of industrial engineering. Finally, it was concluded that by improving the productivity of the "Picking" (Taken) and packaging, improving the identification and Visual Recognition of parts and spaces and improving planning Demand with an adequate control of inventory and with a better supply planning, Claims will be reduced in the Supply of white goods´ spare parts.
Los estilos APA, Harvard, Vancouver, ISO, etc.
28

Bonaventura, Brugués Xavier. "Perceptual information-theoretic measures for viewpoint selection and object recognition". Doctoral thesis, Universitat de Girona, 2015. http://hdl.handle.net/10803/302540.

Texto completo
Resumen
Viewpoint selection has been an emerging area in computer graphics for some years, and it is now getting maturity with applications in fields such as scene navigation, volume visualization, object recognition, mesh simplification, and camera placement. But why is viewpoint selection important? For instance, automated viewpoint selection could play an important role when selecting a representative model by exploring a large 3D model database in as little time as possible. Such an application could show the model view that allows for ready recognition or understanding of the underlying 3D model. An ideal view should strive to capture the maximum information of the 3D model, such as its main characteristics, parts, functionalities, etc. The quality of this view could affect the number of models that the artist can explore in a certain period of time. In this thesis, we present an information-theoretic framework for viewpoint selection and object recognition. From a visibility channel between a set of viewpoints and the polygons of a 3D model we obtain several viewpoint quality measures from the respective decompositions of mutual information. We also review and compare in a common framework the most relevant viewpoint quality measures for polygonal models presented in the literature. From the information associated to the polygons of a model, we obtain several shading approaches to improve the object recognition and the shape perception. We also use this polygonal information to select the best views of a 3D model and to explore it. We use these polygonal information measures to enhance the visualization of a 3D terrain model generated from textured geometry coming from real data. Finally, we analyze the application of the viewpoint quality measures presented in this thesis to compute the shape similarity between 3D polygonal models. The information of the set of viewpoints is seen as a shape descriptor of the model. Then, given two models, their similarity is obtained by performing a registration process between the corresponding set of viewpoints
La selecció de punts de vista ha estat una àrea emergent en la computació gràfica des de fa alguns anys i ara està aconseguint la maduresa amb aplicacions en camps com la navegació d’una escena, la visualització de volums, el reconeixement d’objectes, la simplificació d’una malla i la col·locació de la càmera. Però per què és important la selecció del punt de vista? Per exemple, la automatització de la selecció de punts de vista podria tenir un paper important a l’hora de seleccionar un model representatiu mitjançant l’exploració d’una gran base de dades de models 3D en el menor temps possible. Aquesta aplicació podria mostrar la vista del model que permet el millor reconeixement o comprensió del model 3D. Un punt de vista ideal ha de captar la màxima informació del model 3D, com per exemple les seves principals característiques, parts, funcionalitats, etc. La qualitat d’aquest punt de vista pot afectar el nombre de models que l’artista pot explorar en un determinat període de temps. En aquesta tesi, es presenta un marc de teoria de la informació per a la selecció de punts de vista i el reconeixement d’objectes. Obtenim diverses mesures de qualitat de punt de vista a través de la descomposició de la informació mútua d’un canal de visibilitat entre un conjunt de punts de vista i els polígons d’un model 3D. També revisem i comparem en un marc comú les mesures més rellevants que s’han presentat a la literatura sobre la qualitat d’un punt de vista d’un model poligonal. A partir de la informació associada als polígons d’un model, obtenim diversos tipus de renderitzat per millorar el reconeixement d’objectes i la percepció de la forma. Utilitzem aquesta informació poligonal per seleccionar les millors vistes d’un model 3D i per la seva exploració. També usem aquestes mesures d’informació poligonal per millorar la visualització d’un model de terreny 3D amb textures generat a partir de dades reals. Finalment, s’analitza l’aplicació de les mesures de qualitat de punt de vista presentades en aquesta tesi per calcular la similitud entre dos models poligonals. La informació del conjunt de punts de vista és vista com un descriptor del model. Llavors, donats dos models poligonals, la seva similitud s’obté mitjançant la realització d’un procés de registre entre els conjunts de punts de vista corresponents
Los estilos APA, Harvard, Vancouver, ISO, etc.
29

Albert, Gil Francisco Eugenio. "Análisis de motivos decorativos de tejidos y revestimientos cerámicos en el entorno de la visión artificial. Aplicación a la reconstrucción de motivos históricos y al diseño". Doctoral thesis, Universitat Politècnica de València, 2008. http://hdl.handle.net/10251/1936.

Texto completo
Resumen
El objetivo de esta tesis es la contribución a la creación, e implementación en herramientas informáticas, de una metodología aplicable para el análisis y edición de imágenes procedentes del campo de los diseños cerámicos y textiles, y por extensión, de todas aquellas imágenes que siguen un patrón repetitivo y que, por tanto, se ajustan a la Teoría de Grupos de Simetría. Para ello, se ha definido una metodología de análisis dividida en etapas, en la que se va aumentando gradualmente el nivel de la información manejada, desde los píxeles de la imagen inicial, pasando por los objetos (formas o unidades básicas perceptúales) y los motivos (agrupaciones de objetos realizadas con criterios perceptúales) hasta llegar a la estructura del patrón, es decir, las distintas transformaciones geométricas que relacionan los elementos (objetos y motivos) que lo forman. La información estructural obtenida es utilizada con fines diversos: la clasificación de las imágenes según el Grupo de Simetría del Plano del patrón, la reconstrucción de las imágenes aprovechando el conocimiento de qué partes están relacionadas por la estructura, y por último, la edición de patrones, tanto a nivel de formas y motivos, como de estructura, permitiendo realizar cambios estructurales con facilidad, con lo que se generan familias de patrones a partir de uno analizado. Las herramientas desarrolladas han sido probadas con un amplio conjunto de imágenes de patrones de procedencias muy diversas, destacando el estudio de los alicatados de la Alhambra de Granada y del Alcázar de Sevilla, así como de textiles y, ampliando los objetivos iniciales, a diversos elementos del entorno urbano.
Albert Gil, FE. (2006). Análisis de motivos decorativos de tejidos y revestimientos cerámicos en el entorno de la visión artificial. Aplicación a la reconstrucción de motivos históricos y al diseño [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/1936
Palancia
Los estilos APA, Harvard, Vancouver, ISO, etc.
30

Cucchetti, Fabiana y María Victoria Laborde. "Reconocimiento óptico de música impresa en un entorno visual". Tesis, 2002. http://hdl.handle.net/10915/3888.

Texto completo
Los estilos APA, Harvard, Vancouver, ISO, etc.
31

Vásquez, Vargas Carla. "Rostros extraviados : en la búsqueda de una experiencia visual de reconocimiento y reacción sobre el extravío de personas en Chile". Tesis, 2017. http://repositorio.uchile.cl/handle/2250/152122.

Texto completo
Resumen
Memoria para optar al título de Diseñadora Gráfica
El presente proyecto tiene como principal objetivo el generar una concientización respecto al extravío de personas en Chile. Por medio de una serie de experimentaciones visuales y la inclusión de un dispositivo interactivo, se busca crear una experiencia que integre el diseño y la tecnología con los recursos de investigación que poseen actualmente las Instituciones nacionales. Dentro del proceso fue fundamental, en primer lugar, formar de una base de datos e imágenes que pudiera aportar información sobre las personas extraviadas ¿Cuántas se pierden?, ¿Donde se pierden? y ¿Por qué?. En segundo lugar, fue necesario adoptar una metodología que permitiera filtrar y pasar de toda esa información a una visualización para finalmente, llegar al desarrollo de la experiencia, a través de la construcción de un primer prototipo y la creación de un registro visual que recoge todas las reflexiones y reacciones de quienes participaron.
Los estilos APA, Harvard, Vancouver, ISO, etc.
32

Maina, Hernán Javier. "Visión artificial para el reconocimiento automático, en tiempo real, de líneas urbanas de autobuses". Bachelor's thesis, 2019. http://hdl.handle.net/11086/15560.

Texto completo
Resumen
Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2019.
En el presente trabajo, se aborda el problema de la detección y el reconocimiento de números de líneas de autobuses del transporte público de pasajeros de la ciudad de Córdoba, empleando imágenes obtenidas mediante dispositivos móviles estándar. El objetivo del mismo es la exploración de técnicas de visión por computadoras y análisis de imágenes, para la generación de herramientas que permitan asistir a personas con algún tipo de impedimento visual. A tal fin, se presenta y evalúa una arquitectura modular basada en detectores de objetos y reconocimiento óptico de caracteres, especialmente adaptada a las particularidades del problema.
In the present work, the problem of the detection and the recognition of bus line numbers of public transport in the city of Córdoba is addressed, using images obtained by standard mobile devices. The goal of this project is the exploration of computer vision techniques and the analysis of images, for the generation of tools that allows people with some type of visual impairments to be assisted. To achieve this, a modular architecture based on object detectors and optical character recognizers is presented and evaluated, especially adapted to the particularities of the problem.
Fil: Maina, Hernán Javier. Universidad Nacional de Córdoba. Facultad de Matemática, Astronomía, Física y Computación; Argentina.
Los estilos APA, Harvard, Vancouver, ISO, etc.
Ofrecemos descuentos en todos los planes premium para autores cuyas obras están incluidas en selecciones literarias temáticas. ¡Contáctenos para obtener un código promocional único!

Pasar a la bibliografía