Dissertations / Theses on the topic 'Keypoints detection'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 38 dissertations / theses for your research on the topic 'Keypoints detection.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Gale, Timothy Edward. "Improved detection and quantisation of keypoints in the complex wavelet domain." Thesis, University of Cambridge, 2018. https://www.repository.cam.ac.uk/handle/1810/277713.
Full textAvigni, Andrea. "Learning to detect good image features." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2017. http://amslaurea.unibo.it/12856/.
Full textHansen, Peter Ian. "Wide-baseline keypoint detection and matching with wide-angle images for vision based localisation." Thesis, Queensland University of Technology, 2010. https://eprints.qut.edu.au/37667/1/Peter_Hansen_Thesis.pdf.
Full textFefilatyev, Sergiy. "Algorithms for Visual Maritime Surveillance with Rapidly Moving Camera." Scholar Commons, 2012. http://scholarcommons.usf.edu/etd/4037.
Full textCaha, Miloš. "Určení směru pohledu." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2010. http://www.nusl.cz/ntk/nusl-237168.
Full textKapoor, Prince. "Shoulder Keypoint-Detection from Object Detection." Thesis, Université d'Ottawa / University of Ottawa, 2018. http://hdl.handle.net/10393/38015.
Full textLoiseau-Witon, Nicolas. "Détection et description de points clés par apprentissage." Electronic Thesis or Diss., Lyon, INSA, 2023. http://www.theses.fr/2023ISAL0101.
Full textHospitals are increasingly generating 3D medical images that require automatic registration for systematic and large-scale analysis. Key points are used to reduce the time and memory required for this registration, and can be detected and described using various classical methods, as well as neural networks, as demonstrated numerous times in 2D. This thesis presents results and discussions on methods for detecting and describing key points using 3D neural networks. Two types of networks were studied to detect and/or describe characteristic points in 3D medical images. The first networks studied describe the areas directly surrounding key points, while the second type performs both detection and description of key points in a single step
Zhao, Mingchang. "Keypoint-Based Binocular Distance Measurement for Pedestrian Detection System on Vehicle." Thesis, Université d'Ottawa / University of Ottawa, 2014. http://hdl.handle.net/10393/31693.
Full textEklund, Anton. "Cascade Mask R-CNN and Keypoint Detection used in Floorplan Parsing." Thesis, Uppsala universitet, Institutionen för informationsteknologi, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-415371.
Full textKemp, Neal. "Content-Based Image Retrieval for Tattoos: An Analysis and Comparison of Keypoint Detection Algorithms." Scholarship @ Claremont, 2013. http://scholarship.claremont.edu/cmc_theses/784.
Full textMAZZINI, DAVIDE. "Local Detectors and Descriptors for Object and Scene Recognition." Doctoral thesis, Università degli Studi di Milano-Bicocca, 2018. http://hdl.handle.net/10281/199003.
Full textThe aim of this thesis is to study two main categories of algorithms for object detection and their use in particular applications. The first category that is investigated concerns Keypoint-based approaches. Several comparative experiments are performed within the standard testing pipeline of the MPEG CDVS Test Model and an extended pipeline which make use of color information is proposed. The second category of object detectors that is investigated is based on Convolutional Neural Networks. Two applications of Convolutional Neural Networks for object recognition are in particular addressed. The first concerns logo recognition. Two classification pipelines are designed and tested on a real-world dataset of images collected from Flickr. The first architecture makes use of a pre-trained network as feature extractor and it achieves comparable results keypoint based approaches. The second architecture makes use of a tiny end-to-end trained Neural Network that outperformed state-of-the-art keypoint based methods. The other application addressed is Painting Categorization. It consists in associating the author, assigning a painting to the school or art movement it belongs to, and categorizing the genre of the painting, e.g. landscape, portrait, illustration etc. To tackle this problem, a novel multibranch and multitask Neural Network structure is proposed which benefit from joint use of keypoint-based approaches and neural features. In both applications the use of data augmentation techniques to enlarge the training set is also investigated. In particular for paintings, a neural style transfer algorithm is exploited for generating synthetic paintings to be used in training.
Bendale, Pashmina Ziparu. "Development and evaluation of a multiscale keypoint detector based on complex wavelets." Thesis, University of Cambridge, 2011. https://www.repository.cam.ac.uk/handle/1810/252226.
Full textBuck, Robert. "Cluster-Based Salient Object Detection Using K-Means Merging and Keypoint Separation with Rectangular Centers." DigitalCommons@USU, 2016. https://digitalcommons.usu.edu/etd/4631.
Full textŠimetka, Vojtěch. "3D Rekonstrukce historických míst z obrázků na Flickru." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2015. http://www.nusl.cz/ntk/nusl-234976.
Full textUrban, Daniel. "Lokalizace mobilního robota v prostředí." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2018. http://www.nusl.cz/ntk/nusl-385923.
Full textRicci, Thomas. "Individuazione di punti salienti in dati 3D mediante rappresentazioni strutturate." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2012. http://amslaurea.unibo.it/3968/.
Full textGardenier, John Hille. "How Now Lame Cow: Automatic Lameness Assessment for Dairy Cattle with 3D Sensors." Thesis, University of Sydney, 2020. https://hdl.handle.net/2123/23218.
Full textBartončík, Michal. "Rozpoznávání výrazu tváře u neznámých osob." Master's thesis, Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií, 2011. http://www.nusl.cz/ntk/nusl-219322.
Full textMadrigali, Andrea. "Analysis of Local Search Methods for 3D Data." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2016.
Find full textBrue, Fabio. "Schemi di soluzione numerica dell'equazione delle onde per l'individuazione di punti salienti in immagini." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2014. http://amslaurea.unibo.it/6787/.
Full textLabudová, Kristýna. "Rozpoznávání obrazů pro ovládání robotické ruky." Master's thesis, Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií, 2017. http://www.nusl.cz/ntk/nusl-316835.
Full textJelínek, Ondřej. "Podobnost obrazů na základě bodů zájmu." Master's thesis, Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií, 2015. http://www.nusl.cz/ntk/nusl-220409.
Full textHashimoto, Marcelo. "Detecção de objetos por reconhecimento de grafos-chave." Universidade de São Paulo, 2012. http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22012014-080625/.
Full textObject detection is a classic problem in computer vision, present in applications such as automated surveillance, medical image analysis and information retrieval. Among the existing approaches in the literature to solve this problem, we can highlight methods based on keypoint recognition that can be interpreted as different implementations of a same framework. The objective of this PhD thesis is to develop and evaluate a generalized version of this framework, on which keypoint recognition is replaced by keygraph recognition. The potential of the research resides in the information richness that a graph can present before and after being recognized. The difficulty of the research resides in the problems that can be caused by this richness, such as curse of dimensionality and computational complexity. Three contributions are included in the thesis: the detailed description of a keygraph-based framework for object detection, faithful implementations that demonstrate its feasibility and experimental results that demonstrate its performance.
Runeskog, Henrik. "Continuous Balance Evaluation by Image Analysis of Live Video : Fall Prevention Through Pose Estimation." Thesis, KTH, Skolan för kemi, bioteknologi och hälsa (CBH), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-297541.
Full textDjupinlärningstekniken Kroppshållningsestimation är ett lovande medel gällande att följa en person och identifiera dess kroppshållning. Eftersom kroppshållning och balans är två närliggande koncept, kan användning av kroppshållningsestimation appliceras till fallprevention. Genom att härleda läget för en persons tyngdpunkt och därefter läget för dess tryckcentrum, kan utvärdering en persons balans genomföras utan att använda kraftplattor eller sensorer och att enbart använda kameror. I denna studie har en kroppshållningsestimationmodell tillsammans med en fördefinierad kroppsviktfördelning använts för att extrahera läget för en persons tryckcentrum i realtid. Den föreslagna metoden använder två olika metoder för att utvinna djupseende av bilderna från kameror - stereoskopi genom användning av två RGB-kameror eller genom användning av en RGB-djupseende kamera. Det estimerade läget av tryckcentrat jämfördes med läget av samma parameter utvunnet genom användning av tryckplattan Wii Balance Board. Eftersom den föreslagna metoden var ämnad att fungera i realtid och utan hjälp av en GPU, blev valet av kroppshållningsestimationsmodellen inriktat på att maximera mjukvaruhastighet. Därför användes tre olika modeller - en mindre och snabbare modell vid namn Lightweight Pose Network, en större och mer träffsäker modell vid namn High-Resolution Network och en model som placerar sig någonstans mitt emellan de två andra modellerna gällande snabbhet och träffsäkerhet vid namn Pose Resolution Network. Den föreslagna metoden visade lovande resultat för utvinning av balansparametrar i realtid, fastän den största felfaktorn visade sig vara djupseendetekniken. Resultaten visade att användning av en mindre och snabbare kroppshållningsestimationsmodellen påvisar att hålla måttet i jämförelse med större och mer träffsäkra modeller vid användning i realtid och utan användning av externa dataprocessorer.
Pedreira, Carabel Carlos Javier. "Terrain Mapping for Autonomous Vehicles." Thesis, KTH, Datorseende och robotik, CVAP, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-174132.
Full textAutonoma fordon har blivit spetsen för bilindustrin i dag i sökandet efter säkrare och effektivare transportsystem. En av de viktigaste sakerna för varje autonomt fordon består i att vara medveten om sin position och närvaron av hinder längs vägen. Det aktuella projektet behandlar position och riktning samt terrängkartläggningsproblemet genom att integrera en visuell distansmätnings och kartläggningsmetod. RGB-D kameran Kinect v2 från Microsoft valdes som sensor för att samla in information från omgivningen. Den var ansluten till en Intel mini PC för realtidsbehandling. Båda komponenterna monterades på ett fyrhjuligt forskningskonceptfordon (RCV) för att testa genomförbarheten av den nuvarande lösningen i utomhusmiljöer. Robotoperativsystemet (ROS) användes som utvecklingsmiljö med C++ som programmeringsspråk. Den visuella distansmätningsstrategin bestod i en bildregistrerings-algoritm som kallas Adaptive Iterative Closest Keypoint (AICK) baserat på Iterative Closest Point (ICP) med hjälp av Oriented FAST och Rotated BRIEF (ORB) som nyckelpunktsutvinning från bilder. En rutnätsbaserad lokalkostnadskarta av rullande-fönster-typ implementerades för att få en tvådimensionell representation av de hinder som befinner sig nära fordonet inom ett fördefinierat område, i syfte att möjliggöra ytterligare applikationer för körvägen. Experiment utfördes både offline och i realtid för att testa systemet i inomhus- och utomhusscenarier. Resultaten bekräftade möjligheten att använda den utvecklade metoden för att spåra position och riktning av kameran samt upptäcka föremål i inomhusmiljöer. Men utomhus visades begränsningar i RGB-D-sensorn som gör att den aktuella systemkonfigurationen är värdelös för utomhusbruk.
Rocha, Beatriz Gonçalves. "Automated Detection of Bone structure keypoints on Magnetic Resonance imaging - Sternum and Clavicles." Master's thesis, 2018. https://repositorio-aberto.up.pt/handle/10216/116477.
Full textRocha, Beatriz Gonçalves. "Automated Detection of Bone structure keypoints on Magnetic Resonance imaging - Sternum and Clavicles." Dissertação, 2018. https://repositorio-aberto.up.pt/handle/10216/116477.
Full textMokhtari, Djamila. "Détection des chutes par calcul homographique." Thèse, 2012. http://hdl.handle.net/1866/8869.
Full textThe main objective of video surveillance is to protect persons and property by detecting any abnormal behavior. This is not possible without detecting motion in the image. This process is often based on the concept of subtraction of the scene background. However in video tracking, the cameras are themselves often in motion, causing a significant change of the background. So, background subtraction techniques become problematic. We propose in this work a motion detection approach, with the example application of fall detection. This approach is free of background subtraction for a rotating surveillance camera. The method uses the camera rotation to detect motion by using homographic calculation. Our results on synthetic and real video sequences demonstrate the feasibility of this approach.
Liu, Wen-Pin, and 劉文彬. "A face recognition system based on keypoint exclusion and dual keypoint detection." Thesis, 2014. http://ndltd.ncl.edu.tw/handle/02572728630414645978.
Full text銘傳大學
電腦與通訊工程學系碩士班
103
This thesis presents a face recognition system based on keypoint exclusion and dual keypoiont detection. There are three major problems with conventional SIFT (Scale Invariant Feature Transform). (1) It uses single type keypoint detector. For images of small size the number of detected keypoints may be too small and this causes difficulties on image matching. (2) Each keypoint of the test image is matched independently against all keypoints of the training images. This is very time consuming. (3) Only similarities between descriptors are compared and this may still causes some false matches. To increase the number of keypoints, SIFT and FAST (Features from accelerated segment test) keypoints are combined for face image matching. Since there is no corresponding descriptor for FAST detector, the LOG (Laplace of Gaussian) function with Automatic Scale Selection is applied on each FAST keypoint to find proper scales and corresponding SIFT descriptors. On the other hand, based on the similarities between locations of features on human faces, three keypoint exclusion methods (relative location, orientation, and scale) are proposed to eliminate impossible keypoints for further descriptor matching. In this way, the number of false matches can be reduced and hence higher recognition rates can be obtained. On the other hand, matching time can also be reduced. The proposed algorithms are evaluated with the ORL and the Yale face databases. Each database pick 10 person, every person get 10 image. Our proposed method shows significantly improvements on recognition rates over conventional methods.
Filipe, Sílvio Brás. "Biologically motivated keypoint detection for RGB-D data." Doctoral thesis, 2016. http://hdl.handle.net/10400.6/4387.
Full textCom o interesse emergente na visão ativa, os investigadores de visão computacional têm estado cada vez mais preocupados com os mecanismos de atenção. Por isso, uma série de modelos computacionais de atenção visual, inspirado no sistema visual humano, têm sido desenvolvidos. Esses modelos têm como objetivo detetar regiões de interesse nas imagens. Esta tese está focada na atenção visual seletiva, que fornece um mecanismo para que o cérebro concentre os recursos computacionais num objeto de cada vez, guiado pelas propriedades de baixo nível da imagem (atenção Bottom-Up). A tarefa de reconhecimento de objetos em diferentes locais é conseguida através da concentração em diferentes locais, um de cada vez. Dados os requisitos computacionais dos modelos propostos, a investigação nesta área tem sido principalmente de interesse teórico. Mais recentemente, psicólogos, neurobiólogos e engenheiros desenvolveram cooperações e isso resultou em benefícios consideráveis. No início deste trabalho, o objetivo é reunir os conceitos e ideias a partir dessas diferentes áreas de investigação. Desta forma, é fornecido o estudo sobre a investigação da biologia do sistema visual humano e uma discussão sobre o conhecimento interdisciplinar da matéria, bem como um estado de arte dos modelos computacionais de atenção visual (bottom-up). Normalmente, a atenção visual é denominada pelos engenheiros como saliência, se as pessoas fixam o olhar numa determinada região da imagem é porque esta região é saliente. Neste trabalho de investigação, os métodos saliência são apresentados em função da sua classificação (biologicamente plausível, computacional ou híbrido) e numa ordem cronológica. Algumas estruturas salientes podem ser usadas, em vez do objeto todo, em aplicações tais como registo de objetos, recuperação ou simplificação de dados. É possível considerar estas poucas estruturas salientes como pontos-chave, com o objetivo de executar o reconhecimento de objetos. De um modo geral, os algoritmos de reconhecimento de objetos utilizam um grande número de descritores extraídos num denso conjunto de pontos. Com isso, estes têm um custo computacional muito elevado, impedindo que o processamento seja realizado em tempo real. A fim de evitar o problema da complexidade computacional requerido, as características devem ser extraídas a partir de um pequeno conjunto de pontos, geralmente chamados pontoschave. O uso de detetores de pontos-chave permite a redução do tempo de processamento e a quantidade de redundância dos dados. Os descritores locais extraídos a partir das imagens têm sido amplamente reportados na literatura de visão por computador. Uma vez que existe um grande conjunto de detetores de pontos-chave, sugere a necessidade de uma avaliação comparativa entre eles. Desta forma, propomos a fazer uma descrição dos detetores de pontos-chave 2D e 3D, dos descritores 3D e uma avaliação dos detetores de pontos-chave 3D existentes numa biblioteca de pública disponível e com objetos 3D reais. A invariância dos detetores de pontoschave 3D foi avaliada de acordo com variações nas rotações, mudanças de escala e translações. Essa avaliação retrata a robustez de um determinado detetor no que diz respeito às mudanças de ponto-de-vista e os critérios utilizados são as taxas de repetibilidade absoluta e relativa. Nas experiências realizadas, o método que apresentou melhor taxa de repetibilidade foi o método ISS3D. Com a análise do sistema visual humano e dos detetores de mapas de saliência com inspiração biológica, surgiu a ideia de se fazer uma extensão para um detetor de ponto-chave com base na informação de cor na retina. A proposta produziu um detetor de ponto-chave 2D inspirado pelo comportamento do sistema visual. O nosso método é uma extensão com base na cor do detetor de ponto-chave BIMP, onde se incluem os canais de cor e de intensidade de uma imagem. A informação de cor é incluída de forma biológica plausível e as características multi-escala da imagem são combinadas num único mapas de pontos-chave. Este detetor é comparado com os detetores de estado-da-arte e é particularmente adequado para tarefas como o reconhecimento de categorias e de objetos. O processo de reconhecimento é realizado comparando os descritores 3D extraídos nos locais indicados pelos pontos-chave. Para isso, as localizações do pontos-chave 2D têm de ser convertido para o espaço 3D. Isto foi possível porque o conjunto de dados usado contém a localização de cada ponto de no espaço 2D e 3D. A avaliação permitiu-nos obter o melhor par detetor de ponto-chave/descritor num RGB-D object dataset. Usando o nosso detetor de ponto-chave e o descritor SHOTCOLOR, obtemos uma noa taxa de reconhecimento de categorias e para o reconhecimento de objetos é com o descritor PFHRGB que obtemos os melhores resultados. Um sistema de reconhecimento 3D envolve a escolha de detetor de ponto-chave e descritor, por isso é apresentado um novo método para a deteção de pontos-chave em nuvens de pontos 3D e uma análise comparativa é realizada entre cada par de detetor de ponto-chave 3D e descritor 3D para avaliar o desempenho no reconhecimento de categorias e de objetos. Estas avaliações são feitas numa base de dados pública de objetos 3D reais. O nosso detetor de ponto-chave é inspirado no comportamento e na arquitetura neural do sistema visual dos primatas. Os pontos-chave 3D são extraídas com base num mapa de saliências 3D bottom-up, ou seja, um mapa que codifica a saliência dos objetos no ambiente visual. O mapa de saliência é determinada pelo cálculo dos mapas de conspicuidade (uma combinação entre diferentes modalidades) da orientação, intensidade e informações de cor de forma bottom-up e puramente orientada para o estímulo. Estes três mapas de conspicuidade são fundidos num mapa de saliência 3D e, finalmente, o foco de atenção (ou "localização do ponto-chave") está sequencialmente direcionado para os pontos mais salientes deste mapa. Inibir este local permite que o sistema automaticamente orientado para próximo local mais saliente. As principais conclusões são: com um número médio similar de pontos-chave, o nosso detetor de ponto-chave 3D supera os outros oito detetores de pontos-chave 3D avaliados, obtendo o melhor resultado em 32 das métricas avaliadas nas experiências do reconhecimento das categorias e dos objetos, quando o segundo melhor detetor obteve apenas o melhor resultado em 8 dessas métricas. A única desvantagem é o tempo computacional, uma vez que BIK-BUS é mais lento do que os outros detetores. Dado que existem grandes diferenças em termos de desempenho no reconhecimento, de tamanho e de tempo, a seleção do detetor de ponto-chave e descritor tem de ser interligada com a tarefa desejada e nós damos algumas orientações para facilitar esta escolha neste trabalho de investigação. Depois de propor um detetor de ponto-chave 3D, a investigação incidiu sobre um método robusto de deteção e tracking de objetos 3D usando as informações dos pontos-chave num filtro de partículas. Este método consiste em três etapas distintas: Segmentação, Inicialização do Tracking e Tracking. A segmentação é feita de modo a remover toda a informação de fundo, a fim de reduzir o número de pontos para processamento futuro. Na inicialização, usamos um detetor de ponto-chave com inspiração biológica. A informação do objeto que queremos seguir é dada pelos pontos-chave extraídos. O filtro de partículas faz o acompanhamento dos pontoschave, de modo a se poder prever onde os pontos-chave estarão no próximo frame. As experiências com método PFBIK-Tracking são feitas no interior, num ambiente de escritório/casa, onde se espera que robôs pessoais possam operar. Também avaliado quantitativamente este método utilizando um "Tracking Error". A avaliação passa pelo cálculo das centróides dos pontos-chave e das partículas. Comparando o nosso sistema com o método de tracking que existe na biblioteca usada no desenvolvimento, nós obtemos melhores resultados, com um número muito menor de pontos e custo computacional. O nosso método é mais rápido e mais robusto em termos de oclusão, quando comparado com o OpenniTracker.
Lourenço, António Miguel. "Techniques for keypoint detection and matching between endoscopic images." Master's thesis, 2009. http://hdl.handle.net/10316/11318.
Full textChen, Ting-Kai, and 陳定楷. "Laser-Based SLAM Using Segmenting Keypoint Detection and B-SHOT Feature." Thesis, 2018. http://ndltd.ncl.edu.tw/handle/53hp8q.
Full text國立臺灣大學
電機工程學研究所
106
Simultaneous localization and mapping is a basic and essential part of the autonomous driving research. Environment information gathered from sensors is computed and derives a consistent state of both self-driving car and the environment. Many types of sensor have been utilized in SLAM research, including camera and LiDAR. LiDAR can provide precise depth information, but suffers from the sparsity compared to camera images. Two main methods have been used in LiDAR-based SLAM: direct method and modeling after segmentation. Direct method first extracts interesting points, such as edge points or corner points, to reduce the point cloud size. ICP or Kalman-based filter are then applied to estimate the transformation from frame to frame. Although this method can be adopted in every scenario, the quality of estimation is hard to evaluate. Instead of directly using original point cloud, model-based method first segment point cloud into subsets, and then models each subset with a defined model. Finally, frame-to-frame transformation is estimated from models. However, the model-based method is prone to the environment which has less defined models. In this thesis, a feature-based SLAM algorithm, which is inspired from ORB-SLAM, is proposed on only LiDAR data. In the proposed algorithm, unnecessary points, such as ground points and occluded edge points, are removed by point cloud preprocessing module. Next, the keypoints are selected according to their segment ratio and encoded by B-SHOT feature descriptor. Frame-to-local-map transformation is then estimated based on the B-SHOT feature and refined by iterative closest point algorithm. The experimental results show that the estimated result of the proposed algorithm is consistent in the structural scenarios of ITRI dataset.
Syu, Jhih-Wei, and 許智維. "A Keypoint Detector Based on Local Contrast Intensity Images." Thesis, 2010. http://ndltd.ncl.edu.tw/handle/24007133216259018431.
Full text逢甲大學
通訊工程所
98
Corners, junctions, and terminals represent prominent local features in images. They are named keypoints. Keypoint detection is a vital step in many applications such as pattern recognition and image registration. The purpose of this thesis is to develop a keypoint detector based on local contrast intensity. Initially an input image is enhanced by a compressive mapping curve and then is transformed to a line-type image by computing absolute local contrast. Subsequently, the local contrast intensity image is applied to the multi-scale and multi-orientation Gaussian second-order derivative filters. The outputs of the filters are used to detect the high curvature points. False keypoints which occur at linear edges or in noisy texture areas are eliminated by an automatic threshold scheme. Finally, the performance of the proposed method was evaluated by both the receiver operating characteristic curve and the recall and precision curve. In addition, it was compared with other methods.
HUANG, YAN-CHENG, and 黃彥誠. "VLSI Implementation of LATCH Descriptor with ORB Keypoint Detector." Thesis, 2018. http://ndltd.ncl.edu.tw/handle/28btmr.
Full text國立高雄應用科技大學
電子工程系
106
Computer vision is an important part in today's machine learning. How to make the machine have the same human visual ability to automatically identify and analyze the content of the images is an important research topic, such as video surveillance, autonomous car navigation systems and intelligent robot. Feature extraction and classification are two main steps in object recognition. ORB is an algorithm used in computer vision to detect and describe images. It is rotation invariant and high speed. However, the accuracy is not good enough. LATCH is a good binary representation method and maintain a good and reliable identification rate. By combining ORB keypoint detector and LATCH descriptor, a novel feature extraction method and associated VLSI architecture is presented in this thesis. Using some approximated methods to replace the complex operations, we develop an efficient ORB-LATCH circuit. The pipelined hardware architecture for the proposed design is implemented by using Verilog and synthesized with SYNOPSYS Design Compiler in TSMC 0.13μm cell library. The circuit needs 206.6K gate counts, and achieves 100MHz. The throughputs are 50.76×106 pixels per second.
lin, wei-cheng, and 林威成. "Integrating keypoint detector and visual attention mechanism into one framework." Thesis, 2010. http://ndltd.ncl.edu.tw/handle/15257952582962715841.
Full text逢甲大學
電機與通訊工程所
98
Corners, intersections, and high curvature points represent prominent features in images. These features are named keypoints. The two contributions of this thesis are a new keypoint detector based on enhanced local contrast and a novel salient region detector using the scheme of the proposed keypoint detector. We compared the developed keypoint detector with other methods in terms of correspondences and matching percentages in pairs of images generated by different viewing angles or blurring conditions. The experimental results show the robustness of the proposed keypoint detector. The salient region detector operates on a low resolution image which is generated by successively down-sampling the original input image. The performance of the proposed salient region detector is comparable to that of human subjects.
YONG, LIM SOO, and 林詩詠. "Automatic Video Shot Boundary Detection Using a Hybrid Approach of HLFPN and Keypoint Matching." Thesis, 2015. http://ndltd.ncl.edu.tw/handle/59537649932771006642.
Full text國立臺北大學
資訊工程學系
103
Shot boundary detection (SBD) is an important and fundamental step in video content analysis such as content-based video indexing, browsing, and retrieval. In this paper, we present a hybrid SBD method by integrating a technique of high-level fuzzy Petri net (HLFPN) and keypoint matching. The HLFPN with histogram difference is executed as a pre-detection. Next, the speeded up robust features (SURF) algorithm that is reliably robust to image affine transformation and illumination variation is used to figure out the possible false shots and gradual transition based on the assumption from HLFPN. The top-down design can effectively lower down the computational complexity of SURF algorithm. The proposed algorithm has increased the precision of SBD and can be applied to different types of videos.
Lourenço, António Miguel Marques Rodrigues Teixeira. "Keypoint Detection, Matching, and Tracking in Images with Non-Linear Distortion: Applications in Medical Endoscopy and Panoramic Vision." Doctoral thesis, 2015. http://hdl.handle.net/10316/27055.
Full textPoint correspondences between different views are the input to many computer vision algorithms with a multitude of purposes that range from camera calibration to image content retrieval, and pass by structure-from-motion, registration, and mosaicking. Establishing such correspondences is particularly difficult, not only in the case of wide-baseline and/or strong change in viewpoint, but also when images present significant non-linear distortions. The thesis addresses this last problem and investigates solutions for detecting, matching, and tracking points in images acquired by cameras with unconventional optics such as fish-eye lenses, catadioptric sensors, or medical endoscopes. We start by studying the impact of radial distortion in keypoint detection and description using the well known SIFT algorithm. Such study leads to several modifications to the original method that substantially improve matching performance in images with wide field-of-view. Our work is conclusive in showing that non-linear distortion must be implicitly handled by a suitable design of filters and operators, as opposed to being explicitly corrected via image warping. The benefits of such approach are demonstrated in experiments of structure-from-motion, as well as in the development of a vision-system for indoor localization where perspective images are used to retrieve panoramic views acquired with a catadioptric camera. In a second line of research, we investigate solutions for feature tracking in continuous sequences acquired by cameras with radial distortion. We build on the top of the conventional frameworks for image region alignment and propose specific deformation models that simultaneously describe the effect of local image motion and global image distortion. It is shown for the first time that image distortion can be calibrated at each frame time instant by tracking a random set of salient points. The result is further explored to solve the problem of knowing the intrinsic calibration of cameras with motorised zoom at all times. This problem is particularly relevant in the context of medical endoscopy and the solution passes by combining off-line calibration with on-line tracking to update of the camera focal length. The effectiveness of our tracking and calibration approaches are validated in both medical and non-medical video sequences. The last contribution is a pipeline for visual odometry in stereo laparoscopy that relies in multi-model fitting for segmenting different rigid motions and implicitly discarding regions of non-rigid deformation. This is complemented by a temporal clustering scheme that enables to decide which parts of the scene should be used to estimate the camera motion in a reliable manner.
Correspondências de pontos entre imagens da mesma cena são o argumento de entrada para muitos algoritmos de visão por computador, como por exemplo calibração de câmaras, reconhecimento de imagens e recuperação de movimento e estrutura 3D da cena. O cálculo de correspondências é particularmente difícil, não só devido a deslocamentos de câmara e mudanças de ponto de vista, mas também devido à presença de deformação não-linear, como é o caso de distorção radial. Esta tese investiga o último problema e propõe soluções para deteção, correspondência e seguimento de pontos em imagens adquiridas com câmaras equipadas com ópticas não convencionais, como lentes olho-de-peixe, sensores catadióptricos e endoscópios/laparoscópios médicos. Esta tese começa por estudar o impacto da distorção radial na deteção e descrição de pontos de interesse do método SIFT. Este estudo leva a várias modificações ao método original que permitem melhorias substanciais no desempenho em imagens adquiridas com câmaras com largo campo de visão. É demonstrado que a distorção não-linear deve ser implicitamente compensada através da adaptação dos operadores de imagem em vez de rectificar as imagens para a remover. Os benefícios desta nova solução são validados com experiências de recuperação de movimento e através de um sistema de visão que usa uma base de dados de imagens catadióptricas georeferenciadas para reconhecimento de localizações dentro de edifícios. Numa segunda linha de investigação são estudadas soluções para seguimento de pontos de interesse em sequências contínuas de imagens com distorção radial. Usando como base o actual estado da arte para registo de imagens, são propostas soluções para descrever simultaneamente o efeito do movimento local e distorção global da imagem. É demonstrado pela primeira vez que a distorção radial na imagem pode ser calibrada em cada instante de tempo através do seguimento de pontos de interesse. Esta solução é ainda explorada para resolver o problema de calibração de câmaras com zoom motorizado. Este problema é particularmente relevante no contexto de endoscopia médica e a solução passa por combinar calibração offline com calibração online usando o seguimento de pontos para actualizar a distância focal da câmara. A eficácia dos algoritmos de seguimento e calibração é validada em sequências de vídeo médicas e não-médicas. A última contribuição desta tese é um método para odometria visual em laparoscopia éstereo que utiliza técnicas de estimação de mútiplos modelos para segmentar a cena em zonas rígidas e não-rígidas. De modo a complementar a segmentação inicial um esquema de clustering temporal é usado para decidir quais zonas da cena devem ser utilizadas para âncorar a estimação do movimento da câmara.
FCT- SFRH/BD/63118/2009
Melo, César Gonçalo Macedo. "Sistema EdgeAI para monitorização e notificação de diferentes graus de risco em contexto Covid19." Master's thesis, 2021. http://hdl.handle.net/1822/76550.
Full textAtualmente, a população atravessa uma situação epidemiológica e sanitária graves a uma escala mundial, provocada pela doença da Covid-19, originada pelo vírus SARS-CoV-2. Conhecida pela grande velocidade de progragação e facilidade de transmissão, tem conduzido a efeitos sociais, económicos e políticos devastadores em todo o mundo. A elevada taxa de pessoas assintomáticas à doença, isto é, que a têm presente no seu organismo, mas que não apresentam quaisquer sintomas, faz com que por vezes existam descuidos e atitudes inconscientes em relação ao cumprimento das regras impostas para o controlo da pandemia. Para minimizar as situações de risco e de possível exposição negligente ao vírus, existe a necessidade de desenvolver metodologias que permitem monitorizar o comportamento das pessoas em espaços públicos e superfícies comerciais. Desta forma, o objetivo desta dissertação passa pela aplicação de técnicas de Machine Learning (ML) capazes de identificar fatores e comportamentos de risco por parte das pessoas que possam proporcionar o aumento de contágios e propagação do vírus dentro da comunidade. Com recurso a algoritmos de Deep Learning (DL) integrados em um sistema de EdgeAI, pretende-se monitorizar a presença ou ausência de máscara por parte das pessoas em espaços onde a sua utilização é obrigatória, bem como executar de forma pontual medições de temperatura bastante precisas como meio de identificação de pessoas em possível estado febril. Esta dissertação pode ser dividida em três capítulos principais: Deteção de máscaras em ambiente urbano, Deteção de temperatura febril e Construção de Protótipo. No módulo Deteção de máscaras em ambiente urbano, são apresentadas as técnicas e recursos utilizados para a geração do dataset que serviu de base ao treino de algoritmos de DL para deteção de presença ou ausência de máscaras, bem como a implementação e avaliação dos algoritmos selecionados. Este dataset é constituído tanto por imagens Red Green Blue (RGB) reais, como também por imagens RGB sintéticas, de forma a aumentar a quantidade e variabilidade dos dados. No módulo Deteção de temperatura febril, são igualmente enunciadas as metodologias utilizadas na geração de um dataset para deteção dos pontos faciais onde a temperatura é medida com maior precisão, bem como estabelecido o comparativo entre os demais algoritmos utilizados. Neste caso, o dataset é constituído por imagens termográficas, a partir da agregação de datasets já existentes bem como de um dataset originado a partir da recolha de imagens no laboratório onde esta dissertação foi desenvolvida. Por último, no módulo Construção de Protótipo, são apresentadas as especificações tecnológicas e funcionais que constituem o protótipo construído no âmbito desta dissertação. O sistema final foi implementado na plataforma embebida NVIDIA Jetson Xavier NX, que detém a capacidade de aceleração da performance de algoritmos de Artificial Intelligence (AI). Neste sistema foi desenvolvida uma interface gráfica de uso fácil e interativo para o utilizador, onde estão presentes as diferentes inferências associadas à aplicação dos algoritmos desenvolvidos nos módulos anteriores, com base nas imagens recolhidas de câmaras de vigilância e uma câmara termográfica, onde será monitorizada a presença ou ausência de máscara e medição de temperatura, respetivamente. Para a componente RGB (deteção de máscaras) foi utilizado o modelo mais leve da versão cinco da arquitetura You Only Look Once (YOLO), onde foi atingida uma precisão média de 82.4% entre as classes a detetar e um tempo de inferência no sistema embebido de 0.032 segundos. Para a componente termográfica foi utilizada uma arquitetura que contém como a camada de extração de características a rede Resnet-50, e posteriores camadas de desconvolução responsáveis pela extração dos pontos faciais pretendidos, cuja precisão média foi de 78.7%.
Currently, the population is going through a serious epidemiological and health situation on a world scale, due to the Covid-19 disease, caused by the SARS-CoV-2 virus. Known for its huge speed of propagation and easy transmission, it has been responsable for a devastating social, economic and political consequences all over the world. The high rate of asymptomatic persons that has the disease, but do not feel any symptons, sometimes results in careless and unconscious behaviors related to the rules that were imposed to control the pandemic. To minimize the risk and possible negligent exposure to the virus, there is a need associated to the development of methodologies to control the people’s behavior in public spaces and commercial surfaces. Therefore, the main goal of this dissertation involves the application of ML techniques, capable of identify risky factors and behaviors from the people’s actions that can provide the increase of the number of infections and the spread of the virus in the community. Using DL algorithms integrated in an EdgeAI system, the main goals are the control of the presence or absence of mask by people in spaces where its use is mandatory, as well as to perform very accurate temperature measurements to identify people with high body temperature. This dissertation can be divided in three main chapters: Detection of masks in urban environments, Temperature measurements and Prototype Construction. In the detection of masks in urban environments module, is presented the techniques and resources used to generate the dataset that served as the base for the train of DL algorithms, as well as the implementation and evaluation of the selected algorithms. This dataset was made up with the use of real and synthetic RGB images, in order to increase the amount and variability of the data. In the temperature measurements module is shown the methodologies used to generate the dataset for the detection of the facial points where the measure of the temperature is made with more accuracy, and is presented the comparison between all the trained algorithms for this task. In this case, the dataset is formed by thermal images, based on the aggregation of existing datasets, and images collected in the laboratory where this dissertation was developed. Finally, in the prototype construction module, are shown the technological and functional specifications that form the prototype built under this dissertation. The final system was developed on the embedded platform called NVIDIA Jetson Xavier NX, which has the ability to accelerate the performance of AI algorithms. In this system was developed a graphical interface with easy interaction for the user, where the inferences from the different algorithms developed in the previous models are implemented, based on images collected from surveillance and thermal cameras, where are monitorized the tasks related to the presence or absence of mask and temperature measurement, respectively. For the RGB component, it was selected the lighter version of the YOLOv5 architecture, where was achieved an average accuracy of 82.4% between the associated classes, and a inference time of 0.032 seconds in the embedded system. For the thermal component, the used model contains the Resnet-50 network as backbone, responsable for the feature extraction task, and then are used deconvolution layers for the extraction of the desired facial points. This model achieved an average precision of 78,7%.