To see the other types of publications on this topic, follow the link: Multimodale Annotation.

Dissertations / Theses on the topic 'Multimodale Annotation'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 15 dissertations / theses for your research on the topic 'Multimodale Annotation.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Völkel, Thorsten. "Multimodale Annotation geographischer Daten zur personalisierten Fußgängernavigation." Doctoral thesis, Saechsische Landesbibliothek- Staats- und Universitaetsbibliothek Dresden, 2009. http://nbn-resolving.de/urn:nbn:de:bsz:14-ds-1239804877252-19609.

Full text
Abstract:
Mobilitätseingeschränkte Fußgänger, wie etwa Rollstuhlfahrer, blinde und sehbehinderte Menschen oder Senioren, stellen besondere Anforderungen an die Berechnung geeigneter Routen. Die kürzeste Route ist nicht immer die am besten geeignete. In dieser Arbeit wird das Verfahren der multimodalen Annotation entwickelt, welches die Erweiterung der geographischen Basisdaten durch die Benutzer selbst erlaubt. Auf Basis der durch das Verfahren gewonnenen Daten werden Konzepte zu personalisierten Routenberechnung auf Grundlage der individuellen Anforderungen der Benutzer entwickelt. Das beschriebene Verfahren wurde erfolgreich mit insgesamt 35 Benutzern evaluiert und bildet somit die Grundlage für weiterführende Arbeiten in diesem Bereich
Mobility impaired pedestrians such as wheelchair users, blind and visually impaired, or elderly people impose specific requirements upon the calculation of appropriate routes. The shortest path might not be the best. Within this thesis, the concept of multimodal annotation is developed. The concept allows for extension of the geographical base data by users. Further concepts are developed allowing for the application of the acquired data for the calculation of personalized routes based on the requirements of the individual user. The concept of multimodal annotation was successfully evaluated incorporating 35 users and may be used as the base for further research in the area
APA, Harvard, Vancouver, ISO, and other styles
2

Völkel, Thorsten. "Multimodale Annotation geographischer Daten zur personalisierten Fußgängernavigation." Doctoral thesis, Technische Universität Dresden, 2008. https://tud.qucosa.de/id/qucosa%3A23563.

Full text
Abstract:
Mobilitätseingeschränkte Fußgänger, wie etwa Rollstuhlfahrer, blinde und sehbehinderte Menschen oder Senioren, stellen besondere Anforderungen an die Berechnung geeigneter Routen. Die kürzeste Route ist nicht immer die am besten geeignete. In dieser Arbeit wird das Verfahren der multimodalen Annotation entwickelt, welches die Erweiterung der geographischen Basisdaten durch die Benutzer selbst erlaubt. Auf Basis der durch das Verfahren gewonnenen Daten werden Konzepte zu personalisierten Routenberechnung auf Grundlage der individuellen Anforderungen der Benutzer entwickelt. Das beschriebene Verfahren wurde erfolgreich mit insgesamt 35 Benutzern evaluiert und bildet somit die Grundlage für weiterführende Arbeiten in diesem Bereich.
Mobility impaired pedestrians such as wheelchair users, blind and visually impaired, or elderly people impose specific requirements upon the calculation of appropriate routes. The shortest path might not be the best. Within this thesis, the concept of multimodal annotation is developed. The concept allows for extension of the geographical base data by users. Further concepts are developed allowing for the application of the acquired data for the calculation of personalized routes based on the requirements of the individual user. The concept of multimodal annotation was successfully evaluated incorporating 35 users and may be used as the base for further research in the area.
APA, Harvard, Vancouver, ISO, and other styles
3

Znaidia, Amel. "Handling Imperfections for Multimodal Image Annotation." Phd thesis, Ecole Centrale Paris, 2014. http://tel.archives-ouvertes.fr/tel-01012009.

Full text
Abstract:
This thesis deals with multimodal image annotation in the context of social media. We seek to take advantage of textual (tags) and visual information in order to enhance the image annotation performances. However, these tags are often noisy, overly personalized and only a few of them are related to the semantic visual content of the image. In addition, when combining prediction scores from different classifiers learned on different modalities, multimodal image annotation faces their imperfections (uncertainty, imprecision and incompleteness). Consequently, we consider that multimodal image annotation is subject to imperfections at two levels: the representation and the decision. Inspired from the information fusion theory, we focus in this thesis on defining, identifying and handling imperfection aspects in order to improve image annotation.
APA, Harvard, Vancouver, ISO, and other styles
4

Tayari, Meftah Imen. "Modélisation, détection et annotation des états émotionnels à l'aide d'un espace vectoriel multidimensionnel." Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00838803.

Full text
Abstract:
Notre travail s'inscrit dans le domaine de l'affective computing et plus précisément la modélisation, détection et annotation des émotions. L'objectif est d'étudier, d'identifier et de modéliser les émotions afin d'assurer l'échange entre applications multimodales. Notre contribution s'axe donc sur trois points. En premier lieu, nous présentons une nouvelle vision de la modélisation des états émotionnels basée sur un modèle générique pour la représentation et l'échange des émotions entre applications multimodales. Il s'agit d'un modèle de représentation hiérarchique composé de trois couches distinctes : la couche psychologique, la couche de calcul formel et la couche langage. Ce modèle permet la représentation d'une infinité d'émotions et la modélisation aussi bien des émotions de base comme la colère, la tristesse et la peur que les émotions complexes comme les émotions simulées et masquées. Le second point de notre contribution est axé sur une approche monomodale de reconnaissance des émotions fondée sur l'analyse des signaux physiologiques. L'algorithme de reconnaissance des émotions s'appuie à la fois sur l'application des techniques de traitement du signal, sur une classification par plus proche voisins et également sur notre modèle multidimensionnel de représentation des émotions. Notre troisième contribution porte sur une approche multimodale de reconnaissance des émotions. Cette approche de traitement des données conduit à une génération d'information de meilleure qualité et plus fiable que celle obtenue à partir d'une seule modalité. Les résultats expérimentaux montrent une amélioration significative des taux de reconnaissance des huit émotions par rapport aux résultats obtenus avec l'approche monomodale. Enfin nous avons intégré notre travail dans une application de détection de la dépression des personnes âgées dans un habitat intelligent. Nous avons utilisé les signaux physiologiques recueillis à partir de différents capteurs installés dans l'habitat pour estimer l'état affectif de la personne concernée.
APA, Harvard, Vancouver, ISO, and other styles
5

Nguyen, Nhu Van. "Représentations visuelles de concepts textuels pour la recherche et l'annotation interactives d'images." Phd thesis, Université de La Rochelle, 2011. http://tel.archives-ouvertes.fr/tel-00730707.

Full text
Abstract:
En recherche d'images aujourd'hui, nous manipulons souvent de grands volumes d'images, qui peuvent varier ou même arriver en continu. Dans une base d'images, on se retrouve ainsi avec certaines images anciennes et d'autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d'indexation ou d'annotation. Comme la base n'est pas annotée uniformément, cela rend l'accès difficile par le biais de requêtes textuelles. Nous présentons dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d'images. Premièrement, un modèle d'interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d'interaction à long terme, nous proposons d'associer mots textuels et caractéristiques visuelles pour la recherche d'images par le texte, par le contenu visuel, ou mixte texte/visuel. Ce modèle de recherche d'images permet de raffiner itérativement l'annotation et la connaissance des images. Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d'images qui intègre différentes sources de données, comme le contenu de l'image et le texte. Ce système permet l'interrogation par l'image, l'interrogation par mot-clé ou encore l'utilisation de requêtes hybrides. La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d'information~: le mouvement du point de requête et l'extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d'images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword Visual Representation) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots. Grâce à une stratégie d'apprentissage incrémental, ce modèle fournit l'association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la précision de l'annotation sur l'image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d'annotation et de recherche, et l'utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en laissant le système apprendre au fur et à mesure de son utilisation. Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l'interrogation mixte textuelle/visuelle. Même si pour l'instant deux types d'informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d'autres types d'informations externes à l'image, comme la localisation (GPS) et le temps.
APA, Harvard, Vancouver, ISO, and other styles
6

Budnik, Mateusz. "Active and deep learning for multimedia." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM011.

Full text
Abstract:
Les thèmes principaux abordés dans cette thèse sont l'utilisation de méthodes d'apprentissage actif et d'apprentissage profond dans le contexte du traitement de documents multimodaux. Les contributions proposées dans cette thèse abordent ces deux thèmes. Un système d'apprentissage actif a été introduit pour permettre une annotation plus efficace des émissions de télévision grâce à la propagation des étiquettes, à l'utilisation de données multimodales et à des stratégies de sélection efficaces. Plusieurs scénarios et expériences ont été envisagés dans le cadre de l'identification des personnes dans les vidéos, en prenant en compte l'utilisation de différentes modalités (telles que les visages, les segments de la parole et le texte superposé) et différentes stratégies de sélection. Le système complet a été validé au cours d'un ``test à blanc'' impliquant des annotateurs humains réels.Une deuxième contribution majeure a été l'étude et l'utilisation de l'apprentissage profond (en particulier les réseaux de neurones convolutifs) pour la recherche d'information dans les vidéos. Une étude exhaustive a été réalisée en utilisant différentes architectures de réseaux neuronaux et différentes techniques d'apprentissage telles que le réglage fin (fine-tuning) ou des classificateurs plus classiques comme les SVMs. Une comparaison a été faite entre les caractéristiques apprises (la sortie des réseaux neuronaux) et les caractéristiques plus classiques (``engineered features''). Malgré la performance inférieure des seconds, une fusion de ces deux types de caractéristiques augmente la performance globale.Enfin, l'utilisation d'un réseau neuronal convolutif pour l'identification des locuteurs à l'aide de spectrogrammes a été explorée. Les résultats ont été comparés à ceux obtenus avec d'autres systèmes d'identification de locuteurs récents. Différentes approches de fusion ont également été testées. L'approche proposée a permis d'obtenir des résultats comparables à ceux certains des autres systèmes testés et a offert une augmentation de la performance lorsqu'elle est fusionnée avec la sortie du meilleur système
The main topics of this thesis include the use of active learning-based methods and deep learning in the context of retrieval of multimodal documents. The contributions proposed during this thesis address both these topics. An active learning framework was introduced, which allows for a more efficient annotation of broadcast TV videos thanks to the propagation of labels, the use of multimodal data and selection strategies. Several different scenarios and experiments were considered in the context of person identification in videos, including using different modalities (such as faces, speech segments and overlaid text) and different selection strategies. The whole system was additionally validated in a dry run involving real human annotators.A second major contribution was the investigation and use of deep learning (in particular the convolutional neural network) for video retrieval. A comprehensive study was made using different neural network architectures and training techniques such as fine-tuning or using separate classifiers like SVM. A comparison was made between learned features (the output of neural networks) and engineered features. Despite the lower performance of the engineered features, fusion between these two types of features increases overall performance.Finally, the use of convolutional neural network for speaker identification using spectrograms is explored. The results are compared to other state-of-the-art speaker identification systems. Different fusion approaches are also tested. The proposed approach obtains comparable results to some of the other tested approaches and offers an increase in performance when fused with the output of the best system
APA, Harvard, Vancouver, ISO, and other styles
7

Nag, Chowdhury Sreyasi [Verfasser]. "Text-image synergy for multimodal retrieval and annotation / Sreyasi Nag Chowdhury." Saarbrücken : Saarländische Universitäts- und Landesbibliothek, 2021. http://d-nb.info/1240674139/34.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Abrilian, Sarkis. "Représentation de comportements emotionnels multimodaux spontanés : perception, annotation et synthèse." Phd thesis, Université Paris Sud - Paris XI, 2007. http://tel.archives-ouvertes.fr/tel-00620827.

Full text
Abstract:
L'objectif de cette thèse est de représenter les émotions spontanées et les signes multimodaux associés pour contribuer à la conception des futurs systèmes affectifs interactifs. Les prototypes actuels sont généralement limités à la détection et à la génération de quelques émotions simples et se fondent sur des données audio ou vidéo jouées par des acteurs et récoltées en laboratoire. Afin de pouvoir modéliser les relations complexes entre les émotions spontanées et leurs expressions dans différentes modalités, une approche exploratoire est nécessaire. L'approche exploratoire que nous avons choisie dans cette thèse pour l'étude de ces émotions spontanées consiste à collecter et annoter un corpus vidéo d'interviews télévisées. Ce type de corpus comporte des émotions plus complexes que les 6 émotions de base (colère, peur, joie, tristesse, surprise, dégoût). On observe en effet dans les comportements émotionnels spontanés des superpositions, des masquages, des conflits entre émotions positives et négatives. Nous rapportons plusieurs expérimentations ayant permis la définition de plusieurs niveaux de représentation des émotions et des paramètres comportementaux multimodaux apportant des informations pertinentes pour la perception de ces émotions complexes spontanées. En perspective, les outils développés durant cette thèse (schémas d'annotation, programmes de mesures, protocoles d'annotation) pourront être utilisés ultérieurement pour concevoir des modèles utilisables par des systèmes interactifs affectifs capables de détecter/synthétiser des expressions multimodales d'émotions spontanées.
APA, Harvard, Vancouver, ISO, and other styles
9

Oram, Louise Carolyn. "Scrolling in radiology image stacks : multimodal annotations and diversifying control mobility." Thesis, University of British Columbia, 2013. http://hdl.handle.net/2429/45508.

Full text
Abstract:
Advances in image acquisition technology mean that radiologists today must examine thousands of images to make a diagnosis. However, the physical interactions performed to view these images are repetitive and not specialized to the task. Additionally, automatic and/or radiologist-generated annotations may impact how radiologists scroll through image stacks as they review areas of interest. We analyzed manual aspects of this work by observing and/or interviewing 19 radiologists; stack scrolling dominated the resulting task examples. We used a simplified stack seeded with correct or incorrect annotations in our experiment on lay users. The experiment investigated the impact of four scrolling techniques: traditional scrollwheel, click+drag, sliding-touch and tilting to access rate control. We also examined the effect of visual vs. haptic annotation cues’ on scrolling dynamics, detection accuracy and subjective factors. Scrollwheel was the fastest scrolling technique overall for our lay participants. Combined visual and haptic annotation highlights increased the speed of target-finding in comparison to either modality alone. Multimodal annotations may be useful in radiology image interpretation; users are heavily visually loaded, and there is background noise in the hospital environment. From interviews with radiologists, we see that they are receptive to a mouse that they can use to map different movements to interactions with images as an alternative to the standard mouse usually provided with their workstation.
APA, Harvard, Vancouver, ISO, and other styles
10

Silva, Miguel Marinhas da. "Automated image tagging through tag propagation." Master's thesis, Faculdade de Ciências e Tecnologia, 2011. http://hdl.handle.net/10362/5963.

Full text
Abstract:
Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial Para obtenção do grau de Mestre em Engenharia Informática
Today, more and more data is becoming available on the Web. In particular, we have recently witnessed an exponential increase of multimedia content within various content sharing websites. While this content is widely available, great challenges have arisen to effectively search and browse such vast amount of content. A solution to this problem is to annotate information, a task that without computer aid requires a large-scale human effort. The goal of this thesis is to automate the task of annotating multimedia information with machine learning algorithms. We propose the development of a machine learning framework capable of doing automated image annotation in large-scale consumer photos. To this extent a study on state of art algorithms was conducted, which concluded with a baseline implementation of a k-nearest neighbor algorithm. This baseline was used to implement a more advanced algorithm capable of annotating images in the situations with limited training images and a large set of test images – thus, a semi-supervised approach. Further studies were conducted on the feature spaces used to describe images towards a successful integration in the developed framework. We first analyzed the semantic gap between the visual feature spaces and concepts present in an image, and how to avoid or mitigate this gap. Moreover, we examined how users perceive images by performing a statistical analysis of the image tags inserted by users. A linguistic and statistical expansion of image tags was also implemented. The developed framework withstands uneven data distributions that occur in consumer datasets, and scales accordingly, requiring few previously annotated data. The principal mechanism that allows easier scaling is the propagation of information between the annotated data and un-annotated data.
APA, Harvard, Vancouver, ISO, and other styles
11

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Full text
Abstract:
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.
APA, Harvard, Vancouver, ISO, and other styles
12

Bocquet, Aurelien. "Infrastructure logicielle multi-modèles pour l'accès à des servcies en mobilité." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2008. http://tel.archives-ouvertes.fr/tel-00357495.

Full text
Abstract:
Les intergiciels sont aujourd'hui incontournables lorsqu'il s'agit de développer des applications réparties. Des simples Web Services aux architectures n-tiers, d'une unique communication client / serveur à un réseau dynamique pair-à-pair, chaque conception requiert des outils adaptés et performants. En complément de chaque utilisation spécifique des intergiciels, leur contexte de déploiement nécessite des mécanismes particuliers afin de s'adapter au mieux à la situation.

Face à ces besoins, les intergiciels proposent des modèles de programmation et de communication différents, fournissant des moyens de communication efficaces dans certaines situations.

La mobilité introduit une problématique supplémentaire pour ces intergiciels. D'une part l'interopérabilité devient inévitable ; le nombre de composants répartis susceptibles d'être utilisés en mobilité est immense, et les composants peuvent être développés avec différents intergiciels. D'autre part le contexte varie, et avec lui les conditions et capacités de communication évoluent.

Nous traitons dans cette thèse des impératifs actuels d'un intergiciel en mobilité. Nous proposons pour cela une approche multi-modèles, basée sur les travaux actuels dans ce domaine, et présentant des concepts novateurs.

Cette approche se compose d'un modèle de programmation générique, proposant différents types de communications synchrones, asynchrones, et basées sur des patrons de conception. Elle se compose également d'une combinaison de modèles de communication, assurant l'interopérabilité avec les intergiciels standards, et offrant des possibilités de communications enrichies, capables de s'adapter aux changements de contextes.
Des politiques d'adaptation définissent les règles de combinaison des modèles en fonction d'observations du contexte, afin de se comporter au mieux face à ses évolutions.
Des mécanismes d'adaptation dynamique permettent à notre approche de proposer une prise en compte en temps réel des changements de contexte, et permettent également de reconfigurer le système pendant son exécution afin de répondre à des besoins de déploiement.

Nous avons validé notre approche au travers d'une application concrète aux problèmes engendrés par l'utilisation d'un proxy Internet à bord des trains : le développement d'un greffon multi-modèles a illustré et justifié notre approche, et l'évaluation de ce greffon a montré les bénéfices de celle-ci face aux changements de contexte.
Pour implémenter entièrement notre approche et proposer ainsi un intergiciel multi-modèles, nous avons conçu et développé notre infrastructure logicielle multi-modèles, proposant tous les concepts de l'approche. Une première version "statique" puis une version finale offrant les mécanismes d'adaptation dynamique ont été implémentées et permettent ainsi de profiter des bénéfices de notre approche multi-modèles.
APA, Harvard, Vancouver, ISO, and other styles
13

Völkel, Thorsten [Verfasser]. "Multimodale Annotation geographischer Daten zur personalisierten Fußgängernavigation / eingereicht von Thorsten Völkel." 2008. http://d-nb.info/994368364/34.

Full text
APA, Harvard, Vancouver, ISO, and other styles
14

Tsai, Chun-Yu. "Multimodal News Summarization, Tracking and Annotation Incorporating Tensor Analysis of Memes." Thesis, 2017. https://doi.org/10.7916/D8FF44N7.

Full text
Abstract:
We demonstrate four novel multimodal methods for efficient video summarization and comprehensive cross-cultural news video understanding. First, For video quick browsing, we demonstrate a multimedia event recounting system. Based on nine people-oriented design principles, it summarizes YouTube-like videos into short visual segments (812sec) and textual words (less than 10 terms). In the 2013 Trecvid Multimedia Event Recounting competition, this system placed first in recognition time efficiency, while remaining above average in description accuracy. Secondly, we demonstrate the summarization of large amounts of online international news videos. In order to understand an international event such as Ebola virus, AirAsia Flight 8501 and Zika virus comprehensively, we present a novel and efficient constrained tensor factorization algorithm that first represents a video archive of multimedia news stories concerning a news event as a sparse tensor of order 4. The dimensions correspond to extracted visual memes, verbal tags, time periods, and cultures. The iterative algorithm approximately but accurately extracts coherent quad-clusters, each of which represents a significant summary of an important independent aspect of the news event. We give examples of quad-clusters extracted from tensors with at least 108 entries derived from international news coverage. We show the method is fast, can be tuned to give preferences to any subset of its four dimensions, and exceeds three existing methods in performance. Thirdly, noting that the co-occurrence of visual memes and tags in our summarization result is sparse, we show how to model cross-cultural visual meme influence based on normalized PageRank, which more accurately captures the rates at which visual memes are reposted in a specified time period in a specified culture. Lastly, we establish the correspondences of videos and text descriptions in different cultures by reliable visual cues, detect culture-specific tags for visual memes and then annotate videos in a cultural settings. Starting with any video with less text or no text in one culture (say, US), we select candidate annotations in the text of another culture (say, China) to annotate US video. Through analyzing the similarity of images annotated by those candidates, we can derive a set of proper tags from the viewpoints of another culture (China). We illustrate cultural-based annotation examples by segments of international news. We evaluate the generated tags by cross-cultural tag frequency, tag precision, and user studies.
APA, Harvard, Vancouver, ISO, and other styles
15

Hsueh, Chi-Hsun, and 薛祺薰. "Effects of Multimodal Annotations in Videos on Comprehension of EFL Learners in Elementary Schools in Taiwan." Thesis, 2016. http://ndltd.ncl.edu.tw/handle/8385xs.

Full text
Abstract:
碩士
國立臺灣科技大學
應用外語系
104
This study investigates the effect of different combinations of multimodal scaffolding annotations on EFL elementary school students’ comprehension of L2 video clips. 151 fifth graders from four intact classes at a private elementary school in Taiwan participated in the study. They watched two video clips under one of four modalities: (1) video clips with English captions and L1 (Chinese) annotations (CA), (2) video clips with English captions and L2 (English) annotations (EA), (3) video clips with English captions and graphics-based annotations (GA) and (4) video clips with English captions but no annotations (Control group). Before the treatment, the results from an in-house English ability examination indicate that four intact classes are homogeneous. Two comprehension tests and an interview are conducted to collect both quantitative and qualitative data. Results from one-way ANOVA and interviews have yielded the conclusion that annotated videos are more effective than control group. The CA group outperforms than other three modalities, and GA group performs second in overall comprehension of L2 video clips. Moreover, the results of post-hoc test reveal that there is a significant difference between CA and EA, meaning first language knowledge dominates the comprehension skills. However, no significant difference is found between text (CA and EA) and GA modalities. The interview data reveal that learners hold positive attitudes toward annotations as useful aids and believe that annotations increase their attention, help them acquire new words, reinforce the learning of content knowledge, and reduce difficulties in English learning.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography