Academic literature on the topic 'Multimodal annotation'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Multimodal annotation.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Multimodal annotation"

1

Kleida, Danae. "Entering a dance performance through multimodal annotation: annotating with scores." International Journal of Performance Arts and Digital Media 17, no. 1 (January 2, 2021): 19–30. http://dx.doi.org/10.1080/14794713.2021.1880182.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Chou, Chien-Li, Hua-Tsung Chen, and Suh-Yin Lee. "Multimodal Video-to-Near-Scene Annotation." IEEE Transactions on Multimedia 19, no. 2 (February 2017): 354–66. http://dx.doi.org/10.1109/tmm.2016.2614426.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Zhu, Songhao, Xiangxiang Li, and Shuhan Shen. "Multimodal deep network learning‐based image annotation." Electronics Letters 51, no. 12 (June 2015): 905–6. http://dx.doi.org/10.1049/el.2015.0258.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Brunner, Marie-Louise, and Stefan Diemer. "Multimodal meaning making: The annotation of nonverbal elements in multimodal corpus transcription." Research in Corpus Linguistics 10, no. 1 (2021): 63–88. http://dx.doi.org/10.32714/ricl.09.01.05.

Full text
Abstract:
The article discusses how to integrate annotation for nonverbal elements (NVE) from multimodal raw data as part of a standardized corpus transcription. We argue that it is essential to include multimodal elements when investigating conversational data, and that in order to integrate these elements, a structured approach to complex multimodal data is needed. We discuss how to formulate a structured corpus-suitable standard syntax and taxonomy for nonverbal features such as gesture, facial expressions, and physical stance, and how to integrate it in a corpus. Using corpus examples, the article describes the development of a robust annotation system for spoken language in the corpus of Video-mediated English as a Lingua Franca Conversations (ViMELF 2018) and illustrates how the system can be used for the study of spoken discourse. The system takes into account previous research on multimodality, transcribes salient nonverbal features in a concise manner, and uses a standard syntax. While such an approach introduces a degree of subjectivity through the criteria of salience and conciseness, the system also offers considerable advantages: it is versatile and adaptable, flexible enough to work with a wide range of multimodal data, and it allows both quantitative and qualitative research on the pragmatics of interaction.
APA, Harvard, Vancouver, ISO, and other styles
5

Völkel, Thorsten. "Personalized and adaptive navigation based on multimodal annotation." ACM SIGACCESS Accessibility and Computing, no. 86 (September 2006): 4–7. http://dx.doi.org/10.1145/1196148.1196149.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Podlasov, Alexey, Sabine Tan, and Kay O'Halloran. "Interactive state-transition diagrams for visualization of multimodal annotation." Intelligent Data Analysis 16, no. 4 (July 11, 2012): 683–702. http://dx.doi.org/10.3233/ida-2012-0544.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Tian, Feng, Quge Wang, Xin Li, and Ning Sun. "Heterogeneous multimedia cooperative annotation based on multimodal correlation learning." Journal of Visual Communication and Image Representation 58 (January 2019): 544–53. http://dx.doi.org/10.1016/j.jvcir.2018.12.028.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Debras, Camille. "How to prepare the video component of the Diachronic Corpus of Political Speeches for multimodal analysis." Research in Corpus Linguistics 9, no. 1 (2021): 132–51. http://dx.doi.org/10.32714/ricl.09.01.08.

Full text
Abstract:
The Diachronic Corpus of Political Speeches (DCPS) is a collection of 1,500 full-length political speeches in English. It includes speeches delivered in countries where English is an official language (the US, Britain, Canada, Ireland) by English-speaking politicians in various settings from 1800 up to the present time. Enriched with semi-automatic morphosyntactic annotations and with discourse-pragmatic manual annotations, the DCPS is designed to achieve maximum representativeness and balance for political English speeches from major national English varieties in time, preserve detailed metadata, and enable corpus-based studies of syntactic, semantic and discourse-pragmatic variation and change on political corpora. For speeches given from 1950 onwards, video-recordings of the original delivery are often retrievable online. This opens up avenues of research in multimodal linguistics, in which studies on the integration of speech and gesture in the construction of meaning can include analyses of recurrent gestures and of multimodal constructions. This article discusses the issues at stake in preparing the video-recorded component of the DCPS for linguistic multimodal analysis, namely the exploitability of recordings, the segmentation and alignment of transcriptions, the annotation of gesture forms and functions in the software ELAN and the quantity of available gesture data.
APA, Harvard, Vancouver, ISO, and other styles
9

Martin, J. C., G. Caridakis, L. Devillers, K. Karpouzis, and S. Abrilian. "Manual annotation and automatic image processing of multimodal emotional behaviors: validating the annotation of TV interviews." Personal and Ubiquitous Computing 13, no. 1 (May 3, 2007): 69–76. http://dx.doi.org/10.1007/s00779-007-0167-y.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Carletta, Jean, Stefan Evert, Ulrich Heid, Jonathan Kilgour, Judy Robertson, and Holger Voormann. "The NITE XML Toolkit: Flexible annotation for multimodal language data." Behavior Research Methods, Instruments, & Computers 35, no. 3 (August 2003): 353–63. http://dx.doi.org/10.3758/bf03195511.

Full text
APA, Harvard, Vancouver, ISO, and other styles
More sources

Dissertations / Theses on the topic "Multimodal annotation"

1

Znaidia, Amel. "Handling Imperfections for Multimodal Image Annotation." Phd thesis, Ecole Centrale Paris, 2014. http://tel.archives-ouvertes.fr/tel-01012009.

Full text
Abstract:
This thesis deals with multimodal image annotation in the context of social media. We seek to take advantage of textual (tags) and visual information in order to enhance the image annotation performances. However, these tags are often noisy, overly personalized and only a few of them are related to the semantic visual content of the image. In addition, when combining prediction scores from different classifiers learned on different modalities, multimodal image annotation faces their imperfections (uncertainty, imprecision and incompleteness). Consequently, we consider that multimodal image annotation is subject to imperfections at two levels: the representation and the decision. Inspired from the information fusion theory, we focus in this thesis on defining, identifying and handling imperfection aspects in order to improve image annotation.
APA, Harvard, Vancouver, ISO, and other styles
2

Völkel, Thorsten. "Multimodale Annotation geographischer Daten zur personalisierten Fußgängernavigation." Doctoral thesis, Saechsische Landesbibliothek- Staats- und Universitaetsbibliothek Dresden, 2009. http://nbn-resolving.de/urn:nbn:de:bsz:14-ds-1239804877252-19609.

Full text
Abstract:
Mobilitätseingeschränkte Fußgänger, wie etwa Rollstuhlfahrer, blinde und sehbehinderte Menschen oder Senioren, stellen besondere Anforderungen an die Berechnung geeigneter Routen. Die kürzeste Route ist nicht immer die am besten geeignete. In dieser Arbeit wird das Verfahren der multimodalen Annotation entwickelt, welches die Erweiterung der geographischen Basisdaten durch die Benutzer selbst erlaubt. Auf Basis der durch das Verfahren gewonnenen Daten werden Konzepte zu personalisierten Routenberechnung auf Grundlage der individuellen Anforderungen der Benutzer entwickelt. Das beschriebene Verfahren wurde erfolgreich mit insgesamt 35 Benutzern evaluiert und bildet somit die Grundlage für weiterführende Arbeiten in diesem Bereich
Mobility impaired pedestrians such as wheelchair users, blind and visually impaired, or elderly people impose specific requirements upon the calculation of appropriate routes. The shortest path might not be the best. Within this thesis, the concept of multimodal annotation is developed. The concept allows for extension of the geographical base data by users. Further concepts are developed allowing for the application of the acquired data for the calculation of personalized routes based on the requirements of the individual user. The concept of multimodal annotation was successfully evaluated incorporating 35 users and may be used as the base for further research in the area
APA, Harvard, Vancouver, ISO, and other styles
3

Völkel, Thorsten. "Multimodale Annotation geographischer Daten zur personalisierten Fußgängernavigation." Doctoral thesis, Technische Universität Dresden, 2008. https://tud.qucosa.de/id/qucosa%3A23563.

Full text
Abstract:
Mobilitätseingeschränkte Fußgänger, wie etwa Rollstuhlfahrer, blinde und sehbehinderte Menschen oder Senioren, stellen besondere Anforderungen an die Berechnung geeigneter Routen. Die kürzeste Route ist nicht immer die am besten geeignete. In dieser Arbeit wird das Verfahren der multimodalen Annotation entwickelt, welches die Erweiterung der geographischen Basisdaten durch die Benutzer selbst erlaubt. Auf Basis der durch das Verfahren gewonnenen Daten werden Konzepte zu personalisierten Routenberechnung auf Grundlage der individuellen Anforderungen der Benutzer entwickelt. Das beschriebene Verfahren wurde erfolgreich mit insgesamt 35 Benutzern evaluiert und bildet somit die Grundlage für weiterführende Arbeiten in diesem Bereich.
Mobility impaired pedestrians such as wheelchair users, blind and visually impaired, or elderly people impose specific requirements upon the calculation of appropriate routes. The shortest path might not be the best. Within this thesis, the concept of multimodal annotation is developed. The concept allows for extension of the geographical base data by users. Further concepts are developed allowing for the application of the acquired data for the calculation of personalized routes based on the requirements of the individual user. The concept of multimodal annotation was successfully evaluated incorporating 35 users and may be used as the base for further research in the area.
APA, Harvard, Vancouver, ISO, and other styles
4

Nag, Chowdhury Sreyasi [Verfasser]. "Text-image synergy for multimodal retrieval and annotation / Sreyasi Nag Chowdhury." Saarbrücken : Saarländische Universitäts- und Landesbibliothek, 2021. http://d-nb.info/1240674139/34.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Budnik, Mateusz. "Active and deep learning for multimedia." Thesis, Université Grenoble Alpes (ComUE), 2017. http://www.theses.fr/2017GREAM011.

Full text
Abstract:
Les thèmes principaux abordés dans cette thèse sont l'utilisation de méthodes d'apprentissage actif et d'apprentissage profond dans le contexte du traitement de documents multimodaux. Les contributions proposées dans cette thèse abordent ces deux thèmes. Un système d'apprentissage actif a été introduit pour permettre une annotation plus efficace des émissions de télévision grâce à la propagation des étiquettes, à l'utilisation de données multimodales et à des stratégies de sélection efficaces. Plusieurs scénarios et expériences ont été envisagés dans le cadre de l'identification des personnes dans les vidéos, en prenant en compte l'utilisation de différentes modalités (telles que les visages, les segments de la parole et le texte superposé) et différentes stratégies de sélection. Le système complet a été validé au cours d'un ``test à blanc'' impliquant des annotateurs humains réels.Une deuxième contribution majeure a été l'étude et l'utilisation de l'apprentissage profond (en particulier les réseaux de neurones convolutifs) pour la recherche d'information dans les vidéos. Une étude exhaustive a été réalisée en utilisant différentes architectures de réseaux neuronaux et différentes techniques d'apprentissage telles que le réglage fin (fine-tuning) ou des classificateurs plus classiques comme les SVMs. Une comparaison a été faite entre les caractéristiques apprises (la sortie des réseaux neuronaux) et les caractéristiques plus classiques (``engineered features''). Malgré la performance inférieure des seconds, une fusion de ces deux types de caractéristiques augmente la performance globale.Enfin, l'utilisation d'un réseau neuronal convolutif pour l'identification des locuteurs à l'aide de spectrogrammes a été explorée. Les résultats ont été comparés à ceux obtenus avec d'autres systèmes d'identification de locuteurs récents. Différentes approches de fusion ont également été testées. L'approche proposée a permis d'obtenir des résultats comparables à ceux certains des autres systèmes testés et a offert une augmentation de la performance lorsqu'elle est fusionnée avec la sortie du meilleur système
The main topics of this thesis include the use of active learning-based methods and deep learning in the context of retrieval of multimodal documents. The contributions proposed during this thesis address both these topics. An active learning framework was introduced, which allows for a more efficient annotation of broadcast TV videos thanks to the propagation of labels, the use of multimodal data and selection strategies. Several different scenarios and experiments were considered in the context of person identification in videos, including using different modalities (such as faces, speech segments and overlaid text) and different selection strategies. The whole system was additionally validated in a dry run involving real human annotators.A second major contribution was the investigation and use of deep learning (in particular the convolutional neural network) for video retrieval. A comprehensive study was made using different neural network architectures and training techniques such as fine-tuning or using separate classifiers like SVM. A comparison was made between learned features (the output of neural networks) and engineered features. Despite the lower performance of the engineered features, fusion between these two types of features increases overall performance.Finally, the use of convolutional neural network for speaker identification using spectrograms is explored. The results are compared to other state-of-the-art speaker identification systems. Different fusion approaches are also tested. The proposed approach obtains comparable results to some of the other tested approaches and offers an increase in performance when fused with the output of the best system
APA, Harvard, Vancouver, ISO, and other styles
6

Silva, Miguel Marinhas da. "Automated image tagging through tag propagation." Master's thesis, Faculdade de Ciências e Tecnologia, 2011. http://hdl.handle.net/10362/5963.

Full text
Abstract:
Trabalho apresentado no âmbito do Mestrado em Engenharia Informática, como requisito parcial Para obtenção do grau de Mestre em Engenharia Informática
Today, more and more data is becoming available on the Web. In particular, we have recently witnessed an exponential increase of multimedia content within various content sharing websites. While this content is widely available, great challenges have arisen to effectively search and browse such vast amount of content. A solution to this problem is to annotate information, a task that without computer aid requires a large-scale human effort. The goal of this thesis is to automate the task of annotating multimedia information with machine learning algorithms. We propose the development of a machine learning framework capable of doing automated image annotation in large-scale consumer photos. To this extent a study on state of art algorithms was conducted, which concluded with a baseline implementation of a k-nearest neighbor algorithm. This baseline was used to implement a more advanced algorithm capable of annotating images in the situations with limited training images and a large set of test images – thus, a semi-supervised approach. Further studies were conducted on the feature spaces used to describe images towards a successful integration in the developed framework. We first analyzed the semantic gap between the visual feature spaces and concepts present in an image, and how to avoid or mitigate this gap. Moreover, we examined how users perceive images by performing a statistical analysis of the image tags inserted by users. A linguistic and statistical expansion of image tags was also implemented. The developed framework withstands uneven data distributions that occur in consumer datasets, and scales accordingly, requiring few previously annotated data. The principal mechanism that allows easier scaling is the propagation of information between the annotated data and un-annotated data.
APA, Harvard, Vancouver, ISO, and other styles
7

Tayari, Meftah Imen. "Modélisation, détection et annotation des états émotionnels à l'aide d'un espace vectoriel multidimensionnel." Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00838803.

Full text
Abstract:
Notre travail s'inscrit dans le domaine de l'affective computing et plus précisément la modélisation, détection et annotation des émotions. L'objectif est d'étudier, d'identifier et de modéliser les émotions afin d'assurer l'échange entre applications multimodales. Notre contribution s'axe donc sur trois points. En premier lieu, nous présentons une nouvelle vision de la modélisation des états émotionnels basée sur un modèle générique pour la représentation et l'échange des émotions entre applications multimodales. Il s'agit d'un modèle de représentation hiérarchique composé de trois couches distinctes : la couche psychologique, la couche de calcul formel et la couche langage. Ce modèle permet la représentation d'une infinité d'émotions et la modélisation aussi bien des émotions de base comme la colère, la tristesse et la peur que les émotions complexes comme les émotions simulées et masquées. Le second point de notre contribution est axé sur une approche monomodale de reconnaissance des émotions fondée sur l'analyse des signaux physiologiques. L'algorithme de reconnaissance des émotions s'appuie à la fois sur l'application des techniques de traitement du signal, sur une classification par plus proche voisins et également sur notre modèle multidimensionnel de représentation des émotions. Notre troisième contribution porte sur une approche multimodale de reconnaissance des émotions. Cette approche de traitement des données conduit à une génération d'information de meilleure qualité et plus fiable que celle obtenue à partir d'une seule modalité. Les résultats expérimentaux montrent une amélioration significative des taux de reconnaissance des huit émotions par rapport aux résultats obtenus avec l'approche monomodale. Enfin nous avons intégré notre travail dans une application de détection de la dépression des personnes âgées dans un habitat intelligent. Nous avons utilisé les signaux physiologiques recueillis à partir de différents capteurs installés dans l'habitat pour estimer l'état affectif de la personne concernée.
APA, Harvard, Vancouver, ISO, and other styles
8

Nguyen, Nhu Van. "Représentations visuelles de concepts textuels pour la recherche et l'annotation interactives d'images." Phd thesis, Université de La Rochelle, 2011. http://tel.archives-ouvertes.fr/tel-00730707.

Full text
Abstract:
En recherche d'images aujourd'hui, nous manipulons souvent de grands volumes d'images, qui peuvent varier ou même arriver en continu. Dans une base d'images, on se retrouve ainsi avec certaines images anciennes et d'autres nouvelles, les premières déjà indexées et possiblement annotées et les secondes en attente d'indexation ou d'annotation. Comme la base n'est pas annotée uniformément, cela rend l'accès difficile par le biais de requêtes textuelles. Nous présentons dans ce travail différentes techniques pour interagir, naviguer et rechercher dans ce type de bases d'images. Premièrement, un modèle d'interaction à court terme est utilisé pour améliorer la précision du système. Deuxièmement, en se basant sur un modèle d'interaction à long terme, nous proposons d'associer mots textuels et caractéristiques visuelles pour la recherche d'images par le texte, par le contenu visuel, ou mixte texte/visuel. Ce modèle de recherche d'images permet de raffiner itérativement l'annotation et la connaissance des images. Nous identifions quatre contributions dans ce travail. La première contribution est un système de recherche multimodale d'images qui intègre différentes sources de données, comme le contenu de l'image et le texte. Ce système permet l'interrogation par l'image, l'interrogation par mot-clé ou encore l'utilisation de requêtes hybrides. La deuxième contribution est une nouvelle technique pour le retour de pertinence combinant deux techniques classiques utilisées largement dans la recherche d'information~: le mouvement du point de requête et l'extension de requêtes. En profitant des images non pertinentes et des avantages de ces deux techniques classiques, notre méthode donne de très bons résultats pour une recherche interactive d'images efficace. La troisième contribution est un modèle nommé "Sacs de KVR" (Keyword Visual Representation) créant des liens entre des concepts sémantiques et des représentations visuelles, en appui sur le modèle de Sac de Mots. Grâce à une stratégie d'apprentissage incrémental, ce modèle fournit l'association entre concepts sémantiques et caractéristiques visuelles, ce qui contribue à améliorer la précision de l'annotation sur l'image et la performance de recherche. La quatrième contribution est un mécanisme de construction incrémentale des connaissances à partir de zéro. Nous ne séparons pas les phases d'annotation et de recherche, et l'utilisateur peut ainsi faire des requêtes dès la mise en route du système, tout en laissant le système apprendre au fur et à mesure de son utilisation. Les contributions ci-dessus sont complétées par une interface permettant la visualisation et l'interrogation mixte textuelle/visuelle. Même si pour l'instant deux types d'informations seulement sont utilisées, soit le texte et le contenu visuel, la généricité du modèle proposé permet son extension vers d'autres types d'informations externes à l'image, comme la localisation (GPS) et le temps.
APA, Harvard, Vancouver, ISO, and other styles
9

Guillaumin, Matthieu. "Données multimodales pour l'analyse d'image." Phd thesis, Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00522278/en/.

Full text
Abstract:
La présente thèse s'intéresse à l'utilisation de méta-données textuelles pour l'analyse d'image. Nous cherchons à utiliser ces informations additionelles comme supervision faible pour l'apprentissage de modèles de reconnaissance visuelle. Nous avons observé un récent et grandissant intérêt pour les méthodes capables d'exploiter ce type de données car celles-ci peuvent potentiellement supprimer le besoin d'annotations manuelles, qui sont coûteuses en temps et en ressources. Nous concentrons nos efforts sur deux types de données visuelles associées à des informations textuelles. Tout d'abord, nous utilisons des images de dépêches qui sont accompagnées de légendes descriptives pour s'attaquer à plusieurs problèmes liés à la reconnaissance de visages. Parmi ces problèmes, la vérification de visages est la tâche consistant à décider si deux images représentent la même personne, et le nommage de visages cherche à associer les visages d'une base de données à leur noms corrects. Ensuite, nous explorons des modèles pour prédire automatiquement les labels pertinents pour des images, un problème connu sous le nom d'annotation automatique d'image. Ces modèles peuvent aussi être utilisés pour effectuer des recherches d'images à partir de mots-clés. Nous étudions enfin un scénario d'apprentissage multimodal semi-supervisé pour la catégorisation d'image. Dans ce cadre de travail, les labels sont supposés présents pour les données d'apprentissage, qu'elles soient manuellement annotées ou non, et absentes des données de test. Nos travaux se basent sur l'observation que la plupart de ces problèmes peuvent être résolus si des mesures de similarité parfaitement adaptées sont utilisées. Nous proposons donc de nouvelles approches qui combinent apprentissage de distance, modèles par plus proches voisins et méthodes par graphes pour apprendre, à partir de données visuelles et textuelles, des similarités visuelles spécifiques à chaque problème. Dans le cas des visages, nos similarités se concentrent sur l'identité des individus tandis que, pour les images, elles concernent des concepts sémantiques plus généraux. Expérimentalement, nos approches obtiennent des performances à l'état de l'art sur plusieurs bases de données complexes. Pour les deux types de données considérés, nous montrons clairement que l'apprentissage bénéficie de l'information textuelle supplémentaire résultant en l'amélioration de la performance des systèmes de reconnaissance visuelle.
APA, Harvard, Vancouver, ISO, and other styles
10

Oram, Louise Carolyn. "Scrolling in radiology image stacks : multimodal annotations and diversifying control mobility." Thesis, University of British Columbia, 2013. http://hdl.handle.net/2429/45508.

Full text
Abstract:
Advances in image acquisition technology mean that radiologists today must examine thousands of images to make a diagnosis. However, the physical interactions performed to view these images are repetitive and not specialized to the task. Additionally, automatic and/or radiologist-generated annotations may impact how radiologists scroll through image stacks as they review areas of interest. We analyzed manual aspects of this work by observing and/or interviewing 19 radiologists; stack scrolling dominated the resulting task examples. We used a simplified stack seeded with correct or incorrect annotations in our experiment on lay users. The experiment investigated the impact of four scrolling techniques: traditional scrollwheel, click+drag, sliding-touch and tilting to access rate control. We also examined the effect of visual vs. haptic annotation cues’ on scrolling dynamics, detection accuracy and subjective factors. Scrollwheel was the fastest scrolling technique overall for our lay participants. Combined visual and haptic annotation highlights increased the speed of target-finding in comparison to either modality alone. Multimodal annotations may be useful in radiology image interpretation; users are heavily visually loaded, and there is background noise in the hospital environment. From interviews with radiologists, we see that they are receptive to a mouse that they can use to map different movements to interactions with images as an alternative to the standard mouse usually provided with their workstation.
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Multimodal annotation"

1

Cassidy, Steve, and Thomas Schmidt. "Tools for Multimodal Annotation." In Handbook of Linguistic Annotation, 209–27. Dordrecht: Springer Netherlands, 2017. http://dx.doi.org/10.1007/978-94-024-0881-2_7.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Steininger, Silke, Florian Schiel, and Susen Rabold. "Annotation of Multimodal Data." In SmartKom: Foundations of Multimodal Dialogue Systems, 571–96. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006. http://dx.doi.org/10.1007/3-540-36678-4_35.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Colletta, Jean-Marc, Ramona N. Kunene, Aurélie Venouil, Virginie Kaufmann, and Jean-Pascal Simon. "Multi-track Annotation of Child Language and Gestures." In Multimodal Corpora, 54–72. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009. http://dx.doi.org/10.1007/978-3-642-04793-0_4.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Grassi, Marco, Christian Morbidoni, and Francesco Piazza. "Towards Semantic Multimodal Video Annotation." In Toward Autonomous, Adaptive, and Context-Aware Multimodal Interfaces. Theoretical and Practical Issues, 305–16. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. http://dx.doi.org/10.1007/978-3-642-18184-9_25.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Cavicchio, Federica, and Massimo Poesio. "Multimodal Corpora Annotation: Validation Methods to Assess Coding Scheme Reliability." In Multimodal Corpora, 109–21. Berlin, Heidelberg: Springer Berlin Heidelberg, 2009. http://dx.doi.org/10.1007/978-3-642-04793-0_7.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Blache, Philippe, Roxane Bertrand, Gaëlle Ferré, Berthille Pallaud, Laurent Prévot, and Stéphane Rauzy. "The Corpus of Interactional Data: A Large Multimodal Annotated Resource." In Handbook of Linguistic Annotation, 1323–56. Dordrecht: Springer Netherlands, 2017. http://dx.doi.org/10.1007/978-94-024-0881-2_51.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Gibbon, Dafydd, Inge Mertins, and Roger K. Moore. "Representation and annotation of dialogue." In Handbook of Multimodal and Spoken Dialogue Systems, 1–101. Boston, MA: Springer US, 2000. http://dx.doi.org/10.1007/978-1-4615-4501-9_1.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Johnston, Michael. "Extensible Multimodal Annotation for Intelligent Interactive Systems." In Multimodal Interaction with W3C Standards, 37–64. Cham: Springer International Publishing, 2016. http://dx.doi.org/10.1007/978-3-319-42816-1_3.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Bunt, Harry, Volha Petukhova, David Traum, and Jan Alexandersson. "Dialogue Act Annotation with the ISO 24617-2 Standard." In Multimodal Interaction with W3C Standards, 109–35. Cham: Springer International Publishing, 2016. http://dx.doi.org/10.1007/978-3-319-42816-1_6.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Zagorchev, Lyubomir, Ardeshir Goshtasby, Keith Paulsen, Thomas McAllister, Stewart Young, and Juergen Weese. "Manual Annotation, 3-D Shape Reconstruction, and Traumatic Brain Injury Analysis." In Multimodal Brain Image Analysis, 52–59. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. http://dx.doi.org/10.1007/978-3-642-24446-9_7.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Conference papers on the topic "Multimodal annotation"

1

Thomas, Martin. "Querying multimodal annotation." In the Linguistic Annotation Workshop. Morristown, NJ, USA: Association for Computational Linguistics, 2007. http://dx.doi.org/10.3115/1642059.1642069.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Podlasov, A., K. O'Halloran, S. Tan, B. Smith, and A. Nagarajan. "Developing novel multimodal and linguistic annotation software." In the Third Linguistic Annotation Workshop. Morristown, NJ, USA: Association for Computational Linguistics, 2009. http://dx.doi.org/10.3115/1698381.1698404.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Blache, Philippe. "A general scheme for broad-coverage multimodal annotation." In the Third Linguistic Annotation Workshop. Morristown, NJ, USA: Association for Computational Linguistics, 2009. http://dx.doi.org/10.3115/1698381.1698414.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Barz, Michael, Mohammad Mehdi Moniri, Markus Weber, and Daniel Sonntag. "Multimodal multisensor activity annotation tool." In UbiComp '16: The 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing. New York, NY, USA: ACM, 2016. http://dx.doi.org/10.1145/2968219.2971459.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Wieschebrink, Stephan. "Collaborative editing of multimodal annotation data." In the 11th ACM symposium. New York, New York, USA: ACM Press, 2011. http://dx.doi.org/10.1145/2034691.2034706.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Froumentin, Max. "Extensible multimodal annotation markup language (EMMA)." In Proceeedings of the Workshop on NLP and XML (NLPXML-2004): RDF/RDFS and OWL in Language Technology. Morristown, NJ, USA: Association for Computational Linguistics, 2004. http://dx.doi.org/10.3115/1621066.1621071.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Zang, Xiaoxue, Ying Xu, and Jindong Chen. "Multimodal Icon Annotation For Mobile Applications." In MobileHCI '21: 23rd International Conference on Mobile Human-Computer Interaction. New York, NY, USA: ACM, 2021. http://dx.doi.org/10.1145/3447526.3472064.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Cabral, Diogo, Urândia Carvalho, João Silva, João Valente, Carla Fernandes, and Nuno Correia. "Multimodal video annotation for contemporary dance creation." In the 2011 annual conference extended abstracts. New York, New York, USA: ACM Press, 2011. http://dx.doi.org/10.1145/1979742.1979930.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Seta, L., G. Chiazzese, G. Merlo, S. Ottaviano, G. Ciulla, M. Allegra, V. Samperi, and G. Todaro. "Multimodal Annotation to Support Web Learning Activities." In 2008 19th International Conference on Database and Expert Systems Applications (DEXA). IEEE, 2008. http://dx.doi.org/10.1109/dexa.2008.68.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Lin, C.-Y., M. Naphade, A. Natsev, C. Neti, J. R. Smith, B. Tseng, H. J. Nock, and W. Adams. "User-trainable video annotation using multimodal cues." In the 26th annual international ACM SIGIR conference. New York, New York, USA: ACM Press, 2003. http://dx.doi.org/10.1145/860435.860522.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography