To see the other types of publications on this topic, follow the link: Working with a text document.

Dissertations / Theses on the topic 'Working with a text document'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Working with a text document.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Tomitch, Leda Maria Braga. "Reading : text organization perception and working memory capacity." reponame:Repositório Institucional da UFSC, 1995. https://repositorio.ufsc.br/xmlui/handle/123456789/157902.

Full text
Abstract:
Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão<br>Made available in DSpace on 2016-01-08T19:27:04Z (GMT). No. of bitstreams: 1 100378.pdf: 5795821 bytes, checksum: ce7fb8a8bb4dc4220ab9113caa8e2d55 (MD5) Previous issue date: 1995<br>Análise do processamento de leitores mais proficientes e menos proficientes durante a leitura de textos completos e incompletos organizados em termos de Problema/Solução (Hoey, 1979) e Predição (Tadros, 1985). O argumento principal é que leitores mais proficientes são mais capazes de perceber os aspectos de organização textual e fazem uso desses aspectos para organizar o fluxo de informação durante a leitura, desta forma não sobrecarregando a memória operacional. Dois experimentos são conduzidos. O primeiro investiga a correlação entre a capacidade da memória operacional, e a compreensão em leitura. O segundo investiga o uso de aspectos textuais, por leitores mais e menos proficientes. No primeiro experimento, os leitores foram divididos em dois grupos: mais proficientes e menos proficientes, de acordo com a média dos resultados obtidos nas tarefas de compreensão. No segundo experimento, os sujeitos leram cinco textos: 'problema/solução completo', 'predição completo', 'sem solução', 'sem problema' e 'predição distorcida'. Em relação ao primeiro experimento, correlações significativas foram encontradas entre a capacidade da memória operacional e as tarefas de compreensão. Em relação ao segundo experimento, os resultados indicaram que os leitores mais proficientes, também com maior capacidade de memória, foram mais capazes de fazer uso dos aspectos de organização textual do que os leitores menos proficientes, também com menor capacidade de memória. O presente estudo indica que a eficiência no processamento é um componente importante na relação entre a capacidade da memória operacional e a leitura.
APA, Harvard, Vancouver, ISO, and other styles
2

El-Haj, Mahmoud. "Multi-document Arabic text summarisation." Thesis, University of Essex, 2012. http://eprints.lancs.ac.uk/71279/.

Full text
Abstract:
Multi-document summarisation is the process of producing a single summary of a collection of related documents. Much of the current work on multi-document text summarisation is concerned with the English language; relevant resources are numerous and readily available. These resources include human generated (gold-standard) and automatic summaries. Arabic multi-document summarisation is still in its infancy. One of the obstacles to progress is the limited availability of Arabic resources to support this research. When we started our research there were no publicly available Arabic multi-document gold-standard summaries, which are needed to automatically evaluate system generated summaries. The Document Understanding Conference (DUC) and Text Analysis Conference (TAC) at that time provided resources such as gold-standard extractive and abstractive summaries (both human and system generated) that were only available in English. Our aim was to push forward the state-of-the-art in Arabic multi-document summarisation. This required advancements in at least two areas. The first area was the creation of Arabic test collections. The second area was concerned with the actual summarisation process to find methods that improve the quality of Arabic summaries. To address both points we created single and multi-document Arabic test collections both automatically and manually using a commonly used English dataset and by having human participants. We developed extractive language dependent and language independent single and multi-document summarisers, both for Arabic and English. In our work we provided state-of-the-art approaches for Arabic multi-document summarisation. We succeeded in including Arabic in one of the leading summarisation conferences the Text Analysis Conference (TAC). Researchers on Arabic multi-document summarisation now have resources and tools that can be used to advance the research in this field.
APA, Harvard, Vancouver, ISO, and other styles
3

Li, Yanjun. "High Performance Text Document Clustering." Wright State University / OhioLINK, 2007. http://rave.ohiolink.edu/etdc/view?acc_num=wright1181005422.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Sendur, Zeynel. "Text Document Categorization by Machine Learning." Scholarly Repository, 2008. http://scholarlyrepository.miami.edu/oa_theses/209.

Full text
Abstract:
Because of the explosion of digital and online text information, automatic organization of documents has become a very important research area. There are mainly two machine learning approaches to enhance the organization task of the digital documents. One of them is the supervised approach, where pre-defined category labels are assigned to documents based on the likelihood suggested by a training set of labeled documents; and the other one is the unsupervised approach, where there is no need for human intervention or labeled documents at any point in the whole process. In this thesis, we concentrate on the supervised learning task which deals with document classification. One of the most important tasks of information retrieval is to induce classifiers capable of categorizing text documents. The same document can belong to two or more categories and this situation is referred by the term multi-label classification. Multi-label classification domains have been encountered in diverse fields. Most of the existing machine learning techniques which are in multi-label classification domains are extremely expensive since the documents are characterized by an extremely large number of features. In this thesis, we are trying to reduce these computational costs by applying different types of algorithms to the documents which are characterized by large number of features. Another important thing that we deal in this thesis is to have the highest possible accuracy when we have the high computational performance on text document categorization.
APA, Harvard, Vancouver, ISO, and other styles
5

Cripwell, Liam. "Controllable and Document-Level Text Simplification." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0186.

Full text
Abstract:
La simplification de texte est une tâche qui consiste à réécrire un texte pour le rendre plus facile à lire et à comprendre pour un public plus large, tout en exprimant toujours le même sens fondamental. Cela présente des avantages potentiels pour certains utilisateurs (par exemple, les locuteurs non natifs, les enfants, les personnes ayant des difficultés de lecture), tout en étant prometteur en tant qu'étape de prétraitement pour les tâches de Traitement Automatique des Langues (TAL) en aval. Les progrès récents dans les modèles génératifs neuronaux ont conduit au développement de systèmes capables de produire des sorties très fluides. Cependant, étant donné la nature de "boîte noire" (black box) de ces systèmes de bout en bout, l'utilisation de corpus d'entraînement pour apprendre implicitement comment effectuer les opérations de réécriture nécessaires. Dans le cas de la simplification, ces ensembles de données comportent des limitation en termes à la fois de quantité et de qualité, la plupart des corpus étant soit très petits, soit construits automatiquement, soit soumis à des licences d'utilisation strictes. En conséquence, de nombreux systèmes ont tendance à être trop conservateurs, n'apportant souvent aucune modification au texte original ou se limitant à la paraphrase de courtes séquences de mots sans modifications structurelles substantielles. En outre, la plupart des travaux existants sur la simplification du texte se limitent aux entrées au niveau de la phrase, les tentatives d'application itérative de ces approches à la simplification au niveau du document ne parviennent en effet souvent pas à préserver de manière cohérente la structure du discours du document. Ceci est problématique, car la plupart des applications réelles de simplification de texte concernent des documents entiers. Dans cette thèse, nous étudions des stratégies pour atténuer la conservativité des systèmes de simplification tout en favorisant une gamme plus diversifiée de types de transformation. Cela implique la création de nouveaux ensembles de données contenant des instances d'opérations sous-représentées et la mise en œuvre de systèmes contrôlables capables d'être adaptés à des transformations spécifiques et à différents niveaux de simplicité. Nous étendons ensuite ces stratégies à la simplification au niveau du document, en proposant des systèmes capables de prendre en compte le contexte du document environnant. Nous développons également des techniques de contrôlabilité permettant de planifier les opérations à effectuer, à l'avance et au niveau de la phrase. Nous montrons que ces techniques permettent à la fois des performances élevées et une évolutivité des modèles de simplification<br>Text simplification is a task that involves rewriting a text to make it easier to read and understand for a wider audience, while still expressing the same core meaning. This has potential benefits for disadvantaged end-users (e.g. non-native speakers, children, the reading impaired), while also showing promise as a preprocessing step for downstream NLP tasks. Recent advancement in neural generative models have led to the development of systems that are capable of producing highly fluent outputs. However, these end-to-end systems often rely on training corpora to implicitly learn how to perform the necessary rewrite operations. In the case of simplification, these datasets are lacking in both quantity and quality, with most corpora either being very small, automatically constructed, or subject to strict licensing agreements. As a result, many systems tend to be overly conservative, often making no changes to the original text or being limited to the paraphrasing of short word sequences without substantial structural modifications. Furthermore, most existing work on text simplification is limited to sentence-level inputs, with attempts to iteratively apply these approaches to document-level simplification failing to coherently preserve the discourse structure of the document. This is problematic, as most real-world applications of text simplification concern document-level texts. In this thesis, we investigate strategies for mitigating the conservativity of simplification systems while promoting a more diverse range of transformation types. This involves the creation of new datasets containing instances of under-represented operations and the implementation of controllable systems capable of being tailored towards specific transformations and simplicity levels. We later extend these strategies to document-level simplification, proposing systems that are able to consider surrounding document context and use similar controllability techniques to plan which sentence-level operations to perform ahead of time, allowing for both high performance and scalability. Finally, we analyze current evaluation processes and propose new strategies that can be used to better evaluate both controllable and document-level simplification systems
APA, Harvard, Vancouver, ISO, and other styles
6

Linhares, Pontes Elvys. "Compressive Cross-Language Text Summarization." Thesis, Avignon, 2018. http://www.theses.fr/2018AVIG0232/document.

Full text
Abstract:
La popularisation des réseaux sociaux et des documents numériques a rapidement accru l'information disponible sur Internet. Cependant, cette quantité massive de données ne peut pas être analysée manuellement. Parmi les applications existantes du Traitement Automatique du Langage Naturel (TALN), nous nous intéressons dans cette thèse au résumé cross-lingue de texte, autrement dit à la production de résumés dans une langue différente de celle des documents sources. Nous analysons également d'autres tâches du TALN (la représentation des mots, la similarité sémantique ou encore la compression de phrases et de groupes de phrases) pour générer des résumés cross-lingues plus stables et informatifs. La plupart des applications du TALN, celle du résumé automatique y compris, utilisent une mesure de similarité pour analyser et comparer le sens des mots, des séquences de mots, des phrases et des textes. L’une des façons d'analyser cette similarité est de générer une représentation de ces phrases tenant compte de leur contenu. Le sens des phrases est défini par plusieurs éléments, tels que le contexte des mots et des expressions, l'ordre des mots et les informations précédentes. Des mesures simples, comme la mesure cosinus et la distance euclidienne, fournissent une mesure de similarité entre deux phrases. Néanmoins, elles n'analysent pas l'ordre des mots ou les séquences de mots. En analysant ces problèmes, nous proposons un modèle de réseau de neurones combinant des réseaux de neurones récurrents et convolutifs pour estimer la similarité sémantique d'une paire de phrases (ou de textes) en fonction des contextes locaux et généraux des mots. Sur le jeu de données analysé, notre modèle a prédit de meilleurs scores de similarité que les systèmes de base en analysant mieux le sens local et général des mots mais aussi des expressions multimots. Afin d'éliminer les redondances et les informations non pertinentes de phrases similaires, nous proposons de plus une nouvelle méthode de compression multiphrase, fusionnant des phrases au contenu similaire en compressions courtes. Pour ce faire, nous modélisons des groupes de phrases semblables par des graphes de mots. Ensuite, nous appliquons un modèle de programmation linéaire en nombres entiers qui guide la compression de ces groupes à partir d'une liste de mots-clés ; nous cherchons ainsi un chemin dans le graphe de mots qui a une bonne cohésion et qui contient le maximum de mots-clés. Notre approche surpasse les systèmes de base en générant des compressions plus informatives et plus correctes pour les langues française, portugaise et espagnole. Enfin, nous combinons les méthodes précédentes pour construire un système de résumé de texte cross-lingue. Notre système génère des résumés cross-lingue de texte en analysant l'information à la fois dans les langues source et cible, afin d’identifier les phrases les plus pertinentes. Inspirés par les méthodes de résumé de texte par compression en analyse monolingue, nous adaptons notre méthode de compression multiphrase pour ce problème afin de ne conserver que l'information principale. Notre système s'avère être performant pour compresser l'information redondante et pour préserver l'information pertinente, en améliorant les scores d'informativité sans perdre la qualité grammaticale des résumés cross-lingues du français vers l'anglais. En analysant les résumés cross-lingues depuis l’anglais, le français, le portugais ou l’espagnol, vers l’anglais ou le français, notre système améliore les systèmes par extraction de l'état de l'art pour toutes ces langues. En outre, une expérience complémentaire menée sur des transcriptions automatiques de vidéo montre que notre approche permet là encore d'obtenir des scores ROUGE meilleurs et plus stables, même pour ces documents qui présentent des erreurs grammaticales et des informations inexactes ou manquantes<br>The popularization of social networks and digital documents increased quickly the informationavailable on the Internet. However, this huge amount of data cannot be analyzedmanually. Natural Language Processing (NLP) analyzes the interactions betweencomputers and human languages in order to process and to analyze natural languagedata. NLP techniques incorporate a variety of methods, including linguistics, semanticsand statistics to extract entities, relationships and understand a document. Amongseveral NLP applications, we are interested, in this thesis, in the cross-language textsummarization which produces a summary in a language different from the languageof the source documents. We also analyzed other NLP tasks (word encoding representation,semantic similarity, sentence and multi-sentence compression) to generate morestable and informative cross-lingual summaries.Most of NLP applications (including all types of text summarization) use a kind ofsimilarity measure to analyze and to compare the meaning of words, chunks, sentencesand texts in their approaches. A way to analyze this similarity is to generate a representationfor these sentences that contains the meaning of them. The meaning of sentencesis defined by several elements, such as the context of words and expressions, the orderof words and the previous information. Simple metrics, such as cosine metric andEuclidean distance, provide a measure of similarity between two sentences; however,they do not analyze the order of words or multi-words. Analyzing these problems,we propose a neural network model that combines recurrent and convolutional neuralnetworks to estimate the semantic similarity of a pair of sentences (or texts) based onthe local and general contexts of words. Our model predicted better similarity scoresthan baselines by analyzing better the local and the general meanings of words andmulti-word expressions.In order to remove redundancies and non-relevant information of similar sentences,we propose a multi-sentence compression method that compresses similar sentencesby fusing them in correct and short compressions that contain the main information ofthese similar sentences. We model clusters of similar sentences as word graphs. Then,we apply an integer linear programming model that guides the compression of theseclusters based on a list of keywords. We look for a path in the word graph that has goodcohesion and contains the maximum of keywords. Our approach outperformed baselinesby generating more informative and correct compressions for French, Portugueseand Spanish languages. Finally, we combine these previous methods to build a cross-language text summarizationsystem. Our system is an {English, French, Portuguese, Spanish}-to-{English,French} cross-language text summarization framework that analyzes the informationin both languages to identify the most relevant sentences. Inspired by the compressivetext summarization methods in monolingual analysis, we adapt our multi-sentencecompression method for this problem to just keep the main information. Our systemproves to be a good alternative to compress redundant information and to preserve relevantinformation. Our system improves informativeness scores without losing grammaticalquality for French-to-English cross-lingual summaries. Analyzing {English,French, Portuguese, Spanish}-to-{English, French} cross-lingual summaries, our systemsignificantly outperforms extractive baselines in the state of the art for all these languages.In addition, we analyze the cross-language text summarization of transcriptdocuments. Our approach achieved better and more stable scores even for these documentsthat have grammatical errors and missing information
APA, Harvard, Vancouver, ISO, and other styles
7

Tran, Charles. "Intelligent document format, a text encoding scheme." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1997. http://www.collectionscanada.ca/obj/s4/f2/dsk3/ftp04/mq20956.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Langiu, Alessio. "Optimal Parsing for dictionary text compression." Thesis, Paris Est, 2012. http://www.theses.fr/2012PEST1091/document.

Full text
Abstract:
Les algorithmes de compression de données basés sur les dictionnaires incluent une stratégie de parsing pour transformer le texte d'entrée en une séquence de phrases du dictionnaire. Etant donné un texte, un tel processus n'est généralement pas unique et, pour comprimer, il est logique de trouver, parmi les parsing possibles, celui qui minimise le plus le taux de compression finale. C'est ce qu'on appelle le problème du parsing. Un parsing optimal est une stratégie de parsing ou un algorithme de parsing qui résout ce problème en tenant compte de toutes les contraintes d'un algorithme de compression ou d'une classe d'algorithmes de compression homogène. Les contraintes de l'algorithme de compression sont, par exemple, le dictionnaire lui-même, c'est-à-dire l'ensemble dynamique de phrases disponibles, et combien une phrase pèse sur le texte comprimé, c'est-à-dire quelle est la longueur du mot de code qui représente la phrase, appelée aussi le coût du codage d'un pointeur de dictionnaire. En plus de 30 ans d'histoire de la compression de texte par dictionnaire, une grande quantité d'algorithmes, de variantes et d'extensions sont apparus. Cependant, alors qu'une telle approche de la compression du texte est devenue l'une des plus appréciées et utilisées dans presque tous les processus de stockage et de communication, seuls quelques algorithmes de parsing optimaux ont été présentés. Beaucoup d'algorithmes de compression manquent encore d'optimalité pour leur parsing, ou du moins de la preuve de l'optimalité. Cela se produit parce qu'il n'y a pas un modèle général pour le problème de parsing qui inclut tous les algorithmes par dictionnaire et parce que les parsing optimaux existants travaillent sous des hypothèses trop restrictives. Ce travail focalise sur le problème de parsing et présente à la fois un modèle général pour la compression des textes basée sur les dictionnaires appelé la théorie Dictionary-Symbolwise et un algorithme général de parsing qui a été prouvé être optimal sous certaines hypothèses réalistes. Cet algorithme est appelé Dictionary-Symbolwise Flexible Parsing et couvre pratiquement tous les cas des algorithmes de compression de texte basés sur dictionnaire ainsi que la grande classe de leurs variantes où le texte est décomposé en une séquence de symboles et de phrases du dictionnaire. Dans ce travail, nous avons aussi considéré le cas d'un mélange libre d'un compresseur par dictionnaire et d'un compresseur symbolwise. Notre Dictionary-Symbolwise Flexible Parsing couvre également ce cas-ci. Nous avons bien un algorithme de parsing optimal dans le cas de compression Dictionary-Symbolwise où le dictionnaire est fermé par préfixe et le coût d'encodage des pointeurs du dictionnaire est variable. Le compresseur symbolwise est un compresseur symbolwise classique qui fonctionne en temps linéaire, comme le sont de nombreux codeurs communs à longueur variable. Notre algorithme fonctionne sous l'hypothèse qu'un graphe spécial, qui sera décrit par la suite, soit bien défini. Même si cette condition n'est pas remplie, il est possible d'utiliser la même méthode pour obtenir des parsing presque optimaux. Dans le détail, lorsque le dictionnaire est comme LZ78, nous montrons comment mettre en œuvre notre algorithme en temps linéaire. Lorsque le dictionnaire est comme LZ77 notre algorithme peut être mis en œuvre en temps O (n log n) où n est le longueur du texte. Dans les deux cas, la complexité en espace est O (n). Même si l'objectif principal de ce travail est de nature théorique, des résultats expérimentaux seront présentés pour souligner certains effets pratiques de l'optimalité du parsing sur les performances de compression et quelques résultats expérimentaux plus détaillés sont mis dans une annexe appropriée<br>Dictionary-based compression algorithms include a parsing strategy to transform the input text into a sequence of dictionary phrases. Given a text, such process usually is not unique and, for compression purpose, it makes sense to find one of the possible parsing that minimizes the final compression ratio. This is the parsing problem. An optimal parsing is a parsing strategy or a parsing algorithm that solve the parsing problem taking account of all the constraints of a compression algorithm or of a class of homogeneous compression algorithms. Compression algorithm constrains are, for instance, the dictionary itself, i.e. the dynamic set of available phrases, and how much a phrase weight on the compressed text, i.e. the length of the codeword that represent such phrase also denoted as the cost of a dictionary pointer encoding. In more than 30th years of history of dictionary based text compression, while plenty of algorithms, variants and extensions appeared and while such approach to text compression become one of the most appreciated and utilized in almost all the storage and communication process, only few optimal parsing algorithms was presented. Many compression algorithms still leaks optimality of their parsing or, at least, proof of optimality. This happens because there is not a general model of the parsing problem that includes all the dictionary based algorithms and because the existing optimal parsings work under too restrictive hypothesis. This work focus on the parsing problem and presents both a general model for dictionary based text compression called Dictionary-Symbolwise theory and a general parsing algorithm that is proved to be optimal under some realistic hypothesis. This algorithm is called Dictionary-Symbolwise Flexible Parsing and it covers almost all the cases of dictionary based text compression algorithms together with the large class of their variants where the text is decomposed in a sequence of symbols and dictionary phrases.In this work we further consider the case of a free mixture of a dictionary compressor and a symbolwise compressor. Our Dictionary-Symbolwise Flexible Parsing covers also this case. We have indeed an optimal parsing algorithm in the case of dictionary-symbolwise compression where the dictionary is prefix closed and the cost of encoding dictionary pointer is variable. The symbolwise compressor is any classical one that works in linear time, as many common variable-length encoders do. Our algorithm works under the assumption that a special graph that will be described in the following, is well defined. Even if this condition is not satisfied it is possible to use the same method to obtain almost optimal parses. In detail, when the dictionary is LZ78-like, we show how to implement our algorithm in linear time. When the dictionary is LZ77-like our algorithm can be implemented in time O(n log n). Both have O(n) space complexity. Even if the main aim of this work is of theoretical nature, some experimental results will be introduced to underline some practical effects of the parsing optimality in compression performance and some more detailed experiments are hosted in a devoted appendix
APA, Harvard, Vancouver, ISO, and other styles
9

Cankaya, Zeynep. "Influence of working memory capacity and reading purpose on young readers' text comprehension." Thesis, McGill University, 2008. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=19247.

Full text
Abstract:
Reading comprehension processes are assumed to be influenced by reading purpose and working memory capacity (WMC). However, it is still unknown how these factors affect comprehension processes in young readers. The aim of this study was to explore whether cognitive processes varied as a function of reading purpose (test versus game) and WMC (high versus low) in young readers. The 39 participants completed the Working Memory Test Battery for Children (WMTB-C), a verbal protocol and a free-recall task. Separate ANOVAs on cognitive processes response categories detected medium effect sizes. In the free recall task, test condition readers exhibited more paraphrasing and recalled more idea units than readers in the game condition. In the verbal protocol task, readers in the game condition uttered more evaluative comments than in the test condition. Furthermore, low WMC readers produced more predictive inferences than the high WMC group. Possible contributions of reading purpose and WMC to text comprehension for educational practice were discussed.<br>Les processus cognitifs impliqués dans la compréhension de textes sont influencés par le but de la lecture et la capacité de mémoire de travail (CMT). Toutefois, nous ignorons toujours comment ces facteurs influencent la lecture chez les jeunes lecteurs. Le but de cette étude était de vérifier si les processus cognitifs varient en fonction du but de la lecture (test versus jeu) et de la capacité de la mémoire de travail (faible versus élevée) chez les jeunes enfants. Les trente-neuf participants de l'étude ont complété le Working Memory Test Battery for Children (WMTB-C), un protocole verbal et une tâche de rappel libre. Les analyses statistiques comparant les différentes catégories de processus cognitifs ont révélé des effets de taille moyenne. Pour le rappel libre, les lecteurs ont paraphrasé davantage et ont mémorisé plus de groupes d'idées dans la condition test que la condition jeu. Lors du protocole verbal, les lecteurs de la condition jeu ont fait plus de commentaires évaluatifs que dans la condition test. Finalement, les enfants ayant une CMT plus faible ont prononcé plus d'inférences de prédiction que ceux ayant une CMT plus élevée. La contribution des processus cognitifs et de la CMT à la compréhension de lecture dans un contexte éducatif fut considérée.
APA, Harvard, Vancouver, ISO, and other styles
10

Bouayad-Agha, Nadjet. "The role of document structure in text generation." Thesis, University of Brighton, 2001. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.366234.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Pastor, Pellicer Joan. "Neural Networks for Document Image and Text Processing." Doctoral thesis, Universitat Politècnica de València, 2017. http://hdl.handle.net/10251/90443.

Full text
Abstract:
Nowadays, the main libraries and document archives are investing a considerable effort on digitizing their collections. Indeed, most of them are scanning the documents and publishing the resulting images without their corresponding transcriptions. This seriously limits the document exploitation possibilities. When the transcription is necessary, it is manually performed by human experts, which is a very expensive and error-prone task. Obtaining transcriptions to the level of required quality demands the intervention of human experts to review and correct the resulting output of the recognition engines. To this end, it is extremely useful to provide interactive tools to obtain and edit the transcription. Although text recognition is the final goal, several previous steps (known as preprocessing) are necessary in order to get a fine transcription from a digitized image. Document cleaning, enhancement, and binarization (if they are needed) are the first stages of the recognition pipeline. Historical Handwritten Documents, in addition, show several degradations, stains, ink-trough and other artifacts. Therefore, more sophisticated and elaborate methods are required when dealing with these kind of documents, even expert supervision in some cases is needed. Once images have been cleaned, main zones of the image have to be detected: those that contain text and other parts such as images, decorations, versal letters. Moreover, the relations among them and the final text have to be detected. Those preprocessing steps are critical for the final performance of the system since an error at this point will be propagated during the rest of the transcription process. The ultimate goal of the Document Image Analysis pipeline is to receive the transcription of the text (Optical Character Recognition and Handwritten Text Recognition). During this thesis we aimed to improve the main stages of the recognition pipeline, from the scanned documents as input to the final transcription. We focused our effort on applying Neural Networks and deep learning techniques directly on the document images to extract suitable features that will be used by the different tasks dealt during the following work: Image Cleaning and Enhancement (Document Image Binarization), Layout Extraction, Text Line Extraction, Text Line Normalization and finally decoding (or text line recognition). As one can see, the following work focuses on small improvements through the several Document Image Analysis stages, but also deals with some of the real challenges: historical manuscripts and documents without clear layouts or very degraded documents. Neural Networks are a central topic for the whole work collected in this document. Different convolutional models have been applied for document image cleaning and enhancement. Connectionist models have been used, as well, for text line extraction: first, for detecting interest points and combining them in text segments and, finally, extracting the lines by means of aggregation techniques; and second, for pixel labeling to extract the main body area of the text and then the limits of the lines. For text line preprocessing, i.e., to normalize the text lines before recognizing them, similar models have been used to detect the main body area and then to height-normalize the images giving more importance to the central area of the text. Finally, Convolutional Neural Networks and deep multilayer perceptrons have been combined with hidden Markov models to improve our transcription engine significantly. The suitability of all these approaches has been tested with different corpora for any of the stages dealt, giving competitive results for most of the methodologies presented.<br>Hoy en día, las principales librerías y archivos está invirtiendo un esfuerzo considerable en la digitalización de sus colecciones. De hecho, la mayoría están escaneando estos documentos y publicando únicamente las imágenes sin transcripciones, limitando seriamente la posibilidad de explotar estos documentos. Cuando la transcripción es necesaria, esta se realiza normalmente por expertos de forma manual, lo cual es una tarea costosa y propensa a errores. Si se utilizan sistemas de reconocimiento automático se necesita la intervención de expertos humanos para revisar y corregir la salida de estos motores de reconocimiento. Por ello, es extremadamente útil para proporcionar herramientas interactivas con el fin de generar y corregir la transcripciones. Aunque el reconocimiento de texto es el objetivo final del Análisis de Documentos, varios pasos previos (preprocesamiento) son necesarios para conseguir una buena transcripción a partir de una imagen digitalizada. La limpieza, mejora y binarización de las imágenes son las primeras etapas del proceso de reconocimiento. Además, los manuscritos históricos tienen una mayor dificultad en el preprocesamiento, puesto que pueden mostrar varios tipos de degradaciones, manchas, tinta a través del papel y demás dificultades. Por lo tanto, este tipo de documentos requiere métodos de preprocesamiento más sofisticados. En algunos casos, incluso, se precisa de la supervisión de expertos para garantizar buenos resultados en esta etapa. Una vez que las imágenes han sido limpiadas, las diferentes zonas de la imagen deben de ser localizadas: texto, gráficos, dibujos, decoraciones, letras versales, etc. Por otra parte, también es importante conocer las relaciones entre estas entidades. Estas etapas del pre-procesamiento son críticas para el rendimiento final del sistema, ya que los errores cometidos en aquí se propagarán al resto del proceso de transcripción. El objetivo principal del trabajo presentado en este documento es mejorar las principales etapas del proceso de reconocimiento completo: desde las imágenes escaneadas hasta la transcripción final. Nuestros esfuerzos se centran en aplicar técnicas de Redes Neuronales (ANNs) y aprendizaje profundo directamente sobre las imágenes de los documentos, con la intención de extraer características adecuadas para las diferentes tareas: Limpieza y Mejora de Documentos, Extracción de Líneas, Normalización de Líneas de Texto y, finalmente, transcripción del texto. Como se puede apreciar, el trabajo se centra en pequeñas mejoras en diferentes etapas del Análisis y Procesamiento de Documentos, pero también trata de abordar tareas más complejas: manuscritos históricos, o documentos que presentan degradaciones. Las ANNs y el aprendizaje profundo son uno de los temas centrales de esta tesis. Diferentes modelos neuronales convolucionales se han desarrollado para la limpieza y mejora de imágenes de documentos. También se han utilizado modelos conexionistas para la extracción de líneas: primero, para detectar puntos de interés y segmentos de texto y, agregarlos para extraer las líneas del documento; y en segundo lugar, etiquetando directamente los píxeles de la imagen para extraer la zona central del texto y así definir los límites de las líneas. Para el preproceso de las líneas de texto, es decir, la normalización del texto antes del reconocimiento final, se han utilizado modelos similares a los mencionados para detectar la zona central del texto. Las imagenes se rescalan a una altura fija dando más importancia a esta zona central. Por último, en cuanto a reconocimiento de escritura manuscrita, se han combinado técnicas de ANNs y aprendizaje profundo con Modelos Ocultos de Markov, mejorando significativamente los resultados obtenidos previamente por nuestro motor de reconocimiento. La idoneidad de todos estos enfoques han sido testeados con diferentes corpus en cada una de las tareas tratadas., obtenie<br>Avui en dia, les principals llibreries i arxius històrics estan invertint un esforç considerable en la digitalització de les seues col·leccions de documents. De fet, la majoria estan escanejant aquests documents i publicant únicament les imatges sense les seues transcripcions, fet que limita seriosament la possibilitat d'explotació d'aquests documents. Quan la transcripció del text és necessària, normalment aquesta és realitzada per experts de forma manual, la qual cosa és una tasca costosa i pot provocar errors. Si s'utilitzen sistemes de reconeixement automàtic es necessita la intervenció d'experts humans per a revisar i corregir l'eixida d'aquests motors de reconeixement. Per aquest motiu, és extremadament útil proporcionar eines interactives amb la finalitat de generar i corregir les transcripcions generades pels motors de reconeixement. Tot i que el reconeixement del text és l'objectiu final de l'Anàlisi de Documents, diversos passos previs (coneguts com preprocessament) són necessaris per a l'obtenció de transcripcions acurades a partir d'imatges digitalitzades. La neteja, millora i binarització de les imatges (si calen) són les primeres etapes prèvies al reconeixement. A més a més, els manuscrits històrics presenten una major dificultat d'analisi i preprocessament, perquè poden mostrar diversos tipus de degradacions, taques, tinta a través del paper i altres peculiaritats. Per tant, aquest tipus de documents requereixen mètodes de preprocessament més sofisticats. En alguns casos, fins i tot, es precisa de la supervisió d'experts per a garantir bons resultats en aquesta etapa. Una vegada que les imatges han sigut netejades, les diferents zones de la imatge han de ser localitzades: text, gràfics, dibuixos, decoracions, versals, etc. D'altra banda, també és important conéixer les relacions entre aquestes entitats i el text que contenen. Aquestes etapes del preprocessament són crítiques per al rendiment final del sistema, ja que els errors comesos en aquest moment es propagaran a la resta del procés de transcripció. L'objectiu principal del treball que estem presentant és millorar les principals etapes del procés de reconeixement, és a dir, des de les imatges escanejades fins a l'obtenció final de la transcripció del text. Els nostres esforços se centren en aplicar tècniques de Xarxes Neuronals (ANNs) i aprenentatge profund directament sobre les imatges de documents, amb la intenció d'extraure característiques adequades per a les diferents tasques analitzades: neteja i millora de documents, extracció de línies, normalització de línies de text i, finalment, transcripció. Com es pot apreciar, el treball realitzat aplica xicotetes millores en diferents etapes de l'Anàlisi de Documents, però també tracta d'abordar tasques més complexes: manuscrits històrics, o documents que presenten degradacions. Les ANNs i l'aprenentatge profund són un dels temes centrals d'aquesta tesi. Diferents models neuronals convolucionals s'han desenvolupat per a la neteja i millora de les dels documents. També s'han utilitzat models connexionistes per a la tasca d'extracció de línies: primer, per a detectar punts d'interés i segments de text i, agregar-los per a extraure les línies del document; i en segon lloc, etiquetant directament els pixels de la imatge per a extraure la zona central del text i així definir els límits de les línies. Per al preprocés de les línies de text, és a dir, la normalització del text abans del reconeixement final, s'han utilitzat models similars als utilitzats per a l'extracció de línies. Finalment, quant al reconeixement d'escriptura manuscrita, s'han combinat tècniques de ANNs i aprenentatge profund amb Models Ocults de Markov, que han millorat significativament els resultats obtinguts prèviament pel nostre motor de reconeixement. La idoneïtat de tots aquests enfocaments han sigut testejats amb diferents corpus en cadascuna de les tasques tractad<br>Pastor Pellicer, J. (2017). Neural Networks for Document Image and Text Processing [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90443<br>TESIS
APA, Harvard, Vancouver, ISO, and other styles
12

Calarasanu, Stefania Ana. "Improvement of a text detection chain and the proposition of a new evaluation protocol for text detection algorithms." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066524/document.

Full text
Abstract:
Le nombre croissant d'approches de détection de texte proposé dans la littérature exige une évaluation rigoureuse de la performance. Un protocole d'évaluation repose sur trois éléments: une vérité terrain fiable, une stratégie d'appariement et enfin un ensemble de métriques. Peu de protocoles existent et ces protocoles manquent souvent de précision. Dans cette thèse, nous proposons un nouveau protocole d'évaluation qui résout la plupart des problèmes rencontrés dans les méthodes d'évaluation actuelles. Ce travail est axé sur trois contributions principales : tout d’abord, nous introduisons une représentation complexe de la vérité terrain qui ne contraint pas les détecteurs de texte à adopter un niveau de granularité de détection spécifique ou une représentation d'annotation ; d’autre part, nous proposons un ensemble de règles capables d'évaluer tous types de scénario qui peuvent se produire entre les objets de la vérité terrain et les détections correspondantes ; et enfin, nous montrons comment nous pouvons analyser un ensemble de résultats de détection, non seulement à travers un ensemble de mesures, mais aussi à travers une représentation visuelle intuitive. Un défi fréquent pour de nombreux systèmes de détection de texte est d'aborder la variété des caractéristiques de texte dans des images naturelles ou d’origine numérique pour lesquels les OCR actuels ne sont pas bien adaptées. Par exemple, des textes en perspective sont fréquemment présents dans les images réelles. Dans cette thèse, nous proposons également une procédure de rectification capable de corriger des textes hautement déformés, évalué sur un ensemble de données difficiles<br>The growing number of text detection approaches proposed in the literature requires a rigorous performance evaluation and ranking. An evaluation protocol relies on three elements: a reliable text reference, a matching strategy and finally a set of metrics. The few existing evaluation protocols often lack accuracy either due to inconsistent matching or due to unrepresentative metrics. In this thesis we propose a new evaluation protocol that tackles most of the drawbacks faced by currently used evaluation methods. This work is focused on three main contributions: firstly, we introduce a complex text reference representation that does not constrain text detectors to adopt a specific detection granularity level or annotation representation; secondly, we propose a set of matching rules capable of evaluating any type of scenario that can occur between a text reference and a detection; and finally we show how we can analyze a set of detection results, not only through a set of metrics, but also through an intuitive visual representation. A frequent challenge for many Text Understanding Systems is to tackle the variety of text characteristics in born-digital and natural scene images for which current OCRs are not well adapted. For example, texts in perspective are frequently present in real-word images because the camera capture angle is not normal to the plane containing the text regions. Despite the ability of some detectors to accurately localize such text objects, the recognition stage fails most of the time. In this thesis we also propose a rectification procedure capable of correcting highly distorted texts evaluated on a very challenging dataset
APA, Harvard, Vancouver, ISO, and other styles
13

Tran, Thi Quynh Nhi. "Robust and comprehensive joint image-text representations." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1096/document.

Full text
Abstract:
La présente thèse étudie la modélisation conjointe des contenus visuels et textuels extraits à partir des documents multimédias pour résoudre les problèmes intermodaux. Ces tâches exigent la capacité de ``traduire'' l'information d'une modalité vers une autre. Un espace de représentation commun, par exemple obtenu par l'Analyse Canonique des Corrélation ou son extension kernelisée est une solution généralement adoptée. Sur cet espace, images et texte peuvent être représentés par des vecteurs de même type sur lesquels la comparaison intermodale peut se faire directement.Néanmoins, un tel espace commun souffre de plusieurs déficiences qui peuvent diminuer la performance des ces tâches. Le premier défaut concerne des informations qui sont mal représentées sur cet espace pourtant très importantes dans le contexte de la recherche intermodale. Le deuxième défaut porte sur la séparation entre les modalités sur l'espace commun, ce qui conduit à une limite de qualité de traduction entre modalités. Pour faire face au premier défaut concernant les données mal représentées, nous avons proposé un modèle qui identifie tout d'abord ces informations et puis les combine avec des données relativement bien représentées sur l'espace commun. Les évaluations sur la tâche d'illustration de texte montrent que la prise en compte de ces information fortement améliore les résultats de la recherche intermodale. La contribution majeure de la thèse se concentre sur la séparation entre les modalités sur l'espace commun pour améliorer la performance des tâches intermodales. Nous proposons deux méthodes de représentation pour les documents bi-modaux ou uni-modaux qui regroupent à la fois des informations visuelles et textuelles projetées sur l'espace commun. Pour les documents uni-modaux, nous suggérons un processus de complétion basé sur un ensemble de données auxiliaires pour trouver les informations correspondantes dans la modalité absente. Ces informations complémentaires sont ensuite utilisées pour construire une représentation bi-modale finale pour un document uni-modal. Nos approches permettent d'obtenir des résultats de l'état de l'art pour la recherche intermodale ou la classification bi-modale et intermodale<br>This thesis investigates the joint modeling of visual and textual content of multimedia documents to address cross-modal problems. Such tasks require the ability to match information across modalities. A common representation space, obtained by eg Kernel Canonical Correlation Analysis, on which images and text can be both represented and directly compared is a generally adopted solution.Nevertheless, such a joint space still suffers from several deficiencies that may hinder the performance of cross-modal tasks. An important contribution of this thesis is therefore to identify two major limitations of such a space. The first limitation concerns information that is poorly represented on the common space yet very significant for a retrieval task. The second limitation consists in a separation between modalities on the common space, which leads to coarse cross-modal matching. To deal with the first limitation concerning poorly-represented data, we put forward a model which first identifies such information and then finds ways to combine it with data that is relatively well-represented on the joint space. Evaluations on emph{text illustration} tasks show that by appropriately identifying and taking such information into account, the results of cross-modal retrieval can be strongly improved. The major work in this thesis aims to cope with the separation between modalities on the joint space to enhance the performance of cross-modal tasks.We propose two representation methods for bi-modal or uni-modal documents that aggregate information from both the visual and textual modalities projected on the joint space. Specifically, for uni-modal documents we suggest a completion process relying on an auxiliary dataset to find the corresponding information in the absent modality and then use such information to build a final bi-modal representation for a uni-modal document. Evaluations show that our approaches achieve state-of-the-art results on several standard and challenging datasets for cross-modal retrieval or bi-modal and cross-modal classification
APA, Harvard, Vancouver, ISO, and other styles
14

Pfitzner, Darius Mark, and pfit0022@flinders edu au. "An Investigation into User Text Query and Text Descriptor Construction." Flinders University. Computer Science, Engineering and Mathematics, 2009. http://catalogue.flinders.edu.au./local/adt/public/adt-SFU20090805.141402.

Full text
Abstract:
Cognitive limitations such as those described in Miller's (1956) work on channel capacity and Cowen's (2001) on short-term memory are factors in determining user cognitive load and in turn task performance. Inappropriate user cognitive load can reduce user efficiency in goal realization. For instance, if the user's attentional capacity is not appropriately applied to the task, distractor processing can tend to appropriate capacity from it. Conversely, if a task drives users beyond their short-term memory envelope, information loss may be realized in its translation to long-term memory and subsequent retrieval for task base processing. To manage user cognitive capacity in the task of text search the interface should allow users to draw on their powerful and innate pattern recognition abilities. This harmonizes with Johnson-Laird's (1983) proposal that propositional representation is tied to mental models. Combined with the theory that knowledge is highly organized when stored in memory an appropriate approach for cognitive load optimization would be to graphically present single documents, or clusters thereof, with an appropriate number and type of descriptors. These descriptors are commonly words and/or phrases. Information theory research suggests that words have different levels of importance in document topic differentiation. Although key word identification is well researched, there is a lack of basic research into human preference regarding query formation and the heuristics users employ in search. This lack extends to features as elementary as the number of words preferred to describe and/or search for a document. Contrastive understanding these preferences will help balance processing overheads of tasks like clustering against user cognitive load to realize a more efficient document retrieval process. Common approaches such as search engine log analysis cannot provide this degree of understanding and do not allow clear identification of the intended set of target documents. This research endeavours to improve the manner in which text search returns are presented so that user performance under real world situations is enhanced. To this end we explore both how to appropriately present search information and results graphically to facilitate optimal cognitive and perceptual load/utilization, as well as how people use textual information in describing documents or constructing queries.
APA, Harvard, Vancouver, ISO, and other styles
15

Jo, Taeho. "The implementation of dynamic document organization using the integration of text clustering and text categorization." Thesis, University of Ottawa (Canada), 2006. http://hdl.handle.net/10393/29353.

Full text
Abstract:
A document organization is a collection of documents composed of labeled clusters that contain similar documents. In any information system, a collection of documents always changes as time goes, since users access the collection to delete, add, and update documents. Dynamic Document Organization is a document organization that adapts automatically to such variable document collections. DDO poses two challenges, because of the decentralized mode of access. First, some clusters may have many documents, while others may have very few. Second, documents belonging to new topics may be added to the information system very often. Considering these two points, we need to reorganize the collection of documents, even if it was organized previously. Both text categorization and text clustering are limited when implementing DDO (Dynamic Document Organization) individually. Text categorization requires the manual preliminary tasks of the predefinition of a classification system and the preparation of sample labeled documents. Text clustering generates only unnamed clusters alone; each cluster should be labeled, manually by scanning contained documents. Therefore, this dissertation proposes approaches to the implementation of DDO that combined text clustering, cluster identification, and text categorization.
APA, Harvard, Vancouver, ISO, and other styles
16

Perez-Hernández, Juan Carlos. "An experimental document preparation system /." Thesis, McGill University, 1987. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=63791.

Full text
APA, Harvard, Vancouver, ISO, and other styles
17

Green, Anne Marie. "The Interaction between Working Memory Capacity and Noise on Recall and Recognition of Orally Presented Text." Thesis, University of Gävle, Department of Education and Psychology, 2007. http://urn.kb.se/resolve?urn=urn:nbn:se:hig:diva-240.

Full text
Abstract:
<p>The objectives of the present study were 1) to examine the effects of noise exposure on recall and recognition of orally presented text and 2) to examine the relation between working memory capacity and the performance of recall and recognition of orally presented text in noisy conditions. A total of 32 subjects, age 20-33, with no known hearing impairment, were paid to participate in the experiment. The hearing ability of all subjects was tested using recorded sentences with and without background noise. Their working memory capacity was tested using listening span, reading span and operation span tests measuring a) correctly recalled words of all three tests, b) the response latency in the reading span test and c) the processing time of the arithmetical operations in the operation span test. Finally all subjects took recall and recognition tests on texts presented orally with and without broadband background noise (white noise). The test results showed that 1) noise had no significant main effect on recall or recognition of the spoken texts, 2) ) the capacity of the central executive component of working memory, measured as the processing time of the arithmetical operations of the operation span test, correlated significantly with recall and recognition of the orally presented text in the noise condition, but not in the control condition, 3) noise exposure had a negative effect on the recognition performance of subjects with lower capacity of the central executive component of working memory.</p>
APA, Harvard, Vancouver, ISO, and other styles
18

Wei, Zhihua. "The research on chinese text multi-label classification." Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO20025/document.

Full text
Abstract:
Text Classification (TC) which is an important field in information technology has many valuable applications. When facing the sea of information resources, the objects of TC are more complicated and diversity. The researches in pursuit of effective and practical TC technology are fairly challenging. More and more researchers regard that multi-label TC is more suited for many applications. This thesis analyses the difficulties and problems in multi-label TC and Chinese text representation based on a mass of algorithms for single-label TC and multi-label TC. Aiming at high dimensionality in feature space, sparse distribution in text representation and poor performance of multi-label classifier, this thesis will bring forward corresponding algorithms from different angles.Focusing on the problem of dimensionality “disaster” when Chinese texts are represented by using n-grams, two-step feature selection algorithm is constructed. The method combines filtering rare features within class and selecting discriminative features across classes. Moreover, the proper value of “n”, the strategy of feature weight and the correlation among features are discussed based on variety of experiments. Some useful conclusions are contributed to the research of n-gram representation in Chinese texts.In a view of the disadvantage in Latent Dirichlet Allocation (LDA) model, that is, arbitrarily revising the variable in smooth process, a new strategy for smoothing based on Tolerance Rough Set (TRS) is put forward. It constructs tolerant class in global vocabulary database firstly and then assigns value for out-of-vocabulary (oov) word in each class according to tolerant class.In order to improve performance of multi-label classifier and degrade computing complexity, a new TC method based on LDA model is applied for Chinese text representation. It extracts topics statistically from texts and then texts are represented by using the topic vector. It shows competitive performance both in English and in Chinese corpus.To enhance the performance of classifiers in multi-label TC, a compound classification framework is raised. It partitions the text space by computing the upper approximation and lower approximation. This algorithm decomposes a multi-label TC problem into several single-label TCs and several multi-label TCs which have less labels than original problem. That is, an unknown text should be classified by single-label classifier when it is partitioned into lower approximation space of some class. Otherwise, it should be classified by corresponding multi-label classifier.An application system TJ-MLWC (Tongji Multi-label Web Classifier) was designed. It could call the result from Search Engines directly and classify these results real-time using improved Naïve Bayes classifier. This makes the browse process more conveniently for users. Users could locate the texts interested immediately according to the class information given by TJ-MLWC<br>La thèse est centrée sur la Classification de texte, domaine en pleine expansion, avec de nombreuses applications actuelles et potentielles. Les apports principaux de la thèse portent sur deux points : Les spécificités du codage et du traitement automatique de la langue chinoise : mots pouvant être composés de un, deux ou trois caractères ; absence de séparation typographique entre les mots ; grand nombre d’ordres possibles entre les mots d’une phrase ; tout ceci aboutissant à des problèmes difficiles d’ambiguïté. La solution du codage en «n-grams »(suite de n=1, ou 2 ou 3 caractères) est particulièrement adaptée à la langue chinoise, car elle est rapide et ne nécessite pas les étapes préalables de reconnaissance des mots à l’aide d’un dictionnaire, ni leur séparation. La classification multi-labels, c'est-à-dire quand chaque individus peut être affecté à une ou plusieurs classes. Dans le cas des textes, on cherche des classes qui correspondent à des thèmes (topics) ; un même texte pouvant être rattaché à un ou plusieurs thème. Cette approche multilabel est plus générale : un même patient peut être atteint de plusieurs pathologies ; une même entreprise peut être active dans plusieurs secteurs industriels ou de services. La thèse analyse ces problèmes et tente de leur apporter des solutions, d’abord pour les classifieurs unilabels, puis multi-labels. Parmi les difficultés, la définition des variables caractérisant les textes, leur grand nombre, le traitement des tableaux creux (beaucoup de zéros dans la matrice croisant les textes et les descripteurs), et les performances relativement mauvaises des classifieurs multi-classes habituels<br>文本分类是信息科学中一个重要而且富有实际应用价值的研究领域。随着文本分类处理内容日趋复杂化和多元化,分类目标也逐渐多样化,研究有效的、切合实际应用需求的文本分类技术成为一个很有挑战性的任务,对多标签分类的研究应运而生。本文在对大量的单标签和多标签文本分类算法进行分析和研究的基础上,针对文本表示中特征高维问题、数据稀疏问题和多标签分类中分类复杂度高而精度低的问题,从不同的角度尝试运用粗糙集理论加以解决,提出了相应的算法,主要包括:针对n-gram作为中文文本特征时带来的维数灾难问题,提出了两步特征选择的方法,即去除类内稀有特征和类间特征选择相结合的方法,并就n-gram作为特征时的n值选取、特征权重的选择和特征相关性等问题在大规模中文语料库上进行了大量的实验,得出一些有用的结论。针对文本分类中运用高维特征表示文本带来的分类效率低,开销大等问题,提出了基于LDA模型的多标签文本分类算法,利用LDA模型提取的主题作为文本特征,构建高效的分类器。在PT3多标签分类转换方法下,该分类算法在中英文数据集上都表现出很好的效果,与目前公认最好的多标签分类方法效果相当。针对LDA模型现有平滑策略的随意性和武断性的缺点,提出了基于容差粗糙集的LDA语言模型平滑策略。该平滑策略首先在全局词表上构造词的容差类,再根据容差类中词的频率为每类文档的未登录词赋予平滑值。在中英文、平衡和不平衡语料库上的大量实验都表明该平滑方法显著提高了LDA模型的分类性能,在不平衡语料库上的提高尤其明显。针对多标签分类中分类复杂度高而精度低的问题,提出了一种基于可变精度粗糙集的复合多标签文本分类框架,该框架通过可变精度粗糙集方法划分文本特征空间,进而将多标签分类问题分解为若干个两类单标签分类问题和若干个标签数减少了的多标签分类问题。即,当一篇未知文本被划分到某一类文本的下近似区域时,可以直接用简单的单标签文本分类器判断其类别;当未知文本被划分在边界域时,则采用相应区域的多标签分类器进行分类。实验表明,这种分类框架下,分类的精确度和算法效率都有较大的提高。本文还设计和实现了一个基于多标签分类的网页搜索结果可视化系统(MLWC),该系统能够直接调用搜索引擎返回的搜索结果,并采用改进的Naïve Bayes多标签分类算法实现实时的搜索结果分类,使用户可以快速地定位搜索结果中感兴趣的文本。
APA, Harvard, Vancouver, ISO, and other styles
19

Yousfi, Sonia. "Embedded Arabic text detection and recognition in videos." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI069/document.

Full text
Abstract:
Cette thèse s'intéresse à la détection et la reconnaissance du texte arabe incrusté dans les vidéos. Dans ce contexte, nous proposons différents prototypes de détection et d'OCR vidéo (Optical Character Recognition) qui sont robustes à la complexité du texte arabe (différentes échelles, tailles, polices, etc.) ainsi qu'aux différents défis liés à l'environnement vidéo et aux conditions d'acquisitions (variabilité du fond, luminosité, contraste, faible résolution, etc.). Nous introduisons différents détecteurs de texte arabe qui se basent sur l'apprentissage artificiel sans aucun prétraitement. Les détecteurs se basent sur des Réseaux de Neurones à Convolution (ConvNet) ainsi que sur des schémas de boosting pour apprendre la sélection des caractéristiques textuelles manuellement conçus. Quant à notre méthodologie d'OCR, elle se passe de la segmentation en traitant chaque image de texte en tant que séquence de caractéristiques grâce à un processus de scanning. Contrairement aux méthodes existantes qui se basent sur des caractéristiques manuellement conçues, nous proposons des représentations pertinentes apprises automatiquement à partir des données. Nous utilisons différents modèles d'apprentissage profond, regroupant des Auto-Encodeurs, des ConvNets et un modèle d'apprentissage non-supervisé, qui génèrent automatiquement ces caractéristiques. Chaque modèle résulte en un système d'OCR bien spécifique. Le processus de reconnaissance se base sur une approche connexionniste récurrente pour l'apprentissage de l'étiquetage des séquences de caractéristiques sans aucune segmentation préalable. Nos modèles d'OCR proposés sont comparés à d'autres modèles qui se basent sur des caractéristiques manuellement conçues. Nous proposons, en outre, d'intégrer des modèles de langage (LM) arabes afin d'améliorer les résultats de reconnaissance. Nous introduisons différents LMs à base des Réseaux de Neurones Récurrents capables d'apprendre des longues interdépendances linguistiques. Nous proposons un schéma de décodage conjoint qui intègre les inférences du LM en parallèle avec celles de l'OCR tout en introduisant un ensemble d’hyper-paramètres afin d'améliorer la reconnaissance et réduire le temps de réponse. Afin de surpasser le manque de corpus textuels arabes issus de contenus multimédia, nous mettons au point de nouveaux corpus manuellement annotés à partir des flux TV arabes. Le corpus conçu pour l'OCR, nommé ALIF et composée de 6,532 images de texte annotées, a été publié a des fins de recherche. Nos systèmes ont été développés et évalués sur ces corpus. L’étude des résultats a permis de valider nos approches et de montrer leurs efficacité et généricité avec plus de 97% en taux de détection, 88.63% en taux de reconnaissance mots sur le corpus ALIF dépassant ainsi un des systèmes d'OCR commerciaux les mieux connus par 36 points<br>This thesis focuses on Arabic embedded text detection and recognition in videos. Different approaches robust to Arabic text variability (fonts, scales, sizes, etc.) as well as to environmental and acquisition condition challenges (contrasts, degradation, complex background, etc.) are proposed. We introduce different machine learning-based solutions for robust text detection without relying on any pre-processing. The first method is based on Convolutional Neural Networks (ConvNet) while the others use a specific boosting cascade to select relevant hand-crafted text features. For the text recognition, our methodology is segmentation-free. Text images are transformed into sequences of features using a multi-scale scanning scheme. Standing out from the dominant methodology of hand-crafted features, we propose to learn relevant text representations from data using different deep learning methods, namely Deep Auto-Encoders, ConvNets and unsupervised learning models. Each one leads to a specific OCR (Optical Character Recognition) solution. Sequence labeling is performed without any prior segmentation using a recurrent connectionist learning model. Proposed solutions are compared to other methods based on non-connectionist and hand-crafted features. In addition, we propose to enhance the recognition results using Recurrent Neural Network-based language models that are able to capture long-range linguistic dependencies. Both OCR and language model probabilities are incorporated in a joint decoding scheme where additional hyper-parameters are introduced to boost recognition results and reduce the response time. Given the lack of public multimedia Arabic datasets, we propose novel annotated datasets issued from Arabic videos. The OCR dataset, called ALIF, is publicly available for research purposes. As the best of our knowledge, it is first public dataset dedicated for Arabic video OCR. Our proposed solutions were extensively evaluated. Obtained results highlight the genericity and the efficiency of our approaches, reaching a word recognition rate of 88.63% on the ALIF dataset and outperforming well-known commercial OCR engine by more than 36%
APA, Harvard, Vancouver, ISO, and other styles
20

Estall, Craig. "A study in distributed document retrieval." Thesis, Queen's University Belfast, 1985. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.328342.

Full text
APA, Harvard, Vancouver, ISO, and other styles
21

Mazyad, Ahmad. "Contribution to automatic text classification : metrics and evolutionary algorithms." Thesis, Littoral, 2018. http://www.theses.fr/2018DUNK0487/document.

Full text
Abstract:
Cette thèse porte sur le traitement du langage naturel et l'exploration de texte, à l'intersection de l'apprentissage automatique et de la statistique. Nous nous intéressons plus particulièrement aux schémas de pondération des termes (SPT) dans le contexte de l'apprentissage supervisé et en particulier à la classification de texte. Dans la classification de texte, la tâche de classification multi-étiquettes a suscité beaucoup d'intérêt ces dernières années. La classification multi-étiquettes à partir de données textuelles peut être trouvée dans de nombreuses applications modernes telles que la classification de nouvelles où la tâche est de trouver les catégories auxquelles appartient un article de presse en fonction de son contenu textuel (par exemple, politique, Moyen-Orient, pétrole), la classification du genre musical (par exemple, jazz, pop, oldies, pop traditionnelle) en se basant sur les commentaires des clients, la classification des films (par exemple, action, crime, drame), la classification des produits (par exemple, électronique, ordinateur, accessoires). La plupart des algorithmes d'apprentissage ne conviennent qu'aux problèmes de classification binaire. Par conséquent, les tâches de classification multi-étiquettes sont généralement transformées en plusieurs tâches binaires à label unique. Cependant, cette transformation introduit plusieurs problèmes. Premièrement, les distributions des termes ne sont considérés qu'en matière de la catégorie positive et de la catégorie négative (c'est-à-dire que les informations sur les corrélations entre les termes et les catégories sont perdues). Deuxièmement, il n'envisage aucune dépendance vis-à-vis des étiquettes (c'est-à-dire que les informations sur les corrélations existantes entre les classes sont perdues). Enfin, puisque toutes les catégories sauf une sont regroupées dans une seule catégories (la catégorie négative), les tâches nouvellement créées sont déséquilibrées. Ces informations sont couramment utilisées par les SPT supervisés pour améliorer l'efficacité du système de classification. Ainsi, après avoir présenté le processus de classification de texte multi-étiquettes, et plus particulièrement le SPT, nous effectuons une comparaison empirique de ces méthodes appliquées à la tâche de classification de texte multi-étiquette. Nous constatons que la supériorité des méthodes supervisées sur les méthodes non supervisées n'est toujours pas claire. Nous montrons ensuite que ces méthodes ne sont pas totalement adaptées au problème de la classification multi-étiquettes et qu'elles ignorent beaucoup d'informations statistiques qui pourraient être utilisées pour améliorer les résultats de la classification. Nous proposons donc un nouvel SPT basé sur le gain d'information. Cette nouvelle méthode prend en compte la distribution des termes, non seulement en ce qui concerne la catégorie positive et la catégorie négative, mais également en rapport avec toutes les autres catégories. Enfin, dans le but de trouver des SPT spécialisés qui résolvent également le problème des tâches déséquilibrées, nous avons étudié les avantages de l'utilisation de la programmation génétique pour générer des SPT pour la tâche de classification de texte. Contrairement aux études précédentes, nous générons des formules en combinant des informations statistiques à un niveau microscopique (par exemple, le nombre de documents contenant un terme spécifique) au lieu d'utiliser des SPT complets. De plus, nous utilisons des informations catégoriques telles que (par exemple, le nombre de catégories dans lesquelles un terme apparaît). Des expériences sont effectuées pour mesurer l'impact de ces méthodes sur les performances du modèle. Nous montrons à travers ces expériences que les résultats sont positifs<br>This thesis deals with natural language processing and text mining, at the intersection of machine learning and statistics. We are particularly interested in Term Weighting Schemes (TWS) in the context of supervised learning and specifically the Text Classification (TC) task. In TC, the multi-label classification task has gained a lot of interest in recent years. Multi-label classification from textual data may be found in many modern applications such as news classification where the task is to find the categories that a newswire story belongs to (e.g., politics, middle east, oil), based on its textual content, music genre classification (e.g., jazz, pop, oldies, traditional pop) based on customer reviews, film classification (e.g. action, crime, drama), product classification (e.g. Electronics, Computers, Accessories). Traditional classification algorithms are generally binary classifiers, and they are not suited for the multi-label classification. The multi-label classification task is, therefore, transformed into multiple single-label binary tasks. However, this transformation introduces several issues. First, terms distributions are only considered in relevance to the positive and the negative categories (i.e., information on the correlations between terms and categories is lost). Second, it fails to consider any label dependency (i.e., information on existing correlations between classes is lost). Finally, since all categories but one are grouped into one category (the negative category), the newly created tasks are imbalanced. This information is commonly used by supervised TWS to improve the effectiveness of the classification system. Hence, after presenting the process of multi-label text classification, and more particularly the TWS, we make an empirical comparison of these methods applied to the multi-label text classification task. We find that the superiority of the supervised methods over the unsupervised methods is still not clear. We show then that these methods are not fully adapted to the multi-label classification problem and they ignore much statistical information that coul be used to improve the classification results. Thus, we propose a new TWS based on information gain. This new method takes into consideration the term distribution, not only regarding the positive and the negative categories but also in relevance to all classes. Finally, aiming at finding specialized TWS that also solve the issue of imbalanced tasks, we studied the benefits of using genetic programming for generating TWS for the text classification task. Unlike previous studies, we generate formulas by combining statistical information at a microscopic level (e.g., the number of documents that contain a specific term) instead of using complete TWS. Furthermore, we make use of categorical information such as (e.g., the number of categories where a term occurs). Experiments are made to measure the impact of these methods on the performance of the model. We show through these experiments that the results are positive
APA, Harvard, Vancouver, ISO, and other styles
22

Guennec, David. "Study of unit selection text-to-speech synthesis algorithms." Thesis, Rennes 1, 2016. http://www.theses.fr/2016REN1S055/document.

Full text
Abstract:
La synthèse de la parole par corpus (sélection d'unités) est le sujet principal de cette thèse. Tout d'abord, une analyse approfondie et un diagnostic de l'algorithme de sélection d'unités (algorithme de recherche dans le treillis d'unités) sont présentés. L'importance de l'optimalité de la solution est discutée et une nouvelle mise en œuvre de la sélection basée sur un algorithme A* est présenté. Trois améliorations de la fonction de coût sont également présentées. La première est une nouvelle façon – dans le coût cible – de minimiser les différences spectrales en sélectionnant des séquences d'unités minimisant un coût moyen au lieu d'unités minimisant chacune un coût cible de manière absolue. Ce coût est testé pour une distance sur la durée phonémique mais peut être appliqué à d'autres distances. Notre deuxième proposition est une fonction de coût cible visant à améliorer l'intonation en se basant sur des coefficients extraits à travers une version généralisée du modèle de Fujisaki. Les paramètres de ces fonctions sont utilisés au sein d'un coût cible. Enfin, notre troisième contribution concerne un système de pénalités visant à améliorer le coût de concaténation. Il pénalise les unités en fonction de classes reposant sur une hiérarchie du degré de risque qu'un artefact de concaténation se produise lors de la concaténation sur un phone de cette classe. Ce système est différent des autres dans la littérature en cela qu'il est tempéré par une fonction floue capable d'adoucir le système de pénalités pour les unités présentant des coûts de concaténation parmi les plus bas de leur distribution<br>This PhD thesis focuses on the automatic speech synthesis field, and more specifically on unit selection. A deep analysis and a diagnosis of the unit selection algorithm (lattice search algorithm) is provided. The importance of the solution optimality is discussed and a new unit selection implementation based on a A* algorithm is presented. Three cost function enhancements are also presented. The first one is a new way – in the target cost – to minimize important spectral differences by selecting sequences of candidate units that minimize a mean cost instead of an absolute one. This cost is tested on a phonemic duration distance but can be applied to others. Our second proposition is a target sub-cost addressing intonation that is based on coefficients extracted through a generalized version of Fujisaki's command-response model. This model features gamma functions modeling F0 called atoms. Finally, our third contribution concerns a penalty system that aims at enhancing the concatenation cost. It penalizes units in function of classes defining the risk a concatenation artifact occurs when concatenating on a phone of this class. This system is different to others in the literature in that it is tempered by a fuzzy function that allows to soften penalties for units presenting low concatenation costs
APA, Harvard, Vancouver, ISO, and other styles
23

Bluche, Théodore. "Deep Neural Networks for Large Vocabulary Handwritten Text Recognition." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112062/document.

Full text
Abstract:
La transcription automatique du texte dans les documents manuscrits a de nombreuses applications, allant du traitement automatique des documents à leur indexation ou leur compréhension. L'une des approches les plus populaires de nos jours consiste à parcourir l'image d'une ligne de texte avec une fenêtre glissante, de laquelle un certain nombre de caractéristiques sont extraites, et modélisées par des Modèles de Markov Cachés (MMC). Quand ils sont associés à des réseaux de neurones, comme des Perceptrons Multi-Couches (PMC) ou Réseaux de Neurones Récurrents de type Longue Mémoire à Court Terme (RNR-LMCT), et à un modèle de langue, ces modèles produisent de bonnes transcriptions. D'autre part, dans de nombreuses applications d'apprentissage automatique, telles que la reconnaissance de la parole ou d'images, des réseaux de neurones profonds, comportant plusieurs couches cachées, ont récemment permis une réduction significative des taux d'erreur.Dans cette thèse, nous menons une étude poussée de différents aspects de modèles optiques basés sur des réseaux de neurones profonds dans le cadre de systèmes hybrides réseaux de neurones / MMC, dans le but de mieux comprendre et évaluer leur importance relative. Dans un premier temps, nous montrons que des réseaux de neurones profonds apportent des améliorations cohérentes et significatives par rapport à des réseaux ne comportant qu'une ou deux couches cachées, et ce quel que soit le type de réseau étudié, PMC ou RNR, et d'entrée du réseau, caractéristiques ou pixels. Nous montrons également que les réseaux de neurones utilisant les pixels directement ont des performances comparables à ceux utilisant des caractéristiques de plus haut niveau, et que la profondeur des réseaux est un élément important de la réduction de l'écart de performance entre ces deux types d'entrées, confirmant la théorie selon laquelle les réseaux profonds calculent des représentations pertinantes, de complexités croissantes, de leurs entrées, en apprenant les caractéristiques de façon automatique. Malgré la domination flagrante des RNR-LMCT dans les publications récentes en reconnaissance d'écriture manuscrite, nous montrons que des PMCs profonds atteignent des performances comparables. De plus, nous avons évalué plusieurs critères d'entrainement des réseaux. Avec un entrainement discriminant de séquences, nous reportons, pour des systèmes PMC/MMC, des améliorations comparables à celles observées en reconnaissance de la parole. Nous montrons également que la méthode de Classification Temporelle Connexionniste est particulièrement adaptée aux RNRs. Enfin, la technique du dropout a récemment été appliquée aux RNR. Nous avons testé son effet à différentes positions relatives aux connexions récurrentes des RNRs, et nous montrons l'importance du choix de ces positions.Nous avons mené nos expériences sur trois bases de données publiques, qui représentent deux langues (l'anglais et le français), et deux époques, en utilisant plusieurs types d'entrées pour les réseaux de neurones : des caractéristiques prédéfinies, et les simples valeurs de pixels. Nous avons validé notre approche en participant à la compétition HTRtS en 2014, où nous avons obtenu la deuxième place. Les résultats des systèmes présentés dans cette thèse, avec les deux types de réseaux de neurones et d'entrées, sont comparables à l'état de l'art sur les bases Rimes et IAM, et leur combinaison dépasse les meilleurs résultats publiés sur les trois bases considérées<br>The automatic transcription of text in handwritten documents has many applications, from automatic document processing, to indexing and document understanding. One of the most popular approaches nowadays consists in scanning the text line image with a sliding window, from which features are extracted, and modeled by Hidden Markov Models (HMMs). Associated with neural networks, such as Multi-Layer Perceptrons (MLPs) or Long Short-Term Memory Recurrent Neural Networks (LSTM-RNNs), and with a language model, these models yield good transcriptions. On the other hand, in many machine learning applications, including speech recognition and computer vision, deep neural networks consisting of several hidden layers recently produced a significant reduction of error rates. In this thesis, we have conducted a thorough study of different aspects of optical models based on deep neural networks in the hybrid neural network / HMM scheme, in order to better understand and evaluate their relative importance. First, we show that deep neural networks produce consistent and significant improvements over networks with one or two hidden layers, independently of the kind of neural network, MLP or RNN, and of input, handcrafted features or pixels. Then, we show that deep neural networks with pixel inputs compete with those using handcrafted features, and that depth plays an important role in the reduction of the performance gap between the two kinds of inputs, supporting the idea that deep neural networks effectively build hierarchical and relevant representations of their inputs, and that features are automatically learnt on the way. Despite the dominance of LSTM-RNNs in the recent literature of handwriting recognition, we show that deep MLPs achieve comparable results. Moreover, we evaluated different training criteria. With sequence-discriminative training, we report similar improvements for MLP/HMMs as those observed in speech recognition. We also show how the Connectionist Temporal Classification framework is especially suited to RNNs. Finally, the novel dropout technique to regularize neural networks was recently applied to LSTM-RNNs. We tested its effect at different positions in LSTM-RNNs, thus extending previous works, and we show that its relative position to the recurrent connections is important. We conducted the experiments on three public databases, representing two languages (English and French) and two epochs, using different kinds of neural network inputs: handcrafted features and pixels. We validated our approach by taking part to the HTRtS contest in 2014. The results of the final systems presented in this thesis, namely MLPs and RNNs, with handcrafted feature or pixel inputs, are comparable to the state-of-the-art on Rimes and IAM. Moreover, the combination of these systems outperformed all published results on the considered databases
APA, Harvard, Vancouver, ISO, and other styles
24

Goffin, Pascal. "An Exploration of Word-Scale Visualizations for Text Documents." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS256/document.

Full text
Abstract:
Ma dissertation explore comment l'intégration de petites visualisations contextuelles basées sur des données peut complémenter des documents écrits. Plus spécifiquement, j'identifie et je définis des aspects importants et des directions de recherches pertinentes pour l'intégration de petites visualisations contextuelles basées sur des données textuelles. Cette intégration devra finalement devenir aussi fluide qu'écrire et aussi utile que lire un texte. Je définis les visualisations-mots (Word-Scale Visualizations) comme étant de petites visualisations contextuelles basées sur des données intégrées au texte de documents. Ces visualisations peuvent utiliser de multiples codages visuels incluant les cartes géographiques, les heatmaps, les graphes circulaires, et des visualisations plus complexes. Les visualisations-mots offrent une grande variété de dimensions toujours proches de l’échelle d’un mot, parfois plus grandes, mais toujours plus petites qu’une phrase ou un paragraphe. Les visualisations-mots peuvent venir en aide et être utilisées dans plusieurs formes de discours écrits tels les manuels, les notes, les billets de blogs, les rapports, les histoires, ou même les poèmes. En tant que complément visuel de textes, les visualisations-mots peuvent être utilisées pour accentuer certains éléments d'un document (comme un mot ou une phrase), ou pour apporter de l'information additionnelle. Par exemple, un petit diagramme de l'évolution du cours de l’action d’une entreprise peut être intégré à côté du nom de celle-ci pour apporter de l'information additionnelle sur la tendance passée du cours de l'action. Dans un autre exemple, des statistiques de jeux peuvent être incluses à côté du nom d'équipe de football ou de joueur dans les articles concernant le championnat d'Europe de football. Ces visualisations-mots peuvent notamment aider le lecteur à faire des comparaisons entre le nombre de passes des équipes et des joueurs. Le bénéfice majeur des visualisations-mots réside dans le fait que le lecteur peut rester concentré sur le texte, vu que les visualisations sont dans le texte et non à côté.Dans ma thèse j’apporte les contributions suivantes : j'explore pourquoi les visualisation-mots peuvent être utiles et comment promouvoir leur création. J’étudie différentes options de placement pour les visualisations-mots et je quantifie leurs effets sur la disposition du texte et sa mise en forme. Comme les visualisations-mots ont aussi des implications sur le comportement de lecture du lecteur, je propose une première étude qui étudie les différents placements de visualisations-mots sur le comportement de lecture. J'examine aussi comment combiner les visualisations-mots et l'interaction pour soutenir une lecture plus active en proposant des méthodes de collection, d’arrangement et de comparaison de visualisations-mots. Finalement, je propose des considérations de design pour la conception et la création de visualisations-mots et je conclus avec des exemples d'application.En résumé cette dissertation contribue à la compréhension de petites visualisations contextuelles basées sur des données intégrées dans le texte et à leur utilité pour la visualisation d'informations<br>This dissertation explores how embedding small data-driven contextual visualizations can complement text documents. More specifically, I identify and define important aspects and relevant research directions for the integration of small data-driven contextual visualizations into text. This integration should eventually become as fluid as writing and as usable as reading a text. I define word-scale visualisations as small data-driven contextual visualizations embedded in text documents. These visualizations can use various visual encodings including geographical maps, heat maps, pie charts, and more complex visualizations. They can appear at a range of word scales, including sizes larger than a letter, but smaller than a sentence or paragraph. Word-scale visualisations can help support and be used in many forms of written discourse such as text books, notes, blog posts, reports, stories, or poems. As graphical supplements to text, word-scale visualisations can be used to emphasize certain elements of a document (e.g. a word or a sentence), or to provide additional information. For example, a small stock chart can be embedded next to the name of a company to provide additional information about the past trends of its stocks. In another example, game statistics can be embedded next to the names of soccer teams or players in daily reports from the UEFA European Championship. These word-scale visualisations can then for example allow readers to make comparison between number of passes of teams and players. The main benefit of word-scale visualisations is that the reader can remain focused on the text as the visualization are within the text rather than alongside it.In the thesis, I make the following main contributions: I explore why word-scale visualisations can be useful and how to support their creation. I investigate placement options to embed word-scale visualisations and quantify their effects on the layout and flow of the text. As word-scale visualisations also have implications on the reader's reading behavior I propose a first study that investigates different word-scale visualisation positions on the reading behavior. I also explore how word-scale visualisations can be combined with interaction to support a more active reading by proposing interaction methods to collect, arrange and compare word-scale visualisations. Finally, I propose design considerations for the authoring of word-scale visualisations and conclude with application examples.In summary, this dissertation contributes to the understanding of small data-driven contextual visualizations embedded into text and their value for Information Visualization
APA, Harvard, Vancouver, ISO, and other styles
25

Paul, Jeannette Adriana. "Pregnancy and the standing working posture an ergonomic approach /." Amsterdam : Amsterdam : Amsterdam : Study Centre on Work and Health, Faculty of Medicine, University of Amsterdam ; Coronel Laboratorium ; Universiteit van Amsterdam [Host], 1993. http://dare.uva.nl/document/41107.

Full text
APA, Harvard, Vancouver, ISO, and other styles
26

Kipp, Darren. "Shallow semantics for topic-oriented multi-document automatic text summarization." Thesis, University of Ottawa (Canada), 2008. http://hdl.handle.net/10393/27772.

Full text
Abstract:
There are presently a number of NLP tools available which can provide semantic information about a sentence. Connexor Machinese Semantics is one of the most elaborate of such tools in terms of the information it provides. It has been hypothesized that semantic analysis of sentences is required in order to make significant improvements in automatic summarization. Elaborate semantic analysis is still not particularly feasible. In this thesis, I will look at what shallow semantic features are available from an off the shelf semantic analysis tool which might improve the responsiveness of a summary. The aim of this work is to use the information made available as an intermediary approach to improving the responsiveness of summaries. While this approach is not likely to perform as well as full semantic analysis, it is considerably easier to achieve and could provide an important stepping stone in the direction of deeper semantic analysis. As a significant portion of this task we develop mechanisms in various programming languages to view, process, and extract relevant information and features from the data.
APA, Harvard, Vancouver, ISO, and other styles
27

Alsaad, Amal. "Enhanced root extraction and document classification algorithm for Arabic text." Thesis, Brunel University, 2016. http://bura.brunel.ac.uk/handle/2438/13510.

Full text
Abstract:
Many text extraction and classification systems have been developed for English and other international languages; most of the languages are based on Roman letters. However, Arabic language is one of the difficult languages which have special rules and morphology. Not many systems have been developed for Arabic text categorization. Arabic language is one of the Semitic languages with morphology that is more complicated than English. Due to its complex morphology, there is a need for pre-processing routines to extract the roots of the words then classify them according to the group of acts or meaning. In this thesis, a system has been developed and tested for text classification. The system is based on two stages, the first is to extract the roots from text and the second is to classify the text according to predefined categories. The linguistic root extraction stage is composed of two main phases. The first phase is to handle removal of affixes including prefixes, suffixes and infixes. Prefixes and suffixes are removed depending on the length of the word, while checking its morphological pattern after each deduction to remove infixes. In the second phase, the root extraction algorithm is formulated to handle weak, defined, eliminated-long-vowel and two-letter geminated words, as there is a substantial great amount of irregular Arabic words in texts. Once the roots are extracted, they are checked against a predefined list of 3800 triliteral and 900 quad literal roots. Series of experiments has been conducted to improve and test the performance of the proposed algorithm. The obtained results revealed that the developed algorithm has better accuracy than the existing stemming algorithm. The second stage is the document classification stage. In this stage two non-parametric classifiers are tested, namely Artificial Neural Networks (ANN) and Support Vector Machine (SVM). The system is trained on 6 categories: culture, economy, international, local, religion and sports. The system is trained on 80% of the available data. From each category, the 10 top frequent terms are selected as features. Testing the classification algorithms has been done on the remaining 20% of the documents. The results of ANN and SVM are compared to the standard method used for text classification, the terms frequency-based method. Results show that ANN and SVM have better accuracy (80-90%) compared to the standard method (60-70%). The proposed method proves the ability to categorize the Arabic text documents into the appropriate categories with a high precision rate.
APA, Harvard, Vancouver, ISO, and other styles
28

Yilmazel, Ozgur. "Empirical selection of NLP-driven document representations for text categorization." Related electronic resource: Current Research at SU : database of SU dissertations, recent titles available full text, 2006. http://proquest.umi.com/login?COPT=REJTPTU0NWQmSU5UPTAmVkVSPTI=&clientId=3739.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

Kaban, Ata. "Latent variable models with application to text based document representation." Thesis, University of the West of Scotland, 2001. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.365082.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Smith, R. W. "The extraction and recognition of text from multimedia document images." Thesis, University of Bristol, 1987. http://hdl.handle.net/1983/c1de9e88-004f-4ee7-8060-e7cf025e86b6.

Full text
APA, Harvard, Vancouver, ISO, and other styles
31

Anne, Chaitanya. "Advanced Text Analytics and Machine Learning Approach for Document Classification." ScholarWorks@UNO, 2017. http://scholarworks.uno.edu/td/2292.

Full text
Abstract:
Text classification is used in information extraction and retrieval from a given text, and text classification has been considered as an important step to manage a vast number of records given in digital form that is far-reaching and expanding. This thesis addresses patent document classification problem into fifteen different categories or classes, where some classes overlap with other classes for practical reasons. For the development of the classification model using machine learning techniques, useful features have been extracted from the given documents. The features are used to classify patent document as well as to generate useful tag-words. The overall objective of this work is to systematize NASA’s patent management, by developing a set of automated tools that can assist NASA to manage and market its portfolio of intellectual properties (IP), and to enable easier discovery of relevant IP by users. We have identified an array of methods that can be applied such as k-Nearest Neighbors (kNN), two variations of the Support Vector Machine (SVM) algorithms, and two tree based classification algorithms: Random Forest and J48. The major research steps in this work consist of filtering techniques for variable selection, information gain and feature correlation analysis, and training and testing potential models using effective classifiers. Further, the obstacles associated with the imbalanced data were mitigated by adding synthetic data wherever appropriate, which resulted in a superior SVM classifier based model.
APA, Harvard, Vancouver, ISO, and other styles
32

Рябова, Н. В., Н. А. Волошина та С. А. Гринев. "Применение методов Text Mining для решения задач онтологического инжиниринга". Thesis, НТМТ, 2014. http://openarchive.nure.ua/handle/document/7197.

Full text
Abstract:
Онтологический подход к разработке Web-систем, ориентированных на структурированное представление и обработку данных, информации и знаний, в настоящее время признан наиболее эффективным и получил широкое распространение в области современных IT-технологий. Онтологический инжиниринг (Ontological Engineering - OE) активно развивается как отдельное направление научно-практических исследований, корни которого лежат в инженерии знаний, изучающей методы, модели и алгоритмы извлечения, структурирования, представления и обработки знаний с целью построения баз знаний интеллектуальных систем.
APA, Harvard, Vancouver, ISO, and other styles
33

Harish, Omri. "Network mechanisms of working memory : from persistent dynamics to chaos." Thesis, Paris 5, 2013. http://www.theses.fr/2013PA05T073/document.

Full text
Abstract:
Une des capacités cérébrales les plus fondamentales, qui est essentiel pour tous les fonctions cognitifs de haut niveau, est de garder des informations pertinentes de tâche pendant les périodes courtes de temps; on connaît cette capacité comme la mémoire de travail (WM). Dans des décennies récentes, accumule là l'évidence d'activité pertinente de tâche dans le cortex préfrontal (PFC) de primates pendant les périodes de "delay" de tâches de "delay-response", impliquant ainsi que PFC peut maintenir des informations sensorielles et ainsi la fonction comme un module de WM. Pour la récupération d'informationssensorielles de l'activité de réseau après que le stimulus sensoriel n'est plus présent il est impératif que l'état du réseau au moment de la récupération soit corrélé avec son état au moment de la compensation de stimulus. Un extrême, en vue dans les modèles informatiques de WM, est la coexistence d'attracteurs multiples. Dans cette approche la dynamique de réseau a une multitude d'états stables possibles, qui correspondent aux états différents de mémoire et un stimulus peut forcer le réseau à changer à un tel état stable. Autrement, même en absence d'attracteurs multiples, si la dynamique du réseau estchaotique alors les informations sur des événements passés peuvent être extraites de l'état du réseau, à condition que la durée typique de l'autocorrélation (AC) de dynamique neuronale soit assez grande. Dans la première partie de cette thèse, j'étudie un modèle à base d'attracteur de mémoire d'un emplacement spatial, pour examiner le rôle des non-linéarités de courbes de f-I neuronales dans des mécanismes de WM. Je fournis une théorie analytique et des résultats de simulations montrant que ces nonlinéarités, plutôt que les constants de temps synaptic ou neuronal, peuvent être la base de mécanismes de réseau WM. Dans la deuxième partie j'explore des facteurs contrôlant la durée d'ACs neuronales dans ungrand réseau "balanced" affichant la dynamique chaotique. Je développe une théorie de moyen champ (MF) décrivant l'ACs en termes de plusieurs paramètres d'ordre. Alors, je montre qu'en dehors de la proximité au point de transition-à-chaos, qui peut augmenter la largeur de la courbe d'AC, l'existence de motifs de connectivité peut causer des corrélations de longue durée dans l'état du réseau<br>One of the most fundamental brain capabilities, that is vital for any high level cognitive function, is to store task-relevant information for short periods of time; this capability is known as working memory (WM). In recent decades there is accumulating evidence of taskrelevant activity in the prefrontal cortex (PFC) of primates during delay periods of delayedresponse tasks, thus implying that PFC is able to maintain sensory information and so function as a WM module. For retrieval of sensory information from network activity after the sensory stimulus is no longer present it is imperative that the state of the network at the time of retrieval be correlated with its state at the time of stimulus offset. One extreme, prominent in computational models of WM, is the co-existence of multiple attractors. In this approach the network dynamics has a multitude of possible steady states, which correspond to different memory states, and a stimulus can force the network to shift to one such steady state. Alternatively, even in the absence of multiple attractors, if the dynamics of the network is chaotic then information about past events can be extracted from the state of the network, provided that the typical time scale of the autocorrelation (AC) of neuronal dynamics is large enough. In the first part of this thesis I study an attractor-based model of memory of a spatial location to investigate the role of non-linearities of neuronal f-I curves in WM mechanisms. I provide an analytic theory and simulation results showing that these nonlinearities, rather than synaptic or neuronal time constants, can be the basis of WM network mechanisms. In the second part I explore factors controlling the time scale of neuronal ACs in a large balanced network displaying chaotic dynamics. I develop a mean-field (MF) theory describing the ACs in terms of several order parameters. Then, I show that apart from the proximity to the transition-to-chaos point, which can increase the width of the AC curve, the existence of connectivity motifs can cause long-time correlations in the state of the network
APA, Harvard, Vancouver, ISO, and other styles
34

Watanabe, Yasuhiko. "Integrated Analysis of Image, Diagram, and Text for Multimedia Document Retrieval." 京都大学 (Kyoto University), 2002. http://hdl.handle.net/2433/149384.

Full text
APA, Harvard, Vancouver, ISO, and other styles
35

Wang, Yanbo Justin. "Language-independent pre-processing of large document bases for text classification." Thesis, University of Liverpool, 2008. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.445960.

Full text
Abstract:
Text classification is a well-known topic in the research of knowledge discovery in databases. Algorithms for text classification generally involve two stages. The first is concerned with identification of textual features (i.e. words andlor phrases) that may be relevant to the classification process. The second is concerned with classification rule mining and categorisation of "unseen" textual data. The first stage is the subject of this thesis and often involves an analysis of text that is both language-specific (and possibly domain-specific), and that may also be computationally costly especially when dealing with large datasets. Existing approaches to this stage are not, therefore, generally applicable to all languages. In this thesis, we examine a number of alternative keyword selection methods and phrase generation strategies, coupled with two potential significant word list construction mechanisms and two final significant word selection mechanisms, to identify such words andlor phrases in a given textual dataset that are expected to serve to distinguish between classes, by simple, language-independent statistical properties. We present experimental results, using common (large) textual datasets presented in two distinct languages, to show that the proposed approaches can produce good performance with respect to both classification accuracy and processing efficiency. In other words, the study presented in this thesis demonstrates the possibility of efficiently solving the traditional text classification problem in a language-independent (also domain-independent) manner.
APA, Harvard, Vancouver, ISO, and other styles
36

alaql, Omar. "TEXT LINE EXTRACTION FOR HISTORICAL DOCUMENT IMAGES USING LOCAL CONNECTIVITY MAP." Kent State University / OhioLINK, 2014. http://rave.ohiolink.edu/etdc/view?acc_num=kent1397436643.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Defebvre, Éric. "Disentangling occupational and health paths : employment, working conditions and health interactions." Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC0018/document.

Full text
Abstract:
L’objectif de cette thèse est de démêler quelques-unes des nombreuses interrelations entre travail, emploi et état de santé, la plupart du temps dans une logique longitudinale. Établir des relations causales entre ces trois dynamiques n’est pas chose aisée, dans la mesure où de nombreux biais statistiques entachent généralement les estimations, notamment les biais de sélection ainsi que les trois sources classiques d’endogénéité. Cette thèse se propose dans un premier chapitre d’étudier l’effet de la santé mentale sur la capacité à se maintenir en emploi des travailleurs. Le deuxième chapitre explore les possibles sources d’hétérogénéité du rôle des conditions de travail sur la santé en s’intéressant aux effets d’expositions variables en termes d’intensité et de nature en début de carrière sur les maladies chroniques. Enfin, le troisième chapitre traite de la fin de carrière et de la décision de départ en retraite. L'enquête en données de panel françaises de l’enquête Santé et itinéraire professionnel (Sip) comptant plus de 13 000 est utilisée dans cette thèse. Plusieurs méthodologies sont mises en place dans ce travail de manière à prendre en compte les biais d’endogénéité, notamment des méthodes en variables instrumentales ainsi que des méthodes d’évaluation des politiques publiques (appariement et différence-de-différences). Les résultats confirment qu’emploi, santé et travail sont intimement liés, avec respectivement des conséquences avérées des chocs de santé sur la trajectoire professionnelle, et inversement un rôle prépondérant du travail sur la santé<br>The objective of this Ph.D. Dissertation is to disentangle some of the many interrelationships between work, employment and health, mostly in a longitudinal approach. Establishing causal relationships between these three concepts is not easy, as many statistical biases generally undermine estimates, including selection biases and the three classical sources of endogeneity. This thesis proposes in a first chapter to study the effect of a mental health shock on workers’ ability to remain in employment. The second chapter explores the possible sources of heterogeneity in the role of working conditions on health status by examining the effects of variable early-career exposures in terms of intensity and nature on the onset of chronic diseases. Finally, the third chapter deals with the end of the career and the decision to retire. The French panel data from the Health and Professional Path (Sip, Santé et Itinéraire Professionnel) survey with more than 13,000 respondents is used in this work, as well as several methodologies in order to take into account endogeneity biases, in particular methods relying on instrumental variables and methods for public policy evaluation (matching and difference-in-differences). The results confirm that employment, health and work are intimately related, with clear consequences of health shocks on employment and, conversely, a preponderant role of work on the determination of health status
APA, Harvard, Vancouver, ISO, and other styles
38

Walsh, D. "Working class political integration and the Conservative Party : a study of class relations and party political development in the North-West, 1800-1870." Thesis, University of Salford, 1991. http://usir.salford.ac.uk/14792/.

Full text
Abstract:
The thesis is primarily concerned with the investigation of inter-related themes. Firstly, it sets out to examine the changing nature and role of the Conservative party in the decades immediately following the 1832 Reform Act up until the advent of householder franchise and the Second Reform Act of 1867. The main contention is that political parties after the First Reform Act began to display many of the features and functions which political scientists of our own age see as the essential traits of ndern party structures. One key area in which the Conservative party revealed these traits of ITodernity was in the way the party in the localities began to integrate sections of the industrial working class into the party structure, a phenomenon which had not occurred before 1832. This leads us on to our second central theme, namely the description of the political developiient of the vrking class of the North-West region with specific reference as to why some sections of the industrial working class began to support and join the Conservative party after 1832. The thesis is divided into two sections. The first is concerned with the changing nature of Conservatism and vrking class developaent, and the second with a series of coiarative case studies. These examine developents in three different types of urban centres of the North-West region. We look firstly at the county and market towns, secondly at an industrial borough with an established working class electorate, and finally we examine those boroughs created by the Act of 1832. The thesis ends with a chapter which aims to provide a concluding analysis.
APA, Harvard, Vancouver, ISO, and other styles
39

Yeates, Stuart Andrew. "Text Augmentation: Inserting markup into natural language text with PPM Models." The University of Waikato, 2006. http://hdl.handle.net/10289/2600.

Full text
Abstract:
This thesis describes a new optimisation and new heuristics for automatically marking up XML documents, and CEM, a Java implementation, using PPM models. CEM is significantly more general than previous systems, marking up large numbers of hierarchical tags, using n-gram models for large n and a variety of escape methods. Four corpora are discussed, including the bibliography corpus of 14682 bibliographies laid out in seven standard styles using the BibTeX system and marked up in XML with every field from the original BibTeX. Other corpora include the ROCLING Chinese text segmentation corpus, the Computists' Communique corpus and the Reuters' corpus. A detailed examination is presented of the methods of evaluating mark up algorithms, including computation complexity measures and correctness measures from the fields of information retrieval, string processing, machine learning and information theory. A new taxonomy of markup complexities is established and the properties of each taxon are examined in relation to the complexity of marked up documents. The performance of the new heuristics and optimisation are examined using the four corpora.
APA, Harvard, Vancouver, ISO, and other styles
40

Hossain, Mahmud Shahriar. "Apriori approach to graph-based clustering of text documents." Thesis, Montana State University, 2008. http://etd.lib.montana.edu/etd/2008/hossain/HossainM0508.pdf.

Full text
Abstract:
This thesis report introduces a new technique of document clustering based on frequent senses. The developed system, named GDClust (Graph-Based Document Clustering) [1], works with frequent senses rather than dealing with frequent keywords used in traditional text mining techniques. GDClust presents text documents as hierarchical document-graphs and uses an Apriori paradigm to find the frequent subgraphs, which reflect frequent senses. Discovered frequent subgraphs are then utilized to generate accurate sense-based document clusters. We propose a novel multilevel Gaussian minimum support strategy for candidate subgraph generation. Additionally, we introduce another novel mechanism called Subgraph-Extension mining that reduces the number of candidates and overhead imposed by the traditional Apriori-based candidate generation mechanism. GDClust utilizes an English language thesaurus (WordNet [2]) to construct document-graphs and exploits graph-based data mining techniques for sense discovery and clustering. It is an automated system and requires minimal human interaction for the clustering purpose.
APA, Harvard, Vancouver, ISO, and other styles
41

Walker, Daniel David. "Bayesian Test Analytics for Document Collections." BYU ScholarsArchive, 2012. https://scholarsarchive.byu.edu/etd/3530.

Full text
Abstract:
Modern document collections are too large to annotate and curate manually. As increasingly large amounts of data become available, historians, librarians and other scholars increasingly need to rely on automated systems to efficiently and accurately analyze the contents of their collections and to find new and interesting patterns therein. Modern techniques in Bayesian text analytics are becoming wide spread and have the potential to revolutionize the way that research is conducted. Much work has been done in the document modeling community towards this end,though most of it is focused on modern, relatively clean text data. We present research for improved modeling of document collections that may contain textual noise or that may include real-valued metadata associated with the documents. This class of documents includes many historical document collections. Indeed, our specific motivation for this work is to help improve the modeling of historical documents, which are often noisy and/or have historical context represented by metadata. Many historical documents are digitized by means of Optical Character Recognition(OCR) from document images of old and degraded original documents. Historical documents also often include associated metadata, such as timestamps,which can be incorporated in an analysis of their topical content. Many techniques, such as topic models, have been developed to automatically discover patterns of meaning in large collections of text. While these methods are useful, they can break down in the presence of OCR errors. We show the extent to which this performance breakdown occurs. The specific types of analyses covered in this dissertation are document clustering, feature selection, unsupervised and supervised topic modeling for documents with and without OCR errors and a new supervised topic model that uses Bayesian nonparametrics to improve the modeling of document metadata. We present results in each of these areas, with an emphasis on studying the effects of noise on the performance of the algorithms and on modeling the metadata associated with the documents. In this research we effectively: improve the state of the art in both document clustering and topic modeling; introduce a useful synthetic dataset for historical document researchers; and present analyses that empirically show how existing algorithms break down in the presence of OCR errors.
APA, Harvard, Vancouver, ISO, and other styles
42

Mondal, Abhro Jyoti. "Document Classification using Characteristic Signatures." University of Cincinnati / OhioLINK, 2017. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1511793852923472.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Joseph, Mickael. "Reference memory, working memory and adaptive forgetting : a comparative study in rats." Thesis, Lyon 1, 2014. http://www.theses.fr/2014LYO10296/document.

Full text
Abstract:
Depuis de nombreuses années, les scientifiques ont étudié les bases neurales de la mémoire. Cependant, une question clé demeure: comment le cerveau distingue t'il les informations suffisamment importantes pour être consolidées en mémoire à long terme des informations stockées de manière temporaire en mémoire à court-terme/mémoire de travail, et qui doivent être effacées afin de ne pas saturer nos ressources cognitives. Contrairement à l'opinion populaire qui considère l'oubli comme nuisible à notre mémoire, de nombreux travaux suggèrent que l'oubli est un processus adaptatif essentiel permettant le filtrage des informations non-essentielles qu'on peut stocker de manière temporaire. Étonnamment, on connaît peu de choses des bases cellulaires et moléculaires de cet oubli adaptatif. Le travail présenté dans cette thèse vise à déterminer les bases de cette forme d'oubli adaptatif, en particulier de celui nécessaire au traitement des informations en mémoire de travail. Avec cette thèse, nous avons ainsi montré que le gyrus denté est une structure clé responsable du traitement des informations non pertinentes en mémoire, un processus essentiel qui permet une utilisation optimale de nos ressources cognitives. Nous pensons que ces travaux nous aident à mieux comprendre comment le cerveau gère les interférences, mais également à identifier les mécanismes responsables de l'oubli « utile » d'informations<br>For many years, scientists have been investigating the neural bases of memory. However, a key question remains unanswered: how does the brain distinguish information important enough to be consolidated into long-term memory from information required only temporarily, and that needs to be cleared away for not saturating our cognitive resources. In contrast to the popular view considering forgetting as deleterious to our ability to remember, forgetting might be an essential adaptive process allowing the filtering of non-essential information. Surprisingly, very little is known on the cellular and molecular bases of adaptive forgetting. The work presented in this thesis aims to find a way to determine such bases of adaptive forgetting, in particular in the context of Working Memory processing. With this thesis, we thus showed that the dentate gyrus is a critical node in processing the forgetting of irrelevant information, an essential process allowing optimal use of cognitive resources. Our work sheds light not only on the question of how the brain responds to interferences, but also on the mechanisms of "forgetting" what should be forgotten
APA, Harvard, Vancouver, ISO, and other styles
44

Neal, F. "Sectarian violence in nineteenth century Liverpool : a study of the origins, nature and scale of the Catholic-Protestant conflict in working class Liverpool, 1819-1914." Thesis, University of Salford, 1987. http://usir.salford.ac.uk/14828/.

Full text
Abstract:
The central concern of this study is the nature, origin and scale of the physical conflict between Protestants and Catholics in Liverpool throughout the period 1819 to 1914. This topic is examined within the framework of the endemic anti-Catholicism of Victorian England and the reactions to the dismantling of the privileges of the established Church. In addition, the scale of Irish immigration into Liverpool during the nineteenth century and its consequences for local government and the maintenance of public order are discussed and related to the phenomenon of sectarian violence. From this framework, certain themes are selected for detailed study and related to the core issue of physical sectarian conflict. Using both official sources and newspaper material, an account is given of the appearance and growth of the English Orange Order, its mexrüership, objectives and its role in formenting sectarian conflict. In particular, the relationship between Liverpool Conservatism and Orangeism before 1850 is examined in detail. The strength of the middle class adherence to Church and Constitution politics is an important theme within this study and the mechanism whereby such concerns were transferred to working class Protestants by evangelical Anglican clergy is examined in the context of Liverpool. Particular attention is also paid to the tensions within the Chruch of England arising from the activities of ritualist clergy and the consequences of this controversy in working-class Liverpool. The roles played by two individuals, Hugh McNeile and George Wise, in formenting sectarian violence are examined closely. Lastly, and most important from the viewpoint of the study's objective, the nature of the physical conflict, its extent and its enduring quality, together with its divisive effects on Liverpool's working class community is demonstrated.
APA, Harvard, Vancouver, ISO, and other styles
45

Elagouni, Khaoula. "Combining neural-based approaches and linguistic knowledge for text recognition in multimedia documents." Thesis, Rennes, INSA, 2013. http://www.theses.fr/2013ISAR0013/document.

Full text
Abstract:
Les travaux de cette thèse portent sur la reconnaissance des indices textuels dans les images et les vidéos. Dans ce cadre, nous avons conçu des prototypes d'OCR (optical character recognition) capables de reconnaître tant des textes incrustés que des textes de scène acquis n'importe où au sein d'images ou de vidéos. Nous nous sommes intéressée à la définition d'approches robustes à la variabilité des textes et aux conditions d'acquisition. Plus précisément, nous avons proposé deux types de méthodes dédiées à la reconnaissance de texte : - une approche fondée sur une segmentation en caractères qui recherche des séparations non linéaires entre les caractères adaptées à la morphologie de ces derniers ; - deux approches se passant de la segmentation en intégrant un processus de scanning multi-échelles ; la première utilise un modèle de graphe pour reconnaître les textes tandis que la seconde intègre un modèle connexionniste récurrent spécifiquement développé pour gérer les contraintes spatiales entre les caractères.Outre les originalités de chacune des approches, deux contributions supplémentaires de ce travail résident dans la définition d'une reconnaissance de caractères fondée sur un modèle de classification neuronale et l'intégration de certaines connaissances linguistiques permettant de tirer profit du contexte lexical. Les différentes méthodes conçues ont été évaluées sur deux bases de documents : une base de textes incrustés dans des vidéos et une base publique de textes de scène. Les expérimentations ont permis de montrer la robustesse des approches et de comparer leurs performances à celles de l'état de l'art, mettant en évidence leurs avantages et leurs limites<br>This thesis focuses on the recognition of textual clues in images and videos. In this context, OCR (optical character recognition) systems, able to recognize caption texts as well as natural scene texts captured anywhere in the environment have been designed. Novel approaches, robust to text variability (differentfonts, colors, sizes, etc.) and acquisition conditions (complex background, non uniform lighting, low resolution, etc.) have been proposed. In particular, two kinds of methods dedicated to text recognition are provided:- A segmentation-based approach that computes nonlinear separations between characters well adapted to the localmorphology of images;- Two segmentation-free approaches that integrate a multi-scale scanning scheme. The first one relies on a graph model, while the second one uses a particular connectionist recurrent model able to handle spatial constraints between characters.In addition to the originalities of each approach, two extra contributions of this work lie in the design of a character recognition method based on a neural classification model and the incorporation of some linguistic knowledge that enables to take into account the lexical context.The proposed OCR systems were tested and evaluated on two datasets: a caption texts video dataset and a natural scene texts dataset (namely the public database ICDAR 2003). Experiments have demonstrated the efficiency of our approaches and have permitted to compare their performances to those of state-of-the-art methods, highlighting their advantages and limits
APA, Harvard, Vancouver, ISO, and other styles
46

Peyrard, Clément. "Single image super-resolution based on neural networks for text and face recognition." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEI083/document.

Full text
Abstract:
Cette thèse porte sur les méthodes de super-résolution (SR) pour l’amélioration des performances des systèmes de reconnaissance automatique (OCR, reconnaissance faciale). Les méthodes de Super-Résolution (SR) permettent de générer des images haute résolution (HR) à partir d’images basse résolution (BR). Contrairement à un rééchantillonage par interpolation, elles restituent les hautes fréquences spatiales et compensent les artéfacts (flou, crénelures). Parmi elles, les méthodes d’apprentissage automatique telles que les réseaux de neurones artificiels permettent d’apprendre et de modéliser la relation entre les images BR et HR à partir d’exemples. Ce travail démontre l’intérêt des méthodes de SR à base de réseaux de neurones pour les systèmes de reconnaissance automatique. Les réseaux de neurones à convolutions sont particulièrement adaptés puisqu’ils peuvent être entraînés à extraire des caractéristiques non-linéaires bidimensionnelles pertinentes tout en apprenant la correspondance entre les espaces BR et HR. Sur des images de type documents, la méthode proposée permet d’améliorer la précision en reconnaissance de caractère de +7.85 points par rapport à une simple interpolation. La création d’une base d’images annotée et l’organisation d’une compétition internationale (ICDAR2015) ont souligné l’intérêt et la pertinence de telles approches. Pour les images de visages, les caractéristiques faciales sont cruciales pour la reconnaissance automatique. Une méthode en deux étapes est proposée dans laquelle la qualité de l’image est d’abord globalement améliorée, pour ensuite se focaliser sur les caractéristiques essentielles grâce à des modèles spécifiques. Les performances d’un système de vérification faciale se trouvent améliorées de +6.91 à +8.15 points. Enfin, pour le traitement d’images BR en conditions réelles, l’utilisation de réseaux de neurones profonds permet d’absorber la variabilité des noyaux de flous caractérisant l’image BR, et produire des images HR ayant des statistiques naturelles sans connaissance du modèle d’observation exact<br>This thesis is focussed on super-resolution (SR) methods for improving automatic recognition system (Optical Character Recognition, face recognition) in realistic contexts. SR methods allow to generate high resolution images from low resolution ones. Unlike upsampling methods such as interpolation, they restore spatial high frequencies and compensate artefacts such as blur or jaggy edges. In particular, example-based approaches learn and model the relationship between low and high resolution spaces via pairs of low and high resolution images. Artificial Neural Networks are among the most efficient systems to address this problem. This work demonstrate the interest of SR methods based on neural networks for improved automatic recognition systems. By adapting the data, it is possible to train such Machine Learning algorithms to produce high-resolution images. Convolutional Neural Networks are especially efficient as they are trained to simultaneously extract relevant non-linear features while learning the mapping between low and high resolution spaces. On document text images, the proposed method improves OCR accuracy by +7.85 points compared with simple interpolation. The creation of an annotated image dataset and the organisation of an international competition (ICDAR2015) highlighted the interest and the relevance of such approaches. Moreover, if a priori knowledge is available, it can be used by a suitable network architecture. For facial images, face features are critical for automatic recognition. A two step method is proposed in which image resolution is first improved, followed by specialised models that focus on the essential features. An off-the-shelf face verification system has its performance improved from +6.91 up to +8.15 points. Finally, to address the variability of real-world low-resolution images, deep neural networks allow to absorb the diversity of the blurring kernels that characterise the low-resolution images. With a single model, high-resolution images are produced with natural image statistics, without any knowledge of the actual observation model of the low-resolution image
APA, Harvard, Vancouver, ISO, and other styles
47

Shaban, Khaled. "A Semantic Graph Model for Text Representation and Matching in Document Mining." Thesis, University of Waterloo, 2006. http://hdl.handle.net/10012/2860.

Full text
Abstract:
The explosive growth in the number of documents produced daily necessitates the development of effective alternatives to explore, analyze, and discover knowledge from documents. Document mining research work has emerged to devise automated means to discover and analyze useful information from documents. This work has been mainly concerned with constructing text representation models, developing distance measures to estimate similarities between documents, and utilizing that in mining processes such as document clustering, document classification, information retrieval, information filtering, and information extraction. <br /><br /> Conventional text representation methodologies consider documents as bags of words and ignore the meanings and ideas their authors want to convey. It is this deficiency that causes similarity measures to fail to perceive contextual similarity of text passages due to the variation of the words the passages contain, or at least perceive contextually dissimilar text passages as being similar because of the resemblance of words the passages have. <br /><br /> This thesis presents a new paradigm for mining documents by exploiting semantic information of their texts. A formal semantic representation of linguistic inputs is introduced and utilized to build a semantic representation scheme for documents. The representation scheme is constructed through accumulation of syntactic and semantic analysis outputs. A new distance measure is developed to determine the similarities between contents of documents. The measure is based on inexact matching of attributed trees. It involves the computation of all distinct similarity common sub-trees, and can be computed efficiently. It is believed that the proposed representation scheme along with the proposed similarity measure will enable more effective document mining processes. <br /><br /> The proposed techniques to mine documents were implemented as vital components in a mining system. A case study of semantic document clustering is presented to demonstrate the working and the efficacy of the framework. Experimental work is reported, and its results are presented and analyzed.
APA, Harvard, Vancouver, ISO, and other styles
48

Matsubara, Shigeki, Tomohiro Ohno, and Masashi Ito. "Text-Style Conversion of Speech Transcript into Web Document for Lecture Archive." Fuji Technology Press, 2009. http://hdl.handle.net/2237/15083.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Tvoroshenko, I. S., and Ya Bielinskyi. "On the features of methods of processing and recognition of handwritten text." Thesis, Boston, USA, 2021. https://openarchive.nure.ua/handle/document/17612.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

Abumandour, El Shaimaa Talaat Yussef. "Study of environmentally friendly working mixtures containing ionic liquids for absorption heat transformers." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0070/document.

Full text
Abstract:
Ces dernières années, les coûts et la demande en énergie n’ont cessé d’augmenter. Par conséquent, l’humanité fait face à de graves menaces environnementales telles que l'augmentation des rejets de CO2. À cet égard, la communauté internationale doit parvenir à réduire de son empreinte carbone et à veiller à ce que les besoins en énergie thermique soient couverts de manière durable. D’importantes quantités de chaleur résiduaire à basse température (60 - 100°C) sont libérées quotidiennement dans l'atmosphère par de nombreuses installations industrielles. Les thermo-transformateurs de chaleur à absorption constituent un outil intéressant car ils peuvent revaloriser des chaleurs résiduaires pour produire de la chaleur utile pour le chauffage et la production d’eau chaude. Actuellement, les mélanges de travail utilisés dans les pompes à absorption sont les systèmes {ammoniac + eau} et {eau + bromure de lithium}. Cependant, ces deux fluides de travail présentent certains inconvénients tels que la toxicité, la cristallisation et la corrosivité. Par conséquent, il est important de rechercher de nouveaux mélanges de travail. Cette étude a pour objectif d’évaluer l’intérêt d’utiliser des mélanges constitués de liquides ioniques et d'eau au sein de thermo-transformateurs à absorption. Tout d'abord, les propriétés thermodynamiques de ces systèmes binaires (pression de vapeur, densité, capacité thermique et enthalpie d’excès) ont été mesurées dans un large domaine de température et de composition. Ces données expérimentales ont été corrélées à l’aide de modèles thermodynamiques adéquats. Ensuite, les performances de ces fluides de travail ont été évaluées. Les résultats montrent que les systèmes binaires {H2O + Ils} sont une alternative prometteuse aux fluides de travail traditionnels tels que {H2O + LiBr}<br>Recently, the cost and use of energy continually rise. Hence, humans are close to face serious environmental problems such as increasing CO2 discharges. In this regard, global community is to achieve the ambitious objective of reducing carbon footprint and to ensure that the heating demand is covered in a sustainable manner. Since, enormous amounts of low-temperature waste heat are released on daily bases from many industrial plants to the atmosphere at temperatures between 60 - 100°C. Absorption heat transformers (AHT) are interesting because they can recover low temperature waste heat from different industrial activities and renewable energy sources such as solar and geothermal. AHT can be used to upgrade waste heat to produce useful heat for heating and hot water supplies. Nowadays, the standard working pairs used for AHTs are {ammonia + water} and {water + lithium bromide}. However, both of the working pairs show questionable behavior such as toxicity, crystallization and corrosiveness. Therefore, exploring new working pairs which do not exhibit limitations become of great importance. This work includes an investigation to analyze the AHT systems using {water + ionic liquids} binary systems as working fluids. First, basic thermodynamic properties including vapor pressure, density, heat capacity as well as excess enthalpy of these binary systems were measured at various temperatures with different ionic liquid concentrations. The thermodynamic properties data were correlated by different equations, respectively. The correlated values were significantly consistent with the experimental data. Next, simulation of the AHT performance based on the thermodynamic properties of the new working pairs and on the mass and energy balance for each component of the system were performed. Results show that the {H2O + ILs} binary systems are promising alternatives to replace the already used {H2O + LiBr} working pairs
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography