To see the other types of publications on this topic, follow the link: Clustering de documents.

Dissertations / Theses on the topic 'Clustering de documents'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Clustering de documents.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Khy, Sophoin, Yoshiharu Ishikawa, and Hiroyuki Kitagawa. "Novelty-based Incremental Document Clustering for On-line Documents." IEEE, 2006. http://hdl.handle.net/2237/7520.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Khy, Sophoin, Yoshiharu Ishikawa, and Hiroyuki Kitagawa. "A Novelty-based Clustering Method for On-line Documents." Springer, 2007. http://hdl.handle.net/2237/7739.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Sinka, Mark P. "Issues in the unsupervised clustering of web documents." Thesis, University of Reading, 2006. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.430847.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Hossain, Mahmud Shahriar. "Apriori approach to graph-based clustering of text documents." Thesis, Montana State University, 2008. http://etd.lib.montana.edu/etd/2008/hossain/HossainM0508.pdf.

Full text
Abstract:
This thesis report introduces a new technique of document clustering based on frequent senses. The developed system, named GDClust (Graph-Based Document Clustering) [1], works with frequent senses rather than dealing with frequent keywords used in traditional text mining techniques. GDClust presents text documents as hierarchical document-graphs and uses an Apriori paradigm to find the frequent subgraphs, which reflect frequent senses. Discovered frequent subgraphs are then utilized to generate accurate sense-based document clusters. We propose a novel multilevel Gaussian minimum support strategy for candidate subgraph generation. Additionally, we introduce another novel mechanism called Subgraph-Extension mining that reduces the number of candidates and overhead imposed by the traditional Apriori-based candidate generation mechanism. GDClust utilizes an English language thesaurus (WordNet [2]) to construct document-graphs and exploits graph-based data mining techniques for sense discovery and clustering. It is an automated system and requires minimal human interaction for the clustering purpose.
APA, Harvard, Vancouver, ISO, and other styles
5

Arac̆ić, Damir. "Exploring potential improvements to term-based clustering of web documents." Online access for everyone, 2007. http://www.dissertations.wsu.edu/Thesis/Fall2007/D_Aracic_112807.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Caubet, Marc, and Mònica Cifuentes. "Extracting metadata from textual documents and utilizing metadata for adding textual documents to an ontology." Thesis, Växjö universitet, Matematiska och systemtekniska institutionen, 2006. http://urn.kb.se/resolve?urn=urn:nbn:se:vxu:diva-534.

Full text
Abstract:
The term Ontology is borrowed from philosophy, where an ontology is a systematic account of Existence. In Computer Science, ontology is a tool allowing the effective use of information, making it understandable and accessible to the computer. For these reasons, the study of ontologies gained growing interest recently. Our motivation is to create a tool able to build ontologies from a set of textual documents. We present a prototype implementation which extracts metadata from textual documents and uses the metadata for adding textual documents to an ontology. In this paper we will investigate which techniques we have available and which ones have been used to accomplish our problem. Finally, we will show a program written in Java which allows us to build ontologies from textual documents using our approach.
APA, Harvard, Vancouver, ISO, and other styles
7

Tensmeyer, Christopher Alan. "CONFIRM: Clustering of Noisy Form Images using Robust Matching." BYU ScholarsArchive, 2016. https://scholarsarchive.byu.edu/etd/6055.

Full text
Abstract:
Identifying the type of a scanned form greatly facilitates processing, including automated field segmentation and field recognition. Contrary to the majority of existing techniques, we focus on unsupervised type identification, where the set of form types are not known apriori, and on noisy collections that contain very similar document types. This work presents a novel algorithm: CONFIRM (Clustering Of Noisy Form Images using Robust Matching), which simultaneously discovers the types in a collection of forms and assigns each form to a type. CONFIRM matches type-set text and rule lines between forms to create domain specific features, which we show outperform Bag of Visual Word (BoVW) features employed by the current state-of-the-art. To scale to large document collections, we use a bootstrap approach to clustering, where only a small subset of the data is clustered directly, while the rest of the data is assigned to clusters in linear time. We show that CONFIRM reduces average cluster impurity by 44% compared to the state-of-the art on 5 collections of historical forms that contain significant noise. We also show competitive performance on the relatively clean NIST tax form collection.
APA, Harvard, Vancouver, ISO, and other styles
8

Tombros, Anastasios. "The effectiveness of query based hierarchic clustering of documents for information retrieval." Thesis, University of Glasgow, 2002. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.248257.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Zamir, Oren Eli. "Clustering web documents : a phrase-based method for grouping search engine results /." Thesis, Connect to this title online; UW restricted, 1999. http://hdl.handle.net/1773/6884.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Poudyal, Prakash. "Automatic extraction and structure of arguments in legal documents." Doctoral thesis, Universidade de Évora, 2018. http://hdl.handle.net/10174/24848.

Full text
Abstract:
A argumentação desempenha um papel fundamental na comunicação humana ao formular razões e tirar conclusões. Desenvolveu-se um sistema automático para identificar argumentos jurídicos de forma eficaz em termos de custos a partir da jurisprudência. Usando 42 leis jurídicas do Tribunal Europeu dos Direitos Humanos (ECHR), anotou-se os documentos para estabelecer um conjunto de dados “padrão-ouro”. Foi então desenvolvido e testado um processo composto por 3 etapas para mineração de argumentos. A primeira etapa foi avaliar o melhor conjunto de recursos para identificar automaticamente as frases argumentativas do texto não estruturado. Várias experiencias foram conduzidas dependendo do tipo de características disponíveis no corpus, a fim de determinar qual abordagem que produzia os melhores resultados. No segundo estágio, introduziu-se uma nova abordagem de agrupamento automático (para agrupar frases num argumento legal coerente), através da utilização de dois novos algoritmos: o “Algoritmo de Identificação do Grupo Apropriado”, ACIA e a “Distribuição de orações no agrupamento de Cluster”, DSCA. O trabalho inclui também um sistema de avaliação do algoritmo de agrupamento que permite ajustar o seu desempenho. Na terceira etapa do trabalho, utilizou-se uma abordagem híbrida de técnicas estatísticas e baseadas em regras para categorizar as orações argumentativas. No geral, observa-se que o nível de precisão e utilidade alcançado por essas novas técnicas é viável como base para uma estrutura geral de argumentação e mineração; Abstract: Automatic Extraction and Structure of Arguments in Legal Documents Argumentation plays a cardinal role in human communication when formulating reasons and drawing conclusions. A system to automatically identify legal arguments cost-effectively from case-law was developed. Using 42 legal case-laws from the European Court of Human Rights (ECHR), an annotation was performed to establish a ‘gold-standard’ dataset. Then a three-stage process for argument mining was developed and tested. The first stage aims at evaluating the best set of features for automatically identifying argumentative sentences within unstructured text. Several experiments were conducted, depending upon the type of features available in the corpus, in order to determine which approach yielded the best result. In the second stage, a novel approach to clustering (for grouping sentences automatically into a coherent legal argument) was introduced through the development of two new algorithms: the “Appropriate Cluster Identification Algorithm”,(ACIA) and the “Distribution of Sentence to the Cluster Algorithm” (DSCA). This work also includes a new evaluation system for the clustering algorithm, which helps tuning it for performance. In the third stage, a hybrid approach of statistical and rule-based techniques was used in order to categorize argumentative sentences. Overall, it’s possible to observe that the level of accuracy and usefulness achieve by these new techniques makes it viable as the basis of a general argument-mining framework.
APA, Harvard, Vancouver, ISO, and other styles
11

Espinosa, Javier. "Clustering of Image Search Results to Support Historical Document Recognition." Thesis, Blekinge Tekniska Högskola, Institutionen för datalogi och datorsystemteknik, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-5577.

Full text
Abstract:
Context. Image searching in historical handwritten documents is a challenging problem in computer vision and pattern recognition. The amount of documents which have been digitalized is increasing each day, and the task to find occurrences of a selected sub-image in a collection of documents has special interest for historians and genealogist. Objectives. This thesis develops a technique for image searching in historical documents. Divided in three phases, first the document is segmented into sub-images according to the words on it. These sub-images are defined by a features vector with measurable attributes of its content. And based on these vectors, a clustering algorithm computes the distance between vectors to decide which images match with the selected by the user. Methods. The research methodology is experimentation. A quasi-experiment is designed based on repeated measures over a single group of data. The image processing, features selection, and clustering approach are the independent variables; whereas the accuracies measurements are the dependent variable. This design provides a measurement net based on a set of outcomes related to each other. Results. The statistical analysis is based on the F1 score to measure the accuracy of the experimental results. This test analyses the accuracy of the experiment regarding to its true positives, false positives, and false negatives detected. The average F-measure for the experiment conducted is F1 = 0.59, whereas the actual performance value of the method is matching ratio of 66.4%. Conclusions. This thesis provides a starting point in order to develop a search engine for historical document collections based on pattern recognition. The main research findings are focused in image enhancement and segmentation for degraded documents, and image matching based on features definition and cluster analysis.
APA, Harvard, Vancouver, ISO, and other styles
12

Ali, Klaib Alhadi. "Clustering-based labelling scheme : a hybrid approach for efficient querying and updating XML documents." Thesis, University of Huddersfield, 2018. http://eprints.hud.ac.uk/id/eprint/34580/.

Full text
Abstract:
Extensible Markup Language (XML) has become a dominant technology for transferring data through the worldwide web. The XML labelling schemes play a key role in handling XML data efficiently and robustly. Thus, many labelling schemes have been proposed. However, these labelling schemes have limitations and shortcomings. Thus, the aim of this research was to investigate the existing XML labelling schemes and their limitations in order to address the issue of efficiency of XML query performance. This thesis investigated the existing labelling schemes and classified them into three categories based on certain criteria, in order to identify the limitations and challenges of these labelling schemes. Based on the outcomes of this investigation, this thesis proposed a state-of-theart labelling scheme, called clustering-based labelling scheme, to resolve or improve the key limitations such as the efficiency of the XML query processing, labelling XML nodes, and XML updates cost. This thesis argued that using certain existing labelling schemes to label nodes, and using the clustering-based techniques can improve query and labelling nodes efficiency. Theoretically, the proposed scheme is based on dividing the nodes of an XML document into clusters. Two existing labelling schemes, which are the Dewey and LLS labelling schemes, were selected for labelling these clusters and their nodes. Subsequently, the proposed scheme was designed and implemented. In addition, the Dewey and LLS labelling scheme were implemented for the purpose of evaluating the proposed scheme. Subsequently, four experiments were designed in order to test the proposed scheme against the Dewey and LLS labelling schemes. The results of these experiments suggest that the proposed scheme achieved better results than the Dewey and LLS schemes. Consequently, the research hypothesis was accepted overall with few exceptions, and the proposed scheme showed an improvement in the performance and all the targeted features and aspects.
APA, Harvard, Vancouver, ISO, and other styles
13

Ebadat, Ali-Reza. "Toward Robust Information Extraction Models for Multimedia Documents." Phd thesis, INSA de Rennes, 2012. http://tel.archives-ouvertes.fr/tel-00760383.

Full text
Abstract:
Au cours de la dernière décennie, d'énormes quantités de documents multimédias ont été générées. Il est donc important de trouver un moyen de gérer ces données, notamment d'un point de vue sémantique, ce qui nécessite une connaissance fine de leur contenu. Il existe deux familles d'approches pour ce faire, soit par l'extraction d'informations à partir du document (par ex., audio, image), soit en utilisant des données textuelles extraites du document ou de sources externes (par ex., Web). Notre travail se place dans cette seconde famille d'approches ; les informations extraites des textes peuvent ensuite être utilisées pour annoter les documents multimédias et faciliter leur gestion. L'objectif de cette thèse est donc de développer de tels modèles d'extraction d'informations. Mais les textes extraits des documents multimédias étant en général petits et bruités, ce travail veille aussi à leur nécessaire robustesse. Nous avons donc privilégié des techniques simples nécessitant peu de connaissances externes comme garantie de robustesse, en nous inspirant des travaux en recherche d'information et en analyse statistique des textes. Nous nous sommes notamment concentré sur trois tâches : l'extraction supervisée de relations entre entités, la découverte de relations, et la découverte de classes d'entités. Pour l'extraction de relations, nous proposons une approche supervisée basée sur les modèles de langues et l'algorithme d'apprentissage des k-plus-proches voisins. Les résultats expérimentaux montrent l'efficacité et la robustesse de nos modèles, dépassant les systèmes état-de-l'art tout en utilisant des informations linguistiques plus simples à obtenir. Dans la seconde tâche, nous passons à un modèle non supervisé pour découvrir les relations au lieu d'en extraire des prédéfinies. Nous modélisons ce problème comme une tâche de clustering avec une fonction de similarité là encore basée sur les modèles de langues. Les performances, évaluées sur un corpus de vidéos de matchs de football, montrnt l'intérêt de notre approche par rapport aux modèles classiques. Enfin, dans la dernière tâche, nous nous intéressons non plus aux relations mais aux entités, source d'informations essentielles dans les documents. Nous proposons une technique de clustering d'entités afin de faire émerger, sans a priori, des classes sémantiques parmi celles-ci, en adoptant une représentation nouvelle des données permettant de mieux tenir compte des chaque occurrence des entités. En guise de conclusion, nous avons montré expérimentalement que des techniques simples, exigeant peu de connaissances a priori, et utilisant des informations linguistique facilement accessibles peuvent être suffisantes pour extraire efficacement des informations précises à partir du texte. Dans notre cas, ces bons résultats sont obtenus en choisissant une représentation adaptée pour les données, basée sur une analyse statistique ou des modèles de recherche d'information. Le chemin est encore long avant d'être en mesure de traiter directement des documents multimédia, mais nous espérons que nos propositions pourront servir de tremplin pour les recherches futures dans ce domaine.
APA, Harvard, Vancouver, ISO, and other styles
14

Taylor, William P. "A comparative study on ontology generation and text clustering using VSM, LSI, and document ontology models." Connect to this title online, 2007. http://etd.lib.clemson.edu/documents/1193080300/.

Full text
APA, Harvard, Vancouver, ISO, and other styles
15

Pundlik, Shrinivas J. "Motion segmentation from clustering of sparse point features using spatially constrained mixture models." Connect to this title online, 2009. http://etd.lib.clemson.edu/documents/1252937182/.

Full text
APA, Harvard, Vancouver, ISO, and other styles
16

Rios, Tatiane Nogueira. "Organização flexível de documentos." Universidade de São Paulo, 2013. http://www.teses.usp.br/teses/disponiveis/55/55134/tde-03052013-101143/.

Full text
Abstract:
Diversos métodos têm sido desenvolvidos para a organização da crescente quantidade de documentos textuais. Esses métodos frequentemente fazem uso de algoritmos de agrupamento para organizar documentos que referem-se a um mesmo assunto em um mesmo grupo, supondo que conteúdos de documentos de um mesmo grupo são similares. Porém, existe a possibilidade de que documentos pertencentes a grupos distintos também apresentem características semelhantes. Considerando esta situação, há a necessidade de desenvolver métodos que possibilitem a organização flexível de documentos, ou seja, métodos que possibilitem que documentos sejam organizados em diferentes grupos com diferentes graus de compatibilidade. O agrupamento fuzzy de documentos textuais apresenta-se como uma técnica adequada para este tipo de organização, uma vez que algoritmos de agrupamento fuzzy consideram que um mesmo documento pode ser compatível com mais de um grupo. Embora tem-se desenvolvido algoritmos de agrupamento fuzzy que possibilitam a organização flexível de documentos, tal organização é avaliada em termos do desempenho do agrupamento de documentos. No entanto, considerando que grupos de documentos devem possuir descritores que identifiquem adequadamente os tópicos representados pelos mesmos, de maneira geral os descritores de grupos tem sido extraídos utilizando alguma heurística sobre um conjunto pequeno de documentos, realizando assim, uma avaliação simples sobre o significado dos grupos extraídos. No entanto, uma apropriada extração e avaliação de descritores de grupos é importante porque os mesmos são termos representantes da coleção que identificam os tópicos abordados nos documentos. Portanto, em aplicações em que o agrupamento fuzzy é utilizado para a organização flexível de documentos, uma descrição apropriada dos grupos obtidos é tão importante quanto um bom agrupamento, uma vez que, neste tipo de agrupamento, um mesmo descritor pode indicar o conteúdo de mais de um grupo. Essa necessidade motivou esta tese, cujo objetivo foi investigar e desenvolver métodos para a extração de descritores de grupos fuzzy para a organização flexível de documentos. Para cumprir esse objetivo desenvolveu se: i) o método SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at são extraídos após o processo de agrupamento fuzzy, visando identicar tópicos da organização flexível de documentos independentemente do algoritmo de agrupamento fuzzy utilizado; ii) o método SoftO-wFDCL ( Soft Organization - weighted Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy at também são extraídos após o processo de agrupamento fuzzy utilizando o grau de pertinência dos documentos em cada grupo, obtidos do agrupamento fuzzy, como fator de ponderação dos termos candidatos a descritores; iii) o método HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last ), pelo qual descritores de grupos fuzzy hierárquicos são extraídos após o processo de agrupamento hierárquico fuzzy, identificando tópicos da organização hierárquica flexível de documentos. Adicionalmente, apresenta-se nesta tese uma aplicação do método SoftO-FDCL no contexto do programa de educação médica continuada canadense, reforçando a utilidade e aplicabilidade da organização flexível de documentos
Several methods have been developed to organize the growing number of textual documents. Such methods frequently use clustering algorithms to organize documents with similar topics into clusters. However, there are situations when documents of dffierent clusters can also have similar characteristics. In order to overcome this drawback, it is necessary to develop methods that permit a soft document organization, i.e., clustering documents into different clusters according to different compatibility degrees. Among the techniques that we can use to develop methods in this sense, we highlight fuzzy clustering algorithms (FCA). By using FCA, one of the most important steps is the evaluation of the yield organization, which is performed considering that all analyzed topics are adequately identified by cluster descriptors. In general, cluster descriptors are extracted using some heuristic over a small number of documents. The adequate extraction and evaluation of cluster descriptors is important because they are terms that represent the collection and identify the topics of the documents. Therefore, an adequate description of the obtained clusters is as important as a good clustering, since the same descriptor might identify one or more clusters. Hence, the development of methods to extract descriptors from fuzzy clusters obtained for soft organization of documents motivated this thesis. Aiming at investigating such methods, we developed: i) the SoftO-FDCL (Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are extracted after clustering documents, identifying topics regardless the adopted fuzzy clustering algorithm; ii) the SoftO-wFDCL (Soft Organization - weighted Fuzzy Description Comes Last) method, in which descriptors of fuzzy clusters are also extracted after the fuzzy clustering process using the membership degrees of the documents as a weighted factor for the candidate descriptors; iii) the HSoftO-FDCL (Hierarchical Soft Organization - Fuzzy Description Comes Last) method, in which descriptors of hierarchical fuzzy clusters are extracted after the hierarchical fuzzy clustering process, identifying topics by means of a soft hierarchical organization of documents. Besides presenting these new methods, this thesis also discusses the application of the SoftO-FDCL method on documents produced by the Canadian continuing medical education program, presenting the utility and applicability of the soft organization of documents in real-world scenario
APA, Harvard, Vancouver, ISO, and other styles
17

Dunkel, Christopher T. "Person detection and tracking using binocular Lucas-Kanade feature tracking and k-means clustering." Connect to this title online, 2008. http://etd.lib.clemson.edu/documents/1219850371/.

Full text
APA, Harvard, Vancouver, ISO, and other styles
18

Au, Émilie. "Intégration de la sémantique dans la représentation de documents par les arbres de dépendances syntaxiques." Mémoire, Université de Sherbrooke, 2011. http://savoirs.usherbrooke.ca/handle/11143/4938.

Full text
Abstract:
De nombreuses applications dans le domaine de la recherche d'information voient leur performance influencée par le modèle de représentation de documents. En effet, théoriquement, meilleure est la modélisation, meilleure sera la performance de l'application qui exploite la modélisation. Or la modélisation"parfaite" d'un document est celle qui utilise l'intégralité des théories linguistiques. Cependant, en pratique, celles-ci sont difficiles à traduire sous forme de traitements informatiques. Néanmoins, il existe des modèles qui s'appuient partiellement sur ces théories comme les modèles vectoriels classiques, les modèles par séquences de mots ou encore les chaînes lexicales. Ces précédents modèles exploitent, soit l'information syntaxique, soit l'information sémantique. D'autres modèles plus raffinés exploitent à la fois l'information syntaxique et sémantique mais sont appliqués dans un contexte spécifique. Dans cette étude, nous proposons une nouvelle modélisation de documents dans un contexte général qui considère simultanément l'information syntaxique et sémantique. Notre modèle est une combinaison de deux composantes, l'une syntaxique représentée par les arbres de dépendances syntaxiques obtenus à l'aide d'un analyseur de dépendances syntaxiques, l'autre sémantique représentée par le sens des mots dans leur contexte obtenu grâce à une méthode de désambiguïsation du sens. Dans ce modèle, chaque document est représenté par un ensemble de concepts fréquents formé de sous-arbres ayant les mêmes dépendances syntaxiques et étant sémantiquement proches. L'extraction de tels concepts est réalisée à l'aide d'un algorithme de forage d'arbres FREQT. Notre modèle sera évalué sur une application de clustering de documents des collections Reuters, 20 newsgroups et Ohsumed. La mesure du cosinus valable pour un modèle vectoriel a été utilisée pour définir la mesure de similarité entre les documents. Contrairement au modèle vectoriel, l'espace vectoriel considéré n'est pas engendré par l'ensemble des mots fréquents mais par l'ensemble des concepts fréquents. Les résultats expérimentaux obtenus montrent que l'intégration de l'information sémantique dans le modèle basé sur les arbres de dépendances syntaxiques contribue à améliorer la qualité des clusters.
APA, Harvard, Vancouver, ISO, and other styles
19

Lecerf, Loïc. "L' apprentissage machine pour assister l'annotation de documents : clustering visuel interactif, apprentissage actif et extraction automatique des descripteurs." Paris 6, 2009. http://www.theses.fr/2009PA066186.

Full text
Abstract:
Ce mémoire porte sur l’apprentissage machine pour l’annotation. L’objectif de l’annotation est d’insérer une information additionnelle à un objet (e. G. Images, documents, vidéos, données biologiques, etc. ). Ces informations permettent une meilleure compréhension ou organisation de ces objets par une machine. Alors que l’annotation manuelle est le plus souvent coûteuse, les travaux récents de la littérature proposent d’utiliser les méthodes d’apprentissage machine pour automatiser la tâche d’annotation. L’apprentissage machine a connu une progression très importante et son application à l’annotation a montré expérimentalement son efficacité pour de nombreux domaines. Au cours de notre travail de thèse, nous avons cherché à faire évoluer l’apprentissage machine afin de rendre son utilisation plus facile (définition des descripteurs et élaboration du corpus d’apprentissage) ou plus flexible afin de permettre à un utilisateur de s’impliquer et guider le processus d’apprentissage machine. Dans la première partie de ce mémoire, nous introduisons l’apprentissage machine interactif. Nous proposons plusieurs approches dans lesquelles nous combinons des outils de visualisation scientifique à l’apprentissage machine. Ces approches se présentent comme une alternative à l’apprentissage automatique, particulièrement pertinente lorsque le coût d’annotation ou le coût d’erreur de prédiction est élevé et lorsque l’utilisateur possède des connaissances du domaine utiles pour guider l’apprentissage machine. Dans une deuxième partie de nos travaux, nous avons cherché à réduire le travail de définition des descripteurs. Nous avons d’une part étudié et amélioré les méthodes pour la sélection automatique de grands ensembles de descripteurs génériques, puis nous avons proposé une nouvelle approche pour la génération automatique de ces descripteurs pour des données de type séquentielle. Notre travail de thèse a été motivé par la tâche spécifique d’annotation sémantique de documents semi-structurés. Nos travaux ont été évalués expérimentalement sur des collections de documents mais aussi sur d’autres ensembles de données issues de domaines divers. De même, afin de vérifier la pertinence de nos méthodes, nous avons déployé un prototype pour l’annotation sémantique de documents par apprentissage actif, ainsi qu’une application Web, pour l’annotation interactive
APA, Harvard, Vancouver, ISO, and other styles
20

Tarafdar, Arundhati. "Wordspotting from multilingual and stylistic documents." Thesis, Tours, 2017. http://www.theses.fr/2017TOUR4022/document.

Full text
Abstract:
Les outils et méthodes d’analyse d’images de documents (DIA) donnent aujourd’hui la possibilité de faire des recherches par mots-clés dans des bases d’images de documents alors même qu’aucune transcription n’est disponible. Dans ce contexte, beaucoup de travaux ont déjà été réalisés sur les OCR ainsi que sur des systèmes de repérage de mots (spotting) dédiés à des documents textuels avec une mise en page simple. En revanche, très peu d’approches ont été étudiées pour faire de la recherche dans des documents contenant du texte multi-orienté et multi-échelle, comme dans les documents graphiques. Par exemple, les images de cartes géographiques peuvent contenir des symboles, des graphiques et du texte ayant des orientations et des tailles différentes. Dans ces documents, les caractères peuvent aussi être connectés entre eux ou bien à des éléments graphiques. Par conséquent, le repérage de mots dans ces documents se révèle être une tâche difficile. Dans cette thèse nous proposons un ensemble d’outils et méthodes dédiés au repérage de mots écrits en caractères bengali ou anglais (script Roman) dans des images de documents géographiques. L’approche proposée repose sur plusieurs originalités
Word spotting in graphical documents is a very challenging task. To address such scenarios this thesis deals with developing a word spotting system dedicated to geographical documents with Bangla and English (Roman) scripts. In the proposed system, at first, text-graphics layers are separated using filtering, clustering and self-reinforcement through classifier. Additionally, instead of using binary decision we have used probabilistic measurement to represent the text components. Subsequently, in the text layer, character segmentation approach is applied using water-reservoir based method to extract individual character from the document. Then recognition of these isolated characters is done using rotation invariant feature, coupled with SVM classifier. Well recognized characters are then grouped based on their sizes. Initial spotting is started to find a query word among those groups of characters. In case if the system could spot a word partially due to any noise, SIFT is applied to identify missing portion of that partial spotting. Experimental results on Roman and Bangla scripts document images show that the method is feasible to spot a location in text labeled graphical documents. Experiments are done on an annotated dataset which was developed for this work. We have made this annotated dataset available publicly for other researchers
APA, Harvard, Vancouver, ISO, and other styles
21

Sellah, Smail. "Approche automatisée d'assistance à la structuration des connaissances." Thesis, Bourgogne Franche-Comté, 2019. http://www.theses.fr/2019UBFCA026.

Full text
Abstract:
Dans un contexte globalisé, les entreprises doivent être innovantes pour augmenter leur productivité et continuer d'exister dans un marché de plus en plus concurrentiel. Les innovations, sources de bénéfices potentiels pour une entreprise, peuvent se situer au niveau d'un processus, d'un nouveau produit ou d'un service, etc. Une entreprise innovante est une entreprise qui capitalise sur ses connaissances. La gestion de connaissance (GC) constitue un ensemble d'approches qui permettent de répondre à un ensemble de problématiques liées aux connaissances et notamment la capitalisation de ces connaissances. Cependant, malgré les bénéfices et l'impact positif que peuvent avoir de telles pratiques sur une organisation, celles-ci sont très peu mises en place.Dans la thèse défendue dans ce manuscrit, nous nous intéressons à améliorer la capitalisation des connaissances et en particulier la structuration des informations afin de proposer des connaissances candidates. Notre objectif est de rendre plus efficace la mises à disposition des connaissances aux acteurs métiers. Pour cela, il faut réduire le nombre de résultats non pertinents et identifier les connaissances qui peuvent aider les acteurs métiers dans leurs problématiques quotidiennes. Par cette approche, on peut ainsi aider l'organisation à optimiser les retours d'expériences et le temps passé dans les différents procédés mis en place.Afin de relever ces challenges, nous nous intéressons à mettre en place un ensemble de briques élémentaires, chacune de ces briques ayant un rôle spécifique. Ces briques sont organisées sous forme d'un cycle interactif. Chaque brique sera en interaction avec les autres, l'idée sous-jacente est qu'une brique améliore ses résultats en apprenant des résultats des autres briques. Les collaborateurs métiers interagissent directement avec ces briques de manière transparente. Pour rechercher les connaissances, le cycle scrute et analyse le comportement des collaborateurs métiers pour mieux comprendre leurs attentes. Ainsi, le cycle est capable d'apprendre et d'améliorer pour mieux capturer et rechercher les connaissances de l'entreprise.La première brique consiste en l'identification et représentation de la connaissance, cette brique a pour rôle d'exploiter un corpus de documents afin d'extraire les connaissances au sein de ce corpus. La seconde brique a pour but d'organiser ce corpus de documents en utilisant les connaissances extraites par la première brique. La dernière brique s'appuie sur les résultats fournis par les précédentes briques, le rôle de cette brique est de permettre à l'utilisateur de pouvoir faire une recherche sémantique en exploitant le modèle de connaissances construit par la première brique et l'organisation des documents qu'offre la deuxième brique. Cette dernière brique aura pour rôle de partager la connaissance et de la diffuser, cette brique ne se restreint pas uniquement à une recherche, elle intègre aussi un mécanisme de suggestions qui assiste l'utilisateur dans sa recherche en lui proposant des documents similaires, etc.L'approche est globale est testée et validée avec un corpus de documents issus d'articles du journal Reuters. Les résultats de l'analyse automatique sont comparés aux tags produits par des lecteurs humains
In a globalized context, companies must be innovative to increase their productivity and continue to exist in an increasingly competitive market. Innovations, potential sources of profit for a company, can be at the level of a process, a new product or a service, etc. An innovative company is a company which capitalizes on its knowledge. Knowledge management (KM) is a set of approaches that can address a range of issues related to knowledge including capitalization of knowledge. However, despite the benefits and the positive impact which can have such practices on an organization, these are very little implemented. In the thesis defended in this manuscript, we are interested in improving the capitalization of knowledge and in particular the structuring of information in order to propose candidate knowledge. Our goal is to make the access to knowledge more effective to business. To do this, we must reduce the number of irrelevant results and identify the knowledge that can help business in their daily problems.By this approach, we can help an organization to optimize its feedbacks and the time spent in the different processes put in place. In order to meet these challenges, we are interested in setting up a set of elementary components, each of these components having a specific role. These components are organized as an interactive cycle. Each component will interact with others, the underlying idea is that a component improves its results by learning results from other components. Users interact directly with these components in a transparent way. To search for knowledge, the cycle scrutinizes and analyzes the behavior of users to better understand their expectations. Thus, the cycle is able to learn and improve to better capture and seek knowledge of the company. The first component is named «identification and representation of knowledge», this component has the role of exploiting a set of documents in order to extract the knowledge within this corpus. The second component aims to organize this set of documents using the knowledge extracted by the first component. The last component builds on the results provided by the previous components, the role of this component is to allow the users to be able to do a semantic search by exploiting the knowledge model built by the first component and document organization which the second component offers.This last component will aim to share knowledge, this component is not restricted to only a search, it also includes a mechanism of suggestions that assists the users in their search by offering similar documents, etc.The global approach is tested and validated with a set of documents from Reuters newspaper articles. The results of the automatic analysis are compared to the tags produced by human readers
APA, Harvard, Vancouver, ISO, and other styles
22

Ouji, Asma. "Segmentation et classification dans les images de documents numérisés." Phd thesis, INSA de Lyon, 2012. http://tel.archives-ouvertes.fr/tel-00749933.

Full text
Abstract:
Les travaux de cette thèse ont été effectués dans le cadre de l'analyse et du traitement d'images de documents imprimés afin d'automatiser la création de revues de presse. Les images en sortie du scanner sont traitées sans aucune information a priori ou intervention humaine. Ainsi, pour les caractériser, nous présentons un système d'analyse de documents composites couleur qui réalise une segmentation en zones colorimétriquement homogènes et qui adapte les algorithmes d'extraction de textes aux caractéristiques locales de chaque zone. Les informations colorimétriques et textuelles fournies par ce système alimentent une méthode de segmentation physique des pages de presse numérisée. Les blocs issus de cette décomposition font l'objet d'une classification permettant, entre autres, de détecter les zones publicitaires. Dans la continuité et l'expansion des travaux de classification effectués dans la première partie, nous présentons un nouveau moteur de classification et de classement générique, rapide et facile à utiliser. Cette approche se distingue de la grande majorité des méthodes existantes qui reposent sur des connaissances a priori sur les données et dépendent de paramètres abstraits et difficiles à déterminer par l'utilisateur. De la caractérisation colorimétrique au suivi des articles en passant par la détection des publicités, l'ensemble des approches présentées ont été combinées afin de mettre au point une application permettant la classification des documents de presse numérisée par le contenu.
APA, Harvard, Vancouver, ISO, and other styles
23

Bui, Quang Vu. "Pretopology and Topic Modeling for Complex Systems Analysis : Application on Document Classification and Complex Network Analysis." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEP034/document.

Full text
Abstract:
Les travaux de cette thèse présentent le développement d'algorithmes de classification de documents d'une part, ou d'analyse de réseaux complexes d'autre part, en s'appuyant sur la prétopologie, une théorie qui modélise le concept de proximité. Le premier travail développe un cadre pour la classification de documents en combinant une approche de topicmodeling et la prétopologie. Notre contribution propose d'utiliser des distributions de sujets extraites à partir d'un traitement topic-modeling comme entrées pour des méthodes de classification. Dans cette approche, nous avons étudié deux aspects : déterminer une distance adaptée entre documents en étudiant la pertinence des mesures probabilistes et des mesures vectorielles, et effet réaliser des regroupements selon plusieurs critères en utilisant une pseudo-distance définie à partir de la prétopologie. Le deuxième travail introduit un cadre général de modélisation des Réseaux Complexes en développant une reformulation de la prétopologie stochastique, il propose également un modèle prétopologique de cascade d'informations comme modèle général de diffusion. De plus, nous avons proposé un modèle agent, Textual-ABM, pour analyser des réseaux complexes dynamiques associés à des informations textuelles en utilisant un modèle auteur-sujet et nous avons introduit le Textual-Homo-IC, un modèle de cascade indépendant de la ressemblance, dans lequel l'homophilie est fondée sur du contenu textuel obtenu par un topic-model
The work of this thesis presents the development of algorithms for document classification on the one hand, or complex network analysis on the other hand, based on pretopology, a theory that models the concept of proximity. The first work develops a framework for document clustering by combining Topic Modeling and Pretopology. Our contribution proposes using topic distributions extracted from topic modeling treatment as input for classification methods. In this approach, we investigated two aspects: determine an appropriate distance between documents by studying the relevance of Probabilistic-Based and Vector-Based Measurements and effect groupings according to several criteria using a pseudo-distance defined from pretopology. The second work introduces a general framework for modeling Complex Networks by developing a reformulation of stochastic pretopology and proposes Pretopology Cascade Model as a general model for information diffusion. In addition, we proposed an agent-based model, Textual-ABM, to analyze complex dynamic networks associated with textual information using author-topic model and introduced Textual-Homo-IC, an independent cascade model of the resemblance, in which homophily is measured based on textual content obtained by utilizing Topic Modeling
APA, Harvard, Vancouver, ISO, and other styles
24

Fiorini, Nicolas. "Semantic similarities at the core of generic indexing and clustering approaches." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS178/document.

Full text
Abstract:
Pour exploiter efficacement une masse toujours croissante de documents électroniques, une branche de l'Intelligence Artificielle s'est focalisée sur la création et l'utilisation de systèmes à base de connaissance. Ces approches ont prouvé leur efficacité, notamment en recherche d'information. Cependant elles imposent une indexation sémantique des ressources exploitées, i.e. que soit associé à chaque ressource un ensemble de termes qui caractérise son contenu. Pour s'affranchir de toute ambiguïté liée au langage naturel, ces termes peuvent être remplacés par des concepts issus d'une ontologie de domaine, on parle alors d'indexation conceptuelle.Le plus souvent cette indexation est réalisée en procédant à l'extraction des concepts du contenu même des documents. On note, dans ce cas, une forte dépendance des techniques associées à ce traitement au type de document et à l'utilisation d'algorithmes dédiés. Pourtant une des forces des approches conceptuelles réside dans leur généricité. En effet, par l'exploitation d'indexation sémantique, ces approches permettent de traiter de la même manière un ensemble d'images, de gènes, de textes ou de personnes, pour peu que ceux-ci aient été correctement indexés. Cette thèse explore ce paradigme de généricité en proposant des systèmes génériques et en les comparant aux approches existantes qui font référence. L'idée est de se reposer sur les annotations sémantiques et d'utiliser des mesures de similarité sémantique afin de créer des approches performantes. De telles approches génériques peuvent par la suite être enrichies par des modules plus spécifiques afin d'améliorer le résultat final. Deux axes de recherche sont suivis dans cette thèse. Le premier et le plus riche est celui de l'indexation sémantique. L'approche proposée exploite la définition et l'utilisation de documents proches en contenu pour annoter un document cible. Grâce à l'utilisation de similarités sémantiques entre les annotations des documents proches et à l'utilisation d'une heuristique, notre approche, USI (User-oriented Semantic Indexer), permet d'annoter des documents plus rapidement que les méthodes existantes en fournissant une qualité comparable. Ce processus a ensuite été étendu à une autre tâche, la classification. Le tri est une opération indispensable à laquelle l'Homme s'est attaché depuis l'Antiquité, qui est aujourd'hui de plus en plus automatisée. Nous proposons une approche de classification hiérarchique qui se base sur les annotations sémantiques des documents à classifier. Là encore, la méthode est indépendante des types de documents puisque l'approche repose uniquement sur leur annotations. Un autre avantage de cette approche est le fait que lorsque des documents sont rassemblés, le groupe qu'il forme est automatiquement annoté (suivant notre algorithme d'indexation). Par conséquent, le résultat fourni est une hiérarchie de classes contenant des documents, chaque classe étant annotée. Cela évite l'annotation manuelle fastidieuse des classes par l'exploration des documents qu'elle contient comme c'est souvent le cas.L'ensemble de nos travaux a montré que l'utilisation des ontologies permettait d'abstraire plusieurs processus et ainsi de réaliser des approches génériques. Cette généricité n'empêche en aucun cas d'être couplée à des approches plus spécifiques, mais constitue en soi une simplicité de mise en place dès lors que l'on dispose de documents annotés sémantiquement
In order to improve the exploitation of even growing number of electronic documents, Artificial Intelligence has dedicated a lot of effort to the creation and use of systems grounded on knowledge bases. In particular in the information retrieval field, such semantic approaches have proved their efficiency.Therefore, indexing documents is a necessary task. It consists of associating them with sets of terms that describe their content. These terms can be keywords but also concepts from an ontology, in which case the annotation is said to be semantic and benefit from the inherent properties of ontologies which are the absence of ambiguities.Most approaches designed to annotate documents have to parse them and extract concepts from this parsing. This underlines the dependance of such approaches to the type of documents, since parsing requires dedicated algorithms.On the other hand, approaches that solely rely on semantic annotations can ignore the document type, enabling the creation of generic processes. This thesis capitalizes on genericity to build novel systems and compare them to state-of-the-art approaches. To this end, we rely on semantic annotations coupled with semantic similarity measures. Of course, such generic approaches can then be enriched with type-specific ones, which would further increase the quality of the results.First of all, this work explores the relevance of this paradigm for indexing documents. The idea is to rely on already annotated close documents to annotate a target document. We define a heuristic algorithm for this purpose that uses the semantic annotations of these close documents and semantic similarities to provide a generic indexing method. This results in USI (User-oriented Semantic Indexer) that we show to perform as well as best current systems while being faster.Second of all, this idea is extended to another task, clustering. Clustering is a very common and ancient process that is very useful for finding documents or understanding a set of documents. We propose a hierarchical clustering algorithm that reuses the same components of classical methods to provide a novel one applicable to any kind of documents. Another benefit of this approach is that when documents are grouped together, the group can be annotated by using our indexing algorithm. Therefore, the result is not only a hierarchy of clusters containing documents as clusters are actually described by concepts as well. This helps a lot to better understand the results of the clustering.This thesis shows that apart from enhancing classical approaches, building conceptual approaches allows us to abstract them and provide a generic framework. Yet, while bringing easy-to-set-up methods – as long as documents are semantically annotated –, genericity does not prevent us from mixing these methods with type-specific ones, in other words creating hybrid methods
APA, Harvard, Vancouver, ISO, and other styles
25

Dupuy, Grégor. "Les collections volumineuses de documents audiovisuels : segmentation et regroupement en locuteurs." Thesis, Le Mans, 2015. http://www.theses.fr/2015LEMA1006/document.

Full text
Abstract:
La tâche de Segmentation et Regroupement en Locuteurs (SRL), telle que définie par le NIST, considère le traitement des enregistrements d’un corpus comme des problèmes indépendants. Les enregistrements sont traités séparément, et le tauxd’erreur global sur le corpus correspond finalement à une moyenne pondérée. Dans ce contexte, les locuteurs détectés par le système sont identifiés par des étiquettes anonymes propres à chaque enregistrement. Un même locuteur qui interviendrait dans plusieurs enregistrements sera donc identifié par des étiquettes différentes selon les enregistrements. Cette situation est pourtant très fréquente dans les émissions journalistiques d’information : les présentateurs, les journalistes et autres invités qui animent une émission interviennent généralement de manière récurrente. En conséquence, la tâche de SRL a depuis peu été considérée dans un contexte plus large, où les locuteurs récurrents doivent être identifiés de manière unique dans tous les enregistrements qui composent un corpus. Cette généralisation du problème de regroupement en locuteurs va de pair avec l’émergence du concept de collection, qui se réfère, dans le cadre de la SRL, à un ensemble d’enregistrements ayant une ou plusieurs caractéristiques communes. Le travail proposé dans cette thèse concerne le regroupement en locuteurs sur des collections de documents audiovisuels volumineuses (plusieurs dizaines d’heures d’enregistrements). L’objectif principal est de proposer (ou adapter) des approches de regroupement afin de traiter efficacement de gros volumes de données, tout en détectant les locuteurs récurrents. L’efficacité des approches proposées est étudiée sous deux aspects : d’une part, la qualité des segmentations produites (en termes de taux d’erreur), et d’autre part, la durée nécessaire pour effectuer les traitements. Nous proposons à cet effet deux architectures adaptées au regroupement en locuteurs sur des collections de documents. Nous proposons une approche de simplification où le problème de regroupement est représenté par une graphe non-orienté. La décompositionde ce graphe en composantes connexes permet de décomposer le problème de regroupement en un certain nombre de sous-problèmes indépendants. La résolution de ces sous-problèmes de regroupement est expérimentée avec deux approches de regroupements différentes (HAC et ILP) tirant parti des récentes avancées en modélisation du locuteur (i-vector et PLDA)
The task of speaker diarization, as defined by NIST, considers the recordings from a corpus as independent processes. The recordings are processed separately, and the overall error rate is a weighted average. In this context, detected speakers are identified by anonymous labels specific to each recording. Therefore, a speaker appearing in several recordings will be identified by a different label in each of the recordings. Yet, this situation is very common in broadcast news data: hosts, journalists and other guests may appear recurrently. Consequently, speaker diarization has been recently considered in a broader context, where recurring speakers must be uniquely identified in every recording that compose a corpus. This generalization of the speaker partitioning problem goes hand in hand with the emergence of the concept of collections, which refers, in the context of speaker diarization, to a set of recordings sharing one or more common characteristics.The work proposed in this thesis concerns speaker clustering of large audiovisual collections (several tens of hours of recordings). The main objective is to propose (or adapt) clustering approaches in order to efficiently process large volumes of data, while detecting recurrent speakers. The effectiveness of the proposed approaches is discussed from two point of view: first, the quality of the produced clustering (in terms of error rate), and secondly, the time required to perform the process. For this purpose, we propose two architectures designed to perform cross-show speaker diarization with collections of recordings. We propose a simplifying approach to decomposing a large clustering problem in several independent sub-problems. Solving these sub-problems is done with either of two clustering approaches which takeadvantage of the recent advances in speaker modeling
APA, Harvard, Vancouver, ISO, and other styles
26

Felhi, Mehdi. "Document image segmentation : content categorization." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0109/document.

Full text
Abstract:
Dans cette thèse, nous abordons le problème de la segmentation des images de documents en proposant de nouvelles approches pour la détection et la classification de leurs contenus. Dans un premier lieu, nous étudions le problème de l'estimation d'inclinaison des documents numérisées. Le but de ce travail étant de développer une approche automatique en mesure d'estimer l'angle d'inclinaison du texte dans les images de document. Notre méthode est basée sur la méthode Maximum Gradient Difference (MGD), la R-signature et la transformée de Ridgelets. Nous proposons ensuite une approche hybride pour la segmentation des documents. Nous décrivons notre descripteur de trait qui permet de détecter les composantes de texte en se basant sur la squeletisation. La méthode est appliquée pour la segmentation des images de documents numérisés (journaux et magazines) qui contiennent du texte, des lignes et des régions de photos. Le dernier volet de la thèse est consacré à la détection du texte dans les photos et posters. Pour cela, nous proposons un ensemble de descripteurs de texte basés sur les caractéristiques du trait. Notre approche commence par l'extraction et la sélection des candidats de caractères de texte. Deux méthodes ont été établies pour regrouper les caractères d'une même ligne de texte (mot ou phrase) ; l'une consiste à parcourir en profondeur un graphe, l'autre consiste à établir un critère de stabilité d'une région de texte. Enfin, les résultats sont affinés en classant les candidats de texte en régions « texte » et « non-texte » en utilisant une version à noyau du classifieur Support Vector Machine (K-SVM)
In this thesis I discuss the document image segmentation problem and I describe our new approaches for detecting and classifying document contents. First, I discuss our skew angle estimation approach. The aim of this approach is to develop an automatic approach able to estimate, with precision, the skew angle of text in document images. Our method is based on Maximum Gradient Difference (MGD) and R-signature. Then, I describe our second method based on Ridgelet transform.Our second contribution consists in a new hybrid page segmentation approach. I first describe our stroke-based descriptor that allows detecting text and line candidates using the skeleton of the binarized document image. Then, an active contour model is applied to segment the rest of the image into photo and background regions. Finally, text candidates are clustered using mean-shift analysis technique according to their corresponding sizes. The method is applied for segmenting scanned document images (newspapers and magazines) that contain text, lines and photo regions. Finally, I describe our stroke-based text extraction method. Our approach begins by extracting connected components and selecting text character candidates over the CIE LCH color space using the Histogram of Oriented Gradients (HOG) correlation coefficients in order to detect low contrasted regions. The text region candidates are clustered using two different approaches ; a depth first search approach over a graph, and a stable text line criterion. Finally, the resulted regions are refined by classifying the text line candidates into « text» and « non-text » regions using a Kernel Support Vector Machine K-SVM classifier
APA, Harvard, Vancouver, ISO, and other styles
27

Johnson, Samuel. "Document Clustering Interface." Thesis, Linköpings universitet, Institutionen för datavetenskap, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-112878.

Full text
Abstract:
This project created a first step prototype interface for a document clustering search engine. The goal is to facilitate the needs of people with reading difficulties as well as being a useful tool for general users when trying to find relevant but easy to read documents. The hypothesis is that minimizing the amount of text and focus on graphical representation will make the service easier to use for all users. The interface was developed using previously established persona and evaluated by general users (i.e. not users with reading disabilities) in order to see if the interface was easy to use and to understand without tooltips and tutorials. The results showed that even though the participants understood the interface and found it intuitive, there was still some information they thought were missing, such as an explanation for the reading indexes and how they determined readability.
APA, Harvard, Vancouver, ISO, and other styles
28

Lai, Hien Phuong. "Vers un système interactif de structuration des index pour une recherche par le contenu dans des grandes bases d'images." Phd thesis, Université de La Rochelle, 2013. http://tel.archives-ouvertes.fr/tel-00934842.

Full text
Abstract:
Cette thèse s'inscrit dans la problématique de l'indexation et la recherche d'images par le contenu dans des bases d'images volumineuses. Les systèmes traditionnels de recherche d'images par le contenu se composent généralement de trois étapes: l'indexation, la structuration et la recherche. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à l'étape de structuration qui vise à organiser, dans une structure de données, les signatures visuelles des images extraites dans la phase d'indexation afin de faciliter, d'accélérer et d'améliorer les résultats de la recherche ultérieure. A la place des méthodes traditionnelles de structuration, nous étudions les méthodes de regroupement des données (clustering) qui ont pour but d'organiser les signatures en groupes d'objets homogènes (clusters), sans aucune contrainte sur la taille des clusters, en se basant sur la similarité entre eux. Afin de combler le fossé sémantique entre les concepts de haut niveau sémantique exprimés par l'utilisateur et les signatures de bas niveau sémantique extraites automatiquement dans la phase d'indexation, nous proposons d'impliquer l'utilisateur dans la phase de clustering pour qu'il puisse interagir avec le système afin d'améliorer les résultats du clustering, et donc améliorer les résultats de la recherche ultérieure. En vue d'impliquer l'utilisateur dans la phase de clustering, nous proposons un nouveau modèle de clustering semi-supervisé interactif en utilisant les contraintes par paires (must-link et cannot-link) entre les groupes d'images. Tout d'abord, les images sont regroupées par le clustering non supervisé BIRCH (Zhang et al., 1996). Ensuite, l'utilisateur est impliqué dans la boucle d'interaction afin d'aider le clustering. Pour chaque itération interactive, l'utilisateur visualise les résultats de clustering et fournit des retours au système via notre interface interactive. Par des simples cliques, l'utilisateur peut spécifier les images positives ainsi que les images négatives pour chaque cluster. Il peut aussi glisser les images entre les clusters pour demander de changer l'affectation aux clusters des images. Les contraintes par paires sont ensuite déduites en se basant sur les retours de l'utilisateur ainsi que les informations de voisinage. En tenant compte de ces contraintes, le système réorganise les clusters en utilisant la méthode de clustering semi-supervisé proposée dans cette thèse. La boucle d'interaction peut être répétée jusqu'à ce que le résultat du clustering satisfasse l'utilisateur. Différentes stratégies pour déduire les contraintes par paires entre les images sont proposées. Ces stratégies sont analysées théoriquement et expérimentalement. Afin d'éviter que les résultats expérimentaux dépendent subjectivement de l'utilisateur humain, un agent logiciel simulant le comportement de l'utilisateur humain pour donner des retours est utilisé pour nos expérimentations. En comparant notre méthode avec la méthode de clustering semi-supervisé la plus populaire HMRF-kmeans (Basu et al., 2004), notre méthode donne de meilleurs résultats.
APA, Harvard, Vancouver, ISO, and other styles
29

Galåen, Magnus. "Dokument-klynging (document clustering)." Thesis, Norwegian University of Science and Technology, Department of Computer and Information Science, 2008. http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-8868.

Full text
Abstract:

As document searching becomes more and more important with the rapid growth of document bases today, document clustering also becomes more important. Some of the most commonly used document clustering algorithms today, are pure statistical in nature. Other algorithms have emerged, adressing some of the issues with numerical algorithms, claiming to be better. This thesis compares two well-known algorithms: Elliptic K-Means and Suffix Tree Clustering. They are compared in speed and quality, and it is shown that Elliptic K-Means performs better in speed, while Suffix Tree Clustering (STC) performs better in quality. It is further shown that STC performs better using small portions of relevant text (snippets) on real web-data compared to the full document. It is also shown that a threshold value for base cluster merging is unneccesary. As STC is shown to perform adequately in speed when running on snippets only, it is concluded that STC is the better algorithm for the purpose of search results clustering.

APA, Harvard, Vancouver, ISO, and other styles
30

Stankov, Ivan. "Semantically enhanced document clustering." Thesis, Cardiff University, 2013. http://orca.cf.ac.uk/47585/.

Full text
Abstract:
This thesis advocates the view that traditional document clustering could be significantly improved by representing documents at different levels of abstraction at which the similarity between documents is considered. The improvement is with regard to the alignment of the clustering solutions to human judgement. The proposed methodology employs semantics with which the conceptual similarity be-tween documents is measured. The goal is to design algorithms which implement the meth-odology, in order to solve the following research problems: (i) how to obtain multiple deter-ministic clustering solutions; (ii) how to produce coherent large-scale clustering solutions across domains, regardless of the number of clusters; (iii) how to obtain clustering solutions which align well with human judgement; and (iv) how to produce specific clustering solu-tions from the perspective of the user’s understanding for the domain of interest. The developed clustering methodology enhances separation between and improved coher-ence within clusters generated across several domains by using levels of abstraction. The methodology employs a semantically enhanced text stemmer, which is developed for the pur-pose of producing coherent clustering, and a concept index that provides generic document representation and reduced dimensionality of document representation. These characteristics of the methodology enable addressing the limitations of traditional text document clustering by employing computationally expensive similarity measures such as Earth Mover’s Distance (EMD), which theoretically aligns the clustering solutions closer to human judgement. A threshold for similarity between documents that employs many-to-many similarity matching is proposed and experimentally proven to benefit the traditional clustering algorithms in pro-ducing clustering solutions aligned closer to human judgement. 4 The experimental validation demonstrates the scalability of the semantically enhanced document clustering methodology and supports the contributions: (i) multiple deterministic clustering solutions and different viewpoints to a document collection are obtained; (ii) the use of concept indexing as a document representation technique in the domain of document clustering is beneficial for producing coherent clusters across domains; (ii) SETS algorithm provides an improved text normalisation by using external knowledge; (iv) a method for measuring similarity between documents on a large scale by using many-to-many matching; (v) a semantically enhanced methodology that employs levels of abstraction that correspond to a user’s background, understanding and motivation. The achieved results will benefit the research community working in the area of document management, information retrieval, data mining and knowledge management.
APA, Harvard, Vancouver, ISO, and other styles
31

Claude, Grégory. "Modélisation de documents et recherches de points communs : propositions d'un framework de gestion de fiches d'anomalie pour faciliter les maintenances corrective et préventive." Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1575/.

Full text
Abstract:
La pratique quotidienne d'une activité génère un ensemble de connaissances qui se traduisent par un savoir-faire, une maîtrise, une compétence qu'une personne acquiert au cours du temps. Pour les préserver, la capitalisation des connaissances est devenue une activité essentielle dans les entreprises. Nos travaux de recherche ont pour objectif de modéliser et mettre en œuvre un système afin d'extraire et de formaliser les connaissances issues des anomalies qui surviennent dans un contexte de production industrielle et de les intégrer dans un framework facilitant la maintenance corrective et préventive. Ce framework structure la connaissance sous la forme de groupes d'anomalies. Ces groupes peuvent être rapprochés des patterns : ils représentent un problème auquel une ou plusieurs solutions sont associées. Ils ne sont pas définis a priori, c'est l'analyse des anomalies passées qui génère des groupes pertinents, qui peuvent évoluer avec l'ajout de nouvelles anomalies. Pour identifier ces patterns, supports de la connaissance, un processus complet d'extraction et de formalisation de la connaissance est suivi, Knowledge Discovery in Databases. Ce processus a été appliqué dans des domaines très variés. Nous lui donnons ici une nouvelle dimension, le traitement d'anomalies et plus particulièrement celles qui surviennent au cours de processus de production industrielle. Les étapes génériques qui le composent, depuis la simple sélection des données jusqu'à l'interprétation des patterns qui supportent les connaissances, sont considérées pour affecter à chacune un traitement spécifique pertinent par rapport à notre contexte applicatif
The daily practice of an activity generates a set of knowledge that results in a know-how, a mastery, a skill a person gains over time. In order to take advantage of this experience, capitalization of knowledge has become an essential activity for companies. Our research work aims to model and implement such a system that extracts and formalizes knowledge from defects that occur in the context of industrial production, and to integrate it into a framework in order to facilitate corrective and preventive maintenance. This framework organizes the knowledge in the form of defects' groups. These groups can be compared to patterns: they represent a problem to which one or more solutions are related. They are not defined a priori; the analysis of past defects generates relevant groups, which may change with the addition of new defects. To identify these patterns, a complete process of knowledge extraction and formalization is adopted, Knowledge Discovery in Databases, well known in the domain of knowledge management. This process has been applied in very diversified fields. In this work, we give a new dimension to this process, the processing of defects, especially those that occur during industrial production processes. The generic steps that compose it, from the simple data selection to the interpretation of patterns that support knowledge, are considered. A specific processing, relevant to our applicative context, is assigned to each of these steps
APA, Harvard, Vancouver, ISO, and other styles
32

Li, Yanjun. "High Performance Text Document Clustering." Wright State University / OhioLINK, 2007. http://rave.ohiolink.edu/etdc/view?acc_num=wright1181005422.

Full text
APA, Harvard, Vancouver, ISO, and other styles
33

Claude, Grégory. "Modélisation de documents et recherche de points communs - Proposition d'un framework de gestion de fiches d'anomalie pour faciliter les maintenances corrective et préventive." Phd thesis, Université Paul Sabatier - Toulouse III, 2012. http://tel.archives-ouvertes.fr/tel-00701752.

Full text
Abstract:
La pratique quotidienne d'une activité génère un ensemble de connaissances qui se traduisent par un savoir-faire, une maîtrise, une compétence qu'une personne acquiert au cours du temps. Pour les préserver, la capitalisation des connaissances est devenue une activité essentielle dans les entreprises. Nos travaux de recherche ont pour objectif de modéliser et mettre en œuvre un système afin d'extraire et de formaliser les connaissances issues des anomalies qui surviennent dans un contexte de production industrielle et de les intégrer dans un framework facilitant la maintenance corrective et préventive. Ce framework structure la connaissance sous la forme de groupes d'anomalies. Ces groupes peuvent être rapprochés des patterns : ils représentent un problème auquel une ou plusieurs solutions sont associées. Ils ne sont pas définis a priori, c'est l'analyse des anomalies passées qui génère des groupes pertinents, qui peuvent évoluer avec l'ajout de nouvelles anomalies. Pour identifier ces patterns, supports de la connaissance, un processus complet d'extraction et de formalisation de la connaissance est suivi, Knowledge Discovery in Databases. Ce processus a été appliqué dans des domaines très variés. Nous lui donnons ici une nouvelle dimension, le traitement d'anomalies et plus particulièrement celles qui surviennent au cours de processus de production industrielle. Les étapes génériques qui le composent, depuis la simple sélection des données jusqu'à l'interprétation des patterns qui supportent les connaissances, sont considérées pour affecter à chacune un traitement spécifique pertinent par rapport à notre contexte applicatif.
APA, Harvard, Vancouver, ISO, and other styles
34

Akbar, Monika. "FP-growth approach for document clustering." Thesis, Montana State University, 2008. http://etd.lib.montana.edu/etd/2008/akbar/AkbarM0508.pdf.

Full text
Abstract:
Since the amount of text data stored in computer repositories is growing every day, we need more than ever a reliable way to group or categorize text documents. Most of the existing document clustering techniques use a group of keywords from each document to cluster the documents. In this thesis, we have used a sense based approach to cluster documents instead of using only the frequency of the keywords. We use relationships between the keywords to cluster the documents. The relationships are retrieved from the WordNet ontology and represented in the form of a graph. The document-graphs, which reflect the essence of the documents, are searched in order to find the frequent subgraphs. To discover the frequent subgraphs, we use the Frequent Pattern Growth (FP-growth) approach, which was originally designed to discover frequent patterns. The common frequent subgraphs discovered by the FP-growth approach are later used to cluster the documents. The FP-growth approach requires the creation of an FP-tree. Mining the FP-tree, which is created for a normal transaction database, is easier compared to large document-graphs, mostly because the itemsets in a transaction database is smaller compared to the edge list of our document-graphs. Original FP-tree mining procedure is also easier because the items of a traditional transaction database are stand-alone entities and have no direct connection to each other. In contrast, as we look for subgraphs in graphs, they become related to each other in the context of connectivity. The computation cost makes the original FP-growth approach somewhat inefficient for text documents. We modify the FP-growth approach, making it possible to generate frequent subgraphs from the FP-tree. Later, we cluster documents using these subgraphs.
APA, Harvard, Vancouver, ISO, and other styles
35

Wang, Yong. "Incorporating semantic and syntactic information into document representation for document clustering." Diss., Mississippi State : Mississippi State University, 2005. http://library.msstate.edu/etd/show.asp?etd=etd-07072005-105806.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Davis, Aaron Samuel. "Bisecting Document Clustering Using Model-Based Methods /." Diss., CLICK HERE for online access, 2010. http://contentdm.lib.byu.edu/ETD/image/etd3332.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Davis, Aaron Samuel. "Bisecting Document Clustering Using Model-Based Methods." BYU ScholarsArchive, 2009. https://scholarsarchive.byu.edu/etd/1938.

Full text
Abstract:
We all have access to large collections of digital text documents, which are useful only if we can make sense of them all and distill important information from them. Good document clustering algorithms that organize such information automatically in meaningful ways can make a difference in how effective we are at using that information. In this paper we use model-based document clustering algorithms as a base for bisecting methods in order to identify increasingly cohesive clusters from larger, more diverse clusters. We specifically use the EM algorithm and Gibbs Sampling on a mixture of multinomials as the base clustering algorithms on three data sets. Additionally, we apply a refinement step, using EM, to the final output of each clustering technique. Our results show improved agreement with human annotated document classes when compared to the existing base clustering algorithms, with marked improvement in two out of three data sets.
APA, Harvard, Vancouver, ISO, and other styles
38

Kim, Young-Min. "Document clustering in a learned concept space." Paris 6, 2010. http://www.theses.fr/2010PA066459.

Full text
Abstract:
La tâche de partitionnement de documents est l'un des problèmes centraux en Recherche d'Information (RI). Les résultats de partitionnement indique non-seulement la structure d'une collection, mais ils sont aussi souvent utilisés dans différents tâches de RI. Dans cette thèse, nous nous somme intéressés à développer des techniques probabilistes à base de modèles latents pour cette tâche. Dans ce but, nous proposons quatre techniques différentes basées sur l'observation que le partitionnement est bien plus effectif dans un espace de concepts trouvé automatiquement que dans l'espace de sac-de-mots. L'organisation de cette thèse est la suivante: dans la première partie de la thèse, nous donnons un état de l'art complet sur les techniques de partitionnement et nous présentons les algorithmes classiques pour apprendre les paramètres des modèles de partitionnement probabilistes. Dans une deuxième partie, nous présentons nos contributions en développant d'abord une méthode de partitionnement composée de deux phases. Dans la première phase, les mots de la collection sont regroupés suivant l'hypothèse que les mots apparaissant dans les mêmes documents avec les mêmes fréquences sont similaires. Les documents sont ensuite regroupés dans l'espace induit par ces groupements de mots, appelés concepts de mots. Sur ce principe, nous étendons le modèle latent PLSA pour un partitionnement simultané des mots et des documents. Nous proposons ensuite une stratégie de sélection de modèles permettant de trouver efficacement le meilleur modèle parmi tous les choix possibles. Et aussi, nous montrons comment le PLSA peut être adaptés pour le partitionnement multi-vus de documents multi-langues.
APA, Harvard, Vancouver, ISO, and other styles
39

Latif, Seemab. "Automatic summarisation as pre-processing for document clustering." Thesis, University of Manchester, 2010. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.521783.

Full text
APA, Harvard, Vancouver, ISO, and other styles
40

Geiss, Johanna. "Latent semantic sentence clustering for multi-document summarization." Thesis, University of Cambridge, 2011. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.609761.

Full text
APA, Harvard, Vancouver, ISO, and other styles
41

Rosell, Magnus. "Clustering in Swedish : The Impact of some Properties of the Swedish Language on Document Clustering and an Evaluation Method." Licentiate thesis, Stockholm, 2005. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-438.

Full text
APA, Harvard, Vancouver, ISO, and other styles
42

He, Binlai. "A Document Recommender Based on Word Embedding." Thesis, KTH, Skolan för elektro- och systemteknik (EES), 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-183502.

Full text
Abstract:
With the booming development of information technology, text information is not only remained in paper-based forms, but also in digital forms which have been distributed all over internet. Massive information on the internet provides us so many options while at the same time makes it hard for us to choose which detail information we exactly need. The appearance of media monitoring is going to change the situation and help solve the problem. Meltwater group as a media monitoring company provides a service of tracking and sorting information to enterprises and help them to achieve business goals. These goals may include finding the best time or place to do business campaign and knowing the dynamic information about the competitors. There is a recommender system in Meltwater. When a query has been searched, the corresponding documents which are searched from the database will be presented. The problem for the system is that some of the documents have beenturned out to be misclassified and the correctness rate for the recommendation isnot that high. To help solve this problem and make the search better, this paper will introduce a new algorithm which is based on word embedding approach and users’ supervision. The background information of Meltwater group and its existing frame of recommender system will be specifically illustrated at the beginning of the paper. Followed by it will be the exploration of background methods which include LSA (Latent Semantic Analysis), Random Indexing and Word2vec. Besides, the necessary tools such as T-SNE, K-means clustering and hierarchy clustering will also be mentioned in this part. The data sets that are going to be used in this paper will be described after thepart of background methods. Information such as the introduction of the data and the dealing of it will be mentioned in a detail way. The description of the algorithm will appear in the middle of the paper with detail steps. Followed by it is the evaluation. The algorithm will be evaluated by using several different data sets and the confusion matrix will be used as a means of measurement. Finally, a summary of the method as well as future suggestions will be made at the end of the paper.
APA, Harvard, Vancouver, ISO, and other styles
43

Leixner, Petr. "Shlukování textových dat." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2010. http://www.nusl.cz/ntk/nusl-237188.

Full text
Abstract:
Process of text data clustering can be used to analysis, navigation and structure large sets of texts or hypertext documents. The basic idea is to group the documents into a set of clusters on the basis of their similarity. The well-known methods of text clustering, however, do not really solve the specific problems of text clustering like high dimensionality of the input data, very large size of the databases and understandability of the cluster description. This work deals with mentioned problems and describes the modern method of text data clustering based on the use of frequent term sets, which tries to solve deficiencies of other clustering methods.
APA, Harvard, Vancouver, ISO, and other styles
44

Alise, Dario Fioravante. "Algoritmo di "Label Propagation" per il clustering di documenti testuali." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2017. http://amslaurea.unibo.it/14388/.

Full text
Abstract:
Negli ultimi anni del secolo scorso l’avvento di Internet ha permesso di avere a disposizione innumerevoli quantità di testi consultabili online, provenienti sia da libri e riviste, sia da nuove forme di comunicazione della rete quali email, forum, newsgroup e chat. 
Le soluzioni adottate nel settore del Text Mining (d’ora in poi abbreviato in TM), che è l’estensione del Data Mining rivolto a dati testuali non strutturati, si basano su fondamenti informatici, statistici e linguistici e sono in linea di principio applicabili a documenti di qualsiasi dimensione.
Con l’avvento dei Social Networks la quantità e la dimensione dei dati testuali da analizzare è cresciuta in maniera sub-esponenziale e benché le tecniche disponibili rimangono comunque valide e applicabili, negli ultimi quattro/cinque anni la ricerca si è concentrata su una tecnica emergente, chiamata semantic hashing, che consente di mappare documenti di qualunque tipo in stringhe binarie.
Sfruttando questa nuova branca di ricerca, lo scopo principale di questa tesi è di definire, progettare ed implementare un algoritmo di clustering che prendendo in input questi dati binari sia in grado di etichettare tali dati in maniera più precisa ed in tempi minori rispetto a quanto fanno gli altri approcci presenti in letteratura.
Dopo una descrizione di quelle che sono le principali tecniche di TM, seguirà una trattazione relativa all’hashing semantico e alle basi teoriche su cui questo si fonda per poi introdurre l’algoritmo adoperato per fare clustering, presentandone lo schema architetturale di funzionamento e la relativa implementazione. 
Infine saranno comparati e analizzati i risultati dell’esecuzione dell’algoritmo, chiamato d’ora in poi Label Propagation (abbreviato in LP), con quelli ottenuti con tecniche standard.
APA, Harvard, Vancouver, ISO, and other styles
45

Jarolím, Jordán. "Analýza a získávání informací ze souboru dokumentů spojených do jednoho celku." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2018. http://www.nusl.cz/ntk/nusl-385929.

Full text
Abstract:
This thesis deals with mining of relevant information from documents and automatic splitting of multiple documents merged together. Moreover, it describes the design and implementation of software for data mining from documents and for automatic splitting of multiple documents. Methods for acquiring textual data from scanned documents, named entity recognition, document clustering, their supportive algorithms and metrics for automatic splitting of documents are described in this thesis. Furthermore, an algorithm of implemented software is explained and tools and techniques used by this software are described. Lastly, the success rate of the implemented software is evaluated. In conclusion, possible extensions and further development of this thesis are discussed at the end.
APA, Harvard, Vancouver, ISO, and other styles
46

Walker, Daniel David. "Bayesian Test Analytics for Document Collections." BYU ScholarsArchive, 2012. https://scholarsarchive.byu.edu/etd/3530.

Full text
Abstract:
Modern document collections are too large to annotate and curate manually. As increasingly large amounts of data become available, historians, librarians and other scholars increasingly need to rely on automated systems to efficiently and accurately analyze the contents of their collections and to find new and interesting patterns therein. Modern techniques in Bayesian text analytics are becoming wide spread and have the potential to revolutionize the way that research is conducted. Much work has been done in the document modeling community towards this end,though most of it is focused on modern, relatively clean text data. We present research for improved modeling of document collections that may contain textual noise or that may include real-valued metadata associated with the documents. This class of documents includes many historical document collections. Indeed, our specific motivation for this work is to help improve the modeling of historical documents, which are often noisy and/or have historical context represented by metadata. Many historical documents are digitized by means of Optical Character Recognition(OCR) from document images of old and degraded original documents. Historical documents also often include associated metadata, such as timestamps,which can be incorporated in an analysis of their topical content. Many techniques, such as topic models, have been developed to automatically discover patterns of meaning in large collections of text. While these methods are useful, they can break down in the presence of OCR errors. We show the extent to which this performance breakdown occurs. The specific types of analyses covered in this dissertation are document clustering, feature selection, unsupervised and supervised topic modeling for documents with and without OCR errors and a new supervised topic model that uses Bayesian nonparametrics to improve the modeling of document metadata. We present results in each of these areas, with an emphasis on studying the effects of noise on the performance of the algorithms and on modeling the metadata associated with the documents. In this research we effectively: improve the state of the art in both document clustering and topic modeling; introduce a useful synthetic dataset for historical document researchers; and present analyses that empirically show how existing algorithms break down in the presence of OCR errors.
APA, Harvard, Vancouver, ISO, and other styles
47

LOU, YI-SHENG, and 劉易昇. "Document Clustering and Visualization of Documents Based on PageRank." Thesis, 2014. http://ndltd.ncl.edu.tw/handle/06143626443030804077.

Full text
Abstract:
碩士
國立臺灣科技大學
資訊管理系
102
In this paper, we proposes a document clustering and visualization scheme with PageRank-based agglomerative clustering. This approach can be used to analyze document sets such that people may grasp the main topics or issues within a document set quickly. In addition, two metrics, including compactness and connectivity, are defined to measure the quality of document clusters. Experimental results show that PageRank-based approach outperforms k-means-based approach on both metrics by aggregating data strictly and eliminating outliers effectively. This scheme has been primarily tested on several document sets and satisfactory analysis results can be obtained. Visualization of 1,000 sport news based on this scheme was further given to show its applicability.
APA, Harvard, Vancouver, ISO, and other styles
48

Liu, Shih-Chi, and 劉世琪. "The Automatic Clustering of Domain-Specific Chinese Documents." Thesis, 2007. http://ndltd.ncl.edu.tw/handle/12287595355701437385.

Full text
Abstract:
碩士
元智大學
資訊管理學系
95
In the domain of the knowledge management, enterprises are at the beginning of building and constructing document management system, the documents authors offer are not classified very effectively. This fact let user unable searching and using in effect under a large number of documents. A lot of research reveals keywords can help users to decide whether the document is useful. And gather together piles and piles of documents in accordance with its similarity, can offer a more efficient way of searching documents to users. For this reason the experiments using the Electronic Theses and Dissertations System searches the photonics documents about color filter or Liquid Crystal Display-LCD domain. We improve Kea, an algorithm for automatically extracting keyphrases from Chinese texts. Besides by analyzing the results of using Hierarchical Clustering Algorithms can assist administrators to assess the suitable ways of the categorized documents.
APA, Harvard, Vancouver, ISO, and other styles
49

Lei, Ying-Chieh, and 雷穎傑. "A Level-wise Clustering Algorithm on Structured Documents." Thesis, 2003. http://ndltd.ncl.edu.tw/handle/92797998848353514145.

Full text
Abstract:
碩士
國立交通大學
資訊科學系
91
Document clustering is the process of applying clustering technique to the document management. Similar documents can be grouped together by clustering technique, so that both managing and searching the documents can be efficient. But, most existing document clustering algorithms do not take the structure information of the document into consideration, so the clustering results can not reflect the characteristics of the documents fully. Therefore, we represent each document as a tree structure and propose a level-wise clustering algorithm to solve the problem. The clustering process applies the level property of the tree and is run level by level by the concept generation operation. In order to store the clustering results and search similar clusters efficiently, a multistage graph is proposed. Based on the multistage graph, three search strategies are provided to meet the needs of different uses. Finally, our experimental results show that the similarity search is efficient and the accuracy of the search is acceptable.
APA, Harvard, Vancouver, ISO, and other styles
50

Liou, Po-Lun, and 劉博倫. "Retrieving Representative Structures from XML Documents Using Clustering Techniques." Thesis, 2010. http://ndltd.ncl.edu.tw/handle/89488738673347465186.

Full text
Abstract:
碩士
雲林科技大學
電子與資訊工程研究所
98
In the paper, we addressed the problem of finding the common structures in a collection of XML documents. Since an XML document can be represented as a tree structure, the problem how to cluster a collection of XML documents can be considered as how to cluster a collection of tree-structured documents. First, we used SOM (Self-Organizing Map) with the Jaccard coefficient to cluster XML documents. Then, an efficient sequential mining method called GST was applied to find maximum frequent sequences. Finally, we merged the maximum frequent sequences to produce the common structures in a cluster.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography