Dissertations / Theses: 'Knowledge Discovery in Databases (KDD)'

1

Storti, Emanuele. "KDD process design in collaborative and distributed environments." Doctoral thesis, Università Politecnica delle Marche, 2012. http://hdl.handle.net/11566/242061.

Full text

Abstract:

Il termine Knowledge Discovery in Databases (KDD) si riferisce al processo di scoperta di conoscenza all'interno di grandi volumi di dati, per mezzo di specifici algoritmi. L'applicazione di tali tecniche a contesti organizzativi reali risulta oggi ancora limitata, principalmente a causa della complessità nella configurazione degli algoritmi di analisi dei dati e nella difficoltà nella gestione/esecuzione dei processi di KDD, che impone spesso di far riferimento a contesti di computazione distribuita ed alla interazione tra diversi utenti, tra i quali specialisti con competenze tecniche ed esperti nello specifico dominio oggetto dell'analisi. In questo lavoro viene presentata Knowledge Discovery in Database Virtual Mart (KDDVM), una piattaforma orientata a supportare utenti con diversi livelli di esperienza nella progettazione di processi di KDD in ambito collaborativo e distribuito. La piattaforma si basa su un'architettura aperta, modulare, estensibile ed orientata ai servizi, nella quale vengono messe a disposizione funzionalità di preprocessing, modellazione e postprocessing. In KDDVM, tutte le risorse coinvolte in un processo, comprese le applicazioni, i dati e gli utenti, vengono rappresentate sistematicamente per mezzo di tecnologie semantiche, a vari livelli di astrazione. In tal modo è possibile approcciare il processo di estrazione della conoscenza in modo innovativo, fornendo un supporto più efficace ad utenti non esperti nell'esecuzione di attività complesse. Tra di essi sono disponibili funzionalità per il deployment di tool eterogenei, per la ricerca sintattica e semantica, all'interno di repository, di servizi che corrispondono a determinati requisiti, per il supporto intelligente alla composizione semi-automatica di processi, nonché strumenti capaci di supportare più utenti distribuiti, in un'ottica collaborativa, nella progettazione condivisa di un processo di KDD.
Knowledge Discovery in Databases (KDD), as well as scientific experimentation in e-Science, is a complex and computationally intensive process aimed at gaining knowledge from a huge set of data. Often performed in distributed settings, KDD projects usually involve a deep interaction among heterogeneous tools and several users with specific expertise. Given the high complexity of the process, such users need effective support to achieve their goal of knowledge extraction. This work presents the Knowledge Discovery in Database Virtual Mart (KDDVM), a user- and knowledge-centric framework aimed at supporting the design of KDD processes in a highly distributed and collaborative scenario, in which computational resources and actors dynamically interoperate to share and elaborate knowledge. The contribution of the work is two-fold: firstly, a conceptual systematization of the relevant knowledge is provided, with the aim to formalize, through semantic technologies, each element taking part in the design and execution of a KDD process, including computational resources, data and actors; secondly, we propose an implementation of the framework as an open, modular and extensible Service-Oriented platform, in which several services are available both to perform basic operations of data manipulations and to support more advanced functionalities. Among them, the management of deployment/activation of computational resources, service discovery and their composition to build KDD processes. Since the cooperative design and execution of a distributed KDD process typically require several skills, both technical and managerial, collaboration can easily become a source of complexity if not supported by any kind of coordination. For such reasons, a set of functionalities of the platform is specifically addressed to support collaboration within a distributed team, by providing an environment in which users can work on the same project and share processes, results and ideas.