Dissertations / Theses: 'BigData'

1

Яковець, Р. І., and Ігор Віталійович Пономаренко. "Основні тенденції в BigData." Thesis, КНУТД, 2016. https://er.knutd.edu.ua/handle/123456789/4083.

Full text

APA, Harvard, Vancouver, ISO, and other styles

2

Vitali, Federico. "Map-Matching su Piattaforma BigData." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2019. http://amslaurea.unibo.it/18089/.

Full text

Abstract:

Nell'ambito dell'analisi dei dati di movimento atto all'estrazione di informazioni utili, il map matching ha l'obiettivo di proiettare i punti GPS generati dagli oggetti in movimento sopra i segmenti stradali in modo da rappresentare l'attuale posizione degli oggetti. Fino ad ora, il map matching è stato sfruttato in ambiti come l'analisi del traffico, l'estrazione dei percorsi frequenti e la predizione della posizione degli oggetti, oltre a rappresentare un'importante fase di pre-processing nell'intero procedimento di trajectory mining. Sfortunatamente, le implementazioni allo stato dell'arte degli algoritmi di map matching sono tutte sequenziali o inefficienti. In questa tesi viene quindi proposto un algoritmo il quale si basa su di un algoritmo sequenziale conosciuto per la sua accuratezza ed efficienza il quale viene completamente riformulato in maniera distribuita in modo tale da raggiungere anche un elevata scalabilità nel caso di utilizzo con i big data. Inoltre, viene migliorata la robustezza dell'algoritmo, il quale è basato sull'Hidden Markov Model di primo ordine, introducendo una strategia per gestire i possibili buchi di informazione che si possono venire a creare tra i segmenti stradali assegnati. Infatti, il problema può accadere in caso di campionamento variabile dei punti GPS in aree urbane con un elevata frammentazione dei segmenti stradali. L'implementazione è basata su Apache Spark e testata su un dataset di oltre 7.8 milioni di punti GPS nella città di Milano.

APA, Harvard, Vancouver, ISO, and other styles

3

Urssi, Nelson José. "Metacidade: projeto, bigdata e urbanidade." Universidade de São Paulo, 2017. http://www.teses.usp.br/teses/disponiveis/16/16134/tde-01062017-154915/.

Full text

Abstract:

As tecnologias de informação e comunicação em todas as instâncias de nosso cotidiano modificam nossa maneira de viver e pensar. A computação urbana, ubíqua, locativa, multimídia e interconectada gera grande quantidade de dados o que resulta em abundância de informação sobre quase tudo em nosso mundo. As cidades permeadas por sensores pessoais, veiculares e ambientais adquirem características sencientes. Uma cidade sensível ao cidadão pode funcionar com estratégias individualizadas para o dia a dia. A tese discute o papel das cidades na complexidade de nossas vidas, o inter-relacionamento de equipamentos físicos (hardware), modelos simbólicos (software) e padrões de uso (aplicações), e os desafios de projeto para esse ecossistema global de informação híbrida. Apresenta investigação netnográfica, por meio de estudos de caso, explorações urbanas e entrevistas, em que se pode observar nossa condição contemporânea. Concluímos com a hipótese constatada na tese, a cidade atualizada em tempo real, um ecossistema informacional urbano de novas e infinitas possibilidades de interfaces e interações.
The technologies of information and communication in all the instances of our daily life modifies the way we live and think. Urban computing, ubiquitous, locative, multimídia and interconnected, generates a large amount of data, resulting in an abundance of information on almost everything in our world. Cities permeated by personal, vehicular and environmental sensors acquire sentient characteristics. A citizen-sensitive city can work with individualized day-to-day strategies. The thesis discusses the role of cities and the complexity of our lives, the interrelationship of hardware, symbolic models and patterns of use (applications), and the design challenges to this global hybrid information ecosystem. It presents netnographic research, through case studies, urban explorations and interviews, where one can observe our presente contemporary condition. The hypothesis verified in the thesis, the city updated in real time, an urban informational ecosystem of new and infinite possibilities of interfaces and interactions.

APA, Harvard, Vancouver, ISO, and other styles

4

Hashem, Hadi. "Modélisation intégratrice du traitement BigData." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLL005/document.

Full text

Abstract:

Dans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique.L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative.Cette réflexion est en outre soutenue par un prototype logiciel mettant en oeuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d'un ou plusieurs traitements sur BigData
Nowadays, multiple actors of Internet technology are producing very large amounts of data. Sensors, social media or e-commerce, all generate real-time extending information based on the 3 Vs of Gartner: Volume, Velocity and Variety. In order to efficiently exploit this data, it is important to keep track of the dynamic aspect of their chronological evolution by means of two main approaches: the polymorphism, a dynamic model able to support type changes every second with a successful processing and second, the support of data volatility by means of an intelligent model taking in consideration key-data, salient and valuable at a specific moment without processing all volumes of history and up to date data.The primary goal of this study is to establish, based on these approaches, an integrative vision of data life cycle set on 3 steps, (1) data synthesis by selecting key-values of micro-data acquired by different data source operators, (2) data fusion by sorting and duplicating the selected key-values based on a de-normalization aspect in order to get a faster processing of data and (3) the data transformation into a specific format of map of maps of maps, via Hadoop in the standard MapReduce process, in order to define the related graph in applicative layer.In addition, this study is supported by a software prototype using the already described modeling tools, as a toolbox compared to an automatic programming software and allowing to create a customized processing chain of BigData

APA, Harvard, Vancouver, ISO, and other styles

5

Hashem, Hadi. "Modélisation intégratrice du traitement BigData." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLL005.

Full text

Abstract:

Dans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique.L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative.Cette réflexion est en outre soutenue par un prototype logiciel mettant en oeuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d'un ou plusieurs traitements sur BigData
Nowadays, multiple actors of Internet technology are producing very large amounts of data. Sensors, social media or e-commerce, all generate real-time extending information based on the 3 Vs of Gartner: Volume, Velocity and Variety. In order to efficiently exploit this data, it is important to keep track of the dynamic aspect of their chronological evolution by means of two main approaches: the polymorphism, a dynamic model able to support type changes every second with a successful processing and second, the support of data volatility by means of an intelligent model taking in consideration key-data, salient and valuable at a specific moment without processing all volumes of history and up to date data.The primary goal of this study is to establish, based on these approaches, an integrative vision of data life cycle set on 3 steps, (1) data synthesis by selecting key-values of micro-data acquired by different data source operators, (2) data fusion by sorting and duplicating the selected key-values based on a de-normalization aspect in order to get a faster processing of data and (3) the data transformation into a specific format of map of maps of maps, via Hadoop in the standard MapReduce process, in order to define the related graph in applicative layer.In addition, this study is supported by a software prototype using the already described modeling tools, as a toolbox compared to an automatic programming software and allowing to create a customized processing chain of BigData

APA, Harvard, Vancouver, ISO, and other styles

6

Оверчук, Олексій Сергійович. "Методи кодування інформаційних потоків BigData фінансового ринку." Master's thesis, КПІ ім. Ігоря Сікорського, 2019. https://ela.kpi.ua/handle/123456789/32122.

Full text

Abstract:

Магістерська дисертація : 100 с., 17 рис., 14 табл., 3 додатки, 20 джерел. Об'єкт дослідження – методи кодування інформаційних потоків Bigdata фінансових ринків. Мета роботи – дослідження методів кодування на основі сучасних алгоритмів стискання данних та підвищення надійності зберігання даних на основі методів системного діагностування. Методи дослідження – статистичні методи кодування та використання діагностичних графів. Новизна роботи – використання методів мультикомпресорного стискання даних та структурна декомпозиція даних Big Data на основі застосування діагностичних . У роботі проведено аналіз сучасних методів кодування на основі алгоритмів стискання даних і розроблено загальний підхід на основі мультикомпресорних методів стискання даних; отримано основні співвідношення для оцінки регулярних структур даних Big Data на основі застосування методів системного діагностування. Результати магістерської дисертації опубліковано у двох публікаціях. Отримані результати використано при виконанні науково-дослідної роботи ММСА-1/2018р. У подальшому рекомендується розглянути можливість доповнити методи кодування, а також дослідити інші способи підвищення надійності інформаційних потоків.
Master's Thesis: 100 p., 17 fig., 14 tabl., 3 suppl., 20 sources. Object of Study - Methods for Using Bigdata Numerical Market Flows. Metal works - research of methods used on modern algorithms of modern elemental data and reliable data on preservation of data on the system of methods of diagnostics. Research Methods - Statistical methods of using and diagnosing graphs. New knowledge of work - the use of multicompressor data styling techniques and Big Data structural decompositions for the use of diagnostic diagrams. The study analyzes modern methods that are used by their data compression algorithms and develops publicly available data on various multi-compressor data compression methods; The main comparisons obtained for the Code of Regular Data Data are big data on the use of system diagnostic methods. The results of the master's thesis are published in two publications. The results obtained were used in the research works of MMSA-1/2018. In this work, it is recommended that you review additional methods of code use and explore other ways to secure information flows.

APA, Harvard, Vancouver, ISO, and other styles

7

Прасол, І. Г. "Застосування технологій обробки великих даних (BigData) в маркетингу." Thesis, Київський національний універститет технологій та дизайну, 2017. https://er.knutd.edu.ua/handle/123456789/10404.

Full text

APA, Harvard, Vancouver, ISO, and other styles

8

Díaz, Huiza César, and Balcázar César Quezada. "Charla sobre aplicaciones de Bigdata en el mercado." Universidad Peruana de Ciencias Aplicadas (UPC), 2019. http://hdl.handle.net/10757/627937.

Full text

APA, Harvard, Vancouver, ISO, and other styles

9

Gault, Sylvain. "Improving MapReduce Performance on Clusters." Thesis, Lyon, École normale supérieure, 2015. http://www.theses.fr/2015ENSL0985/document.

Full text

Abstract:

Beaucoup de disciplines scientifiques s'appuient désormais sur l'analyse et la fouille de masses gigantesques de données pour produire de nouveaux résultats. Ces données brutes sont produites à des débits toujours plus élevés par divers types d'instruments tels que les séquenceurs d'ADN en biologie, le Large Hadron Collider (LHC) qui produisait en 2012, 25 pétaoctets par an, ou les grands télescopes tels que le Large Synoptic Survey Telescope (LSST) qui devrait produire 30 pétaoctets par nuit. Les scanners haute résolution en imagerie médicale et l'analyse de réseaux sociaux produisent également d'énormes volumes de données. Ce déluge de données soulève de nombreux défis en termes de stockage et de traitement informatique. L'entreprise Google a proposé en 2004 d'utiliser le modèle de calcul MapReduce afin de distribuer les calculs sur de nombreuses machines.Cette thèse s'intéresse essentiellement à améliorer les performances d'un environnement MapReduce. Pour cela, une conception modulaire et adaptable d'un environnement MapReduce est nécessaire afin de remplacer aisément les briques logicielles nécessaires à l'amélioration des performances. C'est pourquoi une approche à base de composants est étudiée pour concevoir un tel environnement de programmation. Afin d'étudier les performances d'une application MapReduce, il est nécessaire de modéliser la plate-forme, l'application et leurs performances. Ces modèles doivent être à la fois suffisamment précis pour que les algorithmes les utilisant produisent des résultats pertinents, mais aussi suffisamment simple pour être analysés. Un état de l'art des modèles existants est effectué et un nouveau modèle correspondant aux besoins d'optimisation est défini. De manière à optimiser un environnement MapReduce la première approche étudiée est une approche d'optimisation globale qui aboutit à une amélioration du temps de calcul jusqu'à 47 %. La deuxième approche se concentre sur la phase de shuffle de MapReduce où tous les nœuds envoient potentiellement des données à tous les autres nœuds. Différents algorithmes sont définis et étudiés dans le cas où le réseau est un goulet d'étranglement pour les transferts de données. Ces algorithmes sont mis à l'épreuve sur la plate-forme expérimentale Grid'5000 et montrent souvent un comportement proche de la borne inférieure alors que l'approche naïve en est éloignée
Nowadays, more and more scientific fields rely on data mining to produce new results. These raw data are produced at an increasing rate by several tools like DNA sequencers in biology, the Large Hadron Collider (LHC) in physics that produced 25 petabytes per year as of 2012, or the Large Synoptic Survey Telescope (LSST) that should produce 30 petabyte of data per night. High-resolution scanners in medical imaging and social networks also produce huge amounts of data. This data deluge raise several challenges in terms of storage and computer processing. The Google company proposed in 2004 to use the MapReduce model in order to distribute the computation across several computers.This thesis focus mainly on improving the performance of a MapReduce environment. In order to easily replace the software parts needed to improve the performance, designing a modular and adaptable MapReduce environment is necessary. This is why a component based approach is studied in order to design such a programming environment. In order to study the performance of a MapReduce application, modeling the platform, the application and their performance is mandatory. These models should be both precise enough for the algorithms using them to produce meaningful results, but also simple enough to be analyzed. A state of the art of the existing models is done and a new model adapted to the needs is defined. On order to optimise a MapReduce environment, the first studied approach is a global optimization which result in a computation time reduced by up to 47 %. The second approach focus on the shuffle phase of MapReduce when all the nodes may send some data to every other node. Several algorithms are defined and studied when the network is the bottleneck of the data transfers. These algorithms are tested on the Grid'5000 experiment platform and usually show a behavior close to the lower bound while the trivial approach is far from it

APA, Harvard, Vancouver, ISO, and other styles

10

Melkes, Miloslav. "BigData řešení pro zpracování rozsáhlých dat ze síťových toků." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2014. http://www.nusl.cz/ntk/nusl-236039.

Full text

Abstract:

This master‘s thesis focuses on distributed processing of big data from network communication. It begins with exploring network communication based on TCP/IP model with focus on data units on each layer, which is necessary to process during analyzation. In terms of the actual processing of big data is described programming model MapReduce, architecture of Apache Hadoop technology and it‘s usage for processing network flows on computer cluster. Second part of this thesis deals with design and following implementation of the application for processing network flows from network communication. In this part are discussed main and problematic parts from the actual implementation. After that this thesis ends with a comparison with available applications for network analysis and evaluation set of tests which confirmed linear growth of acceleration.

APA, Harvard, Vancouver, ISO, and other styles

11

Охотний, С. М. "Особливості обробки даних великих об’ємів (BigData) з використанням нереляційних баз даних." Thesis, ЦНТУ, 2017. http://dspace.kntu.kr.ua/jspui/handle/123456789/7377.

Full text

APA, Harvard, Vancouver, ISO, and other styles

12

Graux, Damien. "On the efficient distributed evaluation of SPARQL queries." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM058/document.

Full text

Abstract:

Le Web Sémantique est une extension du Web standardisée par le World Wide Web Consortium. Les différents standards utilisent comme format de base pour les données le Resource Description Framework (rdf) et son langage de requêtes nommé sparql. Plus généralement, le Web Sémantique tend à orienter l’évolution du Web pour permettre de trouver et de traiter l’information plus facilement. L'augmentation des volumes de données rdf disponibles tend à faire rendre standard la distribution des jeux de données. Par conséquent, des évaluateurs de requêtes sparql efficaces et distribués sont de plus en plus nécessaires. Pour faire face à ces challenges, nous avons commencé par comparer plusieurs évaluateurs sparql distribués de l'état-de-l'art tout en adaptant le jeu de métriques considéré. Ensuite, une analyse guidée par des cas typiques d'utilisation nous a conduit à définir de nouveaux champs de développement dans le domaine de l'évaluation distribuée de sparql. Sur la base de ces nouvelles perspectives, nous avons développé plusieurs évaluateurs efficaces pour ces différents cas d'utilisation que nous avons comparé expérimentalement
The Semantic Web standardized by the World Wide Web Consortium aims at providing a common framework that allows data to be shared and analyzed across applications. Thereby, it introduced as common base for data the Resource Description Framework (rdf) and its query language sparql.Because of the increasing amounts of rdf data available, dataset distribution across clusters is poised to become a standard storage method. As a consequence, efficient and distributed sparql evaluators are needed.To tackle these needs, we first benchmark several state-of-the-art distributed sparql evaluators while adapting the considered set of metrics to a distributed context such as e.g. network traffic. Then, an analysis driven by typical use cases leads us to define new development areas in the field of distributed sparql evaluation. On the basis of these fresh perspectives, we design several efficient distributed sparql evaluators which fit into each of these use cases and whose performances are validated compared with the already benchmarked evaluators. For instance, our distributed sparql evaluator named sparqlgx offers efficient time performances while being resilient to the loss of nodes

APA, Harvard, Vancouver, ISO, and other styles

13

FRANÇA, Arilene Santos de. "Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData." Universidade Federal do Pará, 2014. http://repositorio.ufpa.br/jspui/handle/2011/5608.

Full text

Abstract:

Submitted by Cleide Dantas (cleidedantas@ufpa.br) on 2014-07-31T13:38:32Z No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_OtimizacaoProcessoAprendizagem.pdf: 1776244 bytes, checksum: 70399c027bdcfb2e5676cb7cc2b4d049 (MD5)
Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2014-09-05T12:32:05Z (GMT) No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_OtimizacaoProcessoAprendizagem.pdf: 1776244 bytes, checksum: 70399c027bdcfb2e5676cb7cc2b4d049 (MD5)
Made available in DSpace on 2014-09-05T12:32:05Z (GMT). No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_OtimizacaoProcessoAprendizagem.pdf: 1776244 bytes, checksum: 70399c027bdcfb2e5676cb7cc2b4d049 (MD5) Previous issue date: 2014
CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
A automação na gestão e análise de dados tem sido um fator crucial para as empresas que necessitam de soluções eficientes em um mundo corporativo cada vez mais competitivo. A explosão do volume de informações, que vem se mantendo crescente nos últimos anos, tem exigido cada vez mais empenho em buscar estratégias para gerenciar e, principalmente, extrair informações estratégicas valiosas a partir do uso de algoritmos de Mineração de Dados, que comumente necessitam realizar buscas exaustivas na base de dados a fim de obter estatísticas que solucionem ou otimizem os parâmetros do modelo de extração do conhecimento utilizado; processo que requer computação intensiva para a execução de cálculos e acesso frequente à base de dados. Dada a eficiência no tratamento de incerteza, Redes Bayesianas têm sido amplamente utilizadas neste processo, entretanto, à medida que o volume de dados (registros e/ou atributos) aumenta, torna-se ainda mais custoso e demorado extrair informações relevantes em uma base de conhecimento. O foco deste trabalho é propor uma nova abordagem para otimização do aprendizado da estrutura da Rede Bayesiana no contexto de BigData, por meio do uso do processo de MapReduce, com vista na melhora do tempo de processamento. Para tanto, foi gerada uma nova metodologia que inclui a criação de uma Base de Dados Intermediária contendo todas as probabilidades necessárias para a realização dos cálculos da estrutura da rede. Por meio das análises apresentadas neste estudo, mostra-se que a combinação da metodologia proposta com o processo de MapReduce é uma boa alternativa para resolver o problema de escalabilidade nas etapas de busca em frequência do algoritmo K2 e, consequentemente, reduzir o tempo de resposta na geração da rede.
Automation at data management and analysis has been a crucial factor for companies which need efficient solutions in an each more competitive corporate world. The explosion of the volume information, which has remained increasing in recent years, has demanded more and more commitment to seek strategies to manage and, especially, to extract valuable strategic informations from the use of data mining algorithms, which commonly need to perform exhausting queries at the database in order to obtain statistics that solve or optimize the parameters of the model of knowledge discovery selected; process which requires intensive computing to perform calculations and frequent access to the database. Given the effectiveness of uncertainty treatment, Bayesian networks have been widely used for this process, however, as the amount of data (records and/or attributes) increases, it becomes even more costly and time consuming to extract relevant information in a knowledge base. The goal of this work is to propose a new approach to optimization of the Bayesian Network structure learning in the context of BigData, by using the MapReduce process, in order to improve the processing time. To that end, it was generated a new methodology that includes the creation of an Intermediary Database, containing all the necessary probabilities to the calculations of the network structure. Through the analyzes presented at this work, it is shown that the combination of the proposed methodology with the MapReduce process is a good alternative to solve the scalability problem of the search frequency steps of K2 algorithm and, as a result, to reduce the response time generation of the network.

APA, Harvard, Vancouver, ISO, and other styles

14

Gallegati, Mattia. "Generazione di isocrone ed elaborazione di indicatori statistici con strumenti NoSql in ambiente BigData." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2016.

Find full text

Abstract:

L'elaborato propone l'analisi e la riprogettazione di un'applicazione di calcolo di dati statistici inferiti sulla base di mappe geografiche isocrone, isometriche e circolari tramite l'utilizzo di strumenti non relazionali (NoSQL). L'informatica e l'analisi del tessuto morfologico,economico e geografico del territorio si troveranno qui a stretto contatto ed entrambi risulteranno elementi imprescindibili ai fini dello sviluppo dell'applicativo finale. Il lavoro espone una lunga analisi di molti strumenti NoSQL attualmente disponibili e l'utilizzo approfondito di Neo4j e MongoDb leader nel mondo non relazionale. Durante lo sviluppo apparirà necessaria l'implementazione di un nuovo algoritmo per il calcolo delle isocrone che si aggiungerà all'insieme di strumenti già disponibili nel mondo non relazionale. Il risultato finale sarà un applicativo in grado di migliorare del 80% le prestazioni proposte dal precedente strumento, sviluppato con strumenti relazionali. Saranno garantite completezza, flessibilità, scalabilità e facilità di integrazione all'interno di qualsiasi contesto.

APA, Harvard, Vancouver, ISO, and other styles

15

LIMA, João Gabriel Rodrigues de Oliveira. "Stormsom: clusterização em tempo-real de fluxos de dados distribuídos no contexto de BigData." Universidade Federal do Pará, 2015. http://repositorio.ufpa.br/jspui/handle/2011/7487.

Full text

Abstract:

Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-01-27T16:34:20Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_StormsomClusterizacaoTempo-Real.pdf: 1081222 bytes, checksum: 30261425224872c11433d064abb4a2d8 (MD5)
Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-01-30T13:30:32Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_StormsomClusterizacaoTempo-Real.pdf: 1081222 bytes, checksum: 30261425224872c11433d064abb4a2d8 (MD5)
Made available in DSpace on 2017-01-30T13:30:32Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_StormsomClusterizacaoTempo-Real.pdf: 1081222 bytes, checksum: 30261425224872c11433d064abb4a2d8 (MD5) Previous issue date: 2015-08-28
Cresce cada vez mais a quantidade de cenários e aplicações que algoritmo necessitam de processamento e respostas em tempo real e que se utilizam de modelos estatísticos e de mineração de dados a fim de garantir um melhor suporte à tomada de decisão. As ferramentas disponíveis no mercado carecem de processos computacionais mais refinados que sejam capazes de extrair padrões de forma mais eficiente a partir de grandes volumes de dados. Além disso, há a grande necessidade, em diversos cenários, que o os resultados sejam providos em tempo real, tão logo inicie o processo, uma resposta imediata já deve estar sendo produzida. A partir dessas necessidades identificadas, neste trabalho propomos um processo autoral, chamado StormSOM, que consiste em um modelo de processamento, baseado em topologia distribuída, para a clusterização de grandes volumes de fluxos, contínuos e ilimitados, de dados, através do uso de redes neurais artificiais conhecidas como mapas auto-organizáveis, produzindo resultados em tempo real. Os experimentos foram realizados em um ambiente de computação em nuvem e os resultados comprovam a eficiência da proposta ao garantir que o modelo neural utilizado possa gerar respostas em tempo real para o processamento de Big Data.

APA, Harvard, Vancouver, ISO, and other styles

16

Chakraborty, Suryadip. "Data Aggregation in Healthcare Applications and BIGDATA set in a FOG based Cloud System." University of Cincinnati / OhioLINK, 2016. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1471346052.

Full text

APA, Harvard, Vancouver, ISO, and other styles

17

Malka, Golan. "Thinknovation 2019: The Cyber as the new battlefield related to AI, BigData and Machine Learning Capabilities." Universidad Peruana de Ciencias Aplicadas (UPC), 2019. http://hdl.handle.net/10757/653843.

Full text

APA, Harvard, Vancouver, ISO, and other styles

18

Berekmeri, Mihaly. "La modélisation et le contrôle des services BigData : application à la performance et la fiabilité de MapReduce." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAT126/document.

Full text

Abstract:

Le grand volume de données généré par nos téléphones mobiles, tablettes, ordinateurs, ainsi que nos montres connectées présente un défi pour le stockage et l'analyse. De nombreuses solutions ont émergées dans l'industrie pour traiter cette grande quantité de données, la plus populaire d'entre elles est MapReduce. Bien que la complexité de déploiement des systèmes informatiques soit en constante augmentation, la disponibilité permanente et la rapidité du temps de réponse sont toujours une priorité. En outre, avec l'émergence des solutions de virtualisation et du cloud, les environnements de fonctionnement sont devenus de plus en plus dynamiques. Par conséquent, assurer les contraintes de performance et de fiabilité d'un service MapReduce pose un véritable challenge. Dans cette thèse, les problématiques de garantie de la performance et de la disponibilité de services de cloud MapReduce sont abordées en utilisant une approche basée sur la théorie du contrôle. Pour commencer, plusieurs modèles dynamiques d'un service MapReduce exécutant simultanément de multiples tâches sont introduits. Par la suite, plusieurs lois de contrôle assurant les différents objectifs de qualités de service sont synthétisées. Des contrôleurs classiques par retour de sortie avec feedforward garantissant les performances de service ont d'abord été développés. Afin d'adapter nos contrôleurs au cloud, tout en minimisant le nombre de reconfigurations et les coûts, une nouvelle architecture de contrôle événementiel a été mise en œuvre. Finalement, l'architecture de contrôle optimal MR-Ctrl a été développée. C'est la première solution à fournir aux systèmes MapReduce des garanties en termes de performances et de disponibilité, tout en minimisant le coût. Les approches de modélisation et de contrôle ont été évaluées à la fois en simulation, et en expérimentation sous MRBS, qui est une suite de tests complète pour évaluer la performance et la fiabilité des systèmes MapReduce. Les tests ont été effectuées en ligne sur un cluster MapReduce de 60 nœuds exécutant une tâche de calcul intensive de type Business Intelligence. Nos expériences montrent que le contrôle ainsi conçu, peut garantir les contraintes de performance et de disponibilité
The amount of raw data produced by everything from our mobile phones, tablets, computers to our smart watches brings novel challenges in data storage and analysis. Many solutions have arisen in the industry to treat these large quantities of raw data, the most popular being the MapReduce framework. However, while the deployment complexity of such computing systems is steadily increasing, continuous availability and fast response times are still the expected norm. Furthermore, with the advent of virtualization and cloud solutions, the environments where these systems need to run is becoming more and more dynamic. Therefore ensuring performance and dependability constraints of a MapReduce service still poses significant challenges. In this thesis we address this problematic of guaranteeing the performance and availability of MapReduce based cloud services, taking an approach based on control theory. We develop the first dynamic models of a MapReduce service running a concurrent workload. Furthermore, we develop several control laws to ensure different quality of service objectives. First, classical feedback and feedforward controllers are developed to guarantee service performance. To further adapt our controllers to the cloud, such as minimizing the number of reconfigurations and costs, a novel event-based control architecture is introduced for performance management. Finally we develop the optimal control architecture MR-Ctrl, which is the first solution to provide guarantees in terms of both performance and dependability for MapReduce systems, meanwhile keeping cost at a minimum. All the modeling and control approaches are evaluated both in simulation and experimentally using MRBS, a comprehensive benchmark suite for evaluating the performance and dependability of MapReduce systems. Validation experiments were run in a real 60 node Hadoop MapReduce cluster, running a data intensive Business Intelligence workload. Our experiments show that the proposed techniques can successfully guarantee performance and dependability constraints

APA, Harvard, Vancouver, ISO, and other styles

19

Fiorilla, Salvatore. "serie temporali iot in cassandra: modellazione e valutazione sperimentale." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2019. http://amslaurea.unibo.it/17483/.

Full text

Abstract:

I database NoSql oggi sono considerati la strada principale da percorrere per gestire l’archiviazione dei BigData. Il lavoro in questo elaborato propone una gestione dell’archiviazione di dati provenienti da oggetti IoT. Si è ideata, partendo dalla combinazione di due architetture software: publisher-subscriber e client-server, un architettura in grado di archiviare i dati di una rete di sensori. Successivamente, l’architettura è stata messa in pratica in uno scenario d’uso in cui si è progettata una base di dati in Cassandra, distribuita in un cluster di 4 macchine virtuali, per gestire la persistenza dei dati di una rete domestica ZigBee, fatta da sensori che monitoravano la temperatura del laboratori Ranzani, dell’università di Bologna sito in via Ranzani a Bologna. Vengono mostrati i risultati dei test a seguito delle fasi di analisi e progettazione della base di dati.

APA, Harvard, Vancouver, ISO, and other styles

20

Morabito, Andrea. "Utilizzo di Scala e Spark per l'esecuzione di programmi Data-Intensive in ambiente cloud." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2017. http://amslaurea.unibo.it/14843/.

Full text

Abstract:

Questo documento fornisice un introduzione al mondo dei big data e cerca di fornire una panoramica chiara e completa su un linguaggio di programmazione e un framework utile per la manipolazione di grandi dataset e, quindi,come essi sono in grado di interoperare: • Scala, rappresenta un linguaggio di programmazione basato su due paradigmi di programmazione: Object Oriented e Funzionale; • Spark, che può essere visto come un linguaggio per il calcolo distribuito e l’analisi di Big Data. Nel presente testo, dopo aver fornito un’introduzione al contesto nel Capitolo 1, vengono descritti i principali costrutti del linguaggio di programmazione Scala, che sfrutta un modello di comunicazione di message passing basato sugli attori nel Capitolo 2. Successivamente, nel Capitolo 3, viene descritto il framework Spark con la sua architettura e il sottosistema di programmazione basato su RDD. Si conclude poi nel Capitolo 4 con la dimostrazione di un caso d’uso dei due linguaggi, in cui viene preso un dataset da SNAP, gli viene applicato il PageRank (grazie anche all’uso della libreria GraphX) ed eseguito sulla piattaforma di Amazon Web Service EC2.

APA, Harvard, Vancouver, ISO, and other styles

21

Setterquist, Erik. "The effect of quality metrics on the user watching behaviour in media content broadcast." Thesis, Uppsala universitet, Avdelningen för systemteknik, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-304514.

Full text

Abstract:

Understanding the effects of quality metrics on the user behavior is important for the increasing number of content providers in order to maintain a competitive edge. The two data sets used are gathered from a provider of live streaming and a provider of video on demand streaming. The important quality and non quality features are determined by using both correlation metrics and relative importance determined by machine learning methods. A model that can predict and simulate the user behavior is developed and tested. A time series model, machine learning model and a combination of both are compared. Results indicate that both quality features and non quality features are important in understanding user behavior, and the importance of quality features are reduced over time. For short prediction times the model using quality features is performing slightly better than the model not using quality features.

APA, Harvard, Vancouver, ISO, and other styles

22

Boychuk, Maksym. "Zpracování a vizualizace senzorových dat ve vojenském prostředí." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2016. http://www.nusl.cz/ntk/nusl-255472.

Full text

Abstract:

This thesis deals with the creating, visualization and processing data in a military environment. The task is to design and implement a system that enables the creation, visualization and processing ESM data. The result of this work is a ESMBD application that allows using a classical approach, which is a relational database, and BigData technologies for data storage and manipulation. The comparison of data processing speed while using the classic approach (Postgres database) and BigData technologies (Cassandra databases and Hadoop) has been carried out as well.

APA, Harvard, Vancouver, ISO, and other styles

23

Cavallo, Marco. "H2F: a hierarchical Hadoop framework to process Big Data in geo-distributed contexts." Doctoral thesis, Università di Catania, 2018. http://hdl.handle.net/10761/3801.

Full text

Abstract:

L ampia diffusione di tecnologie ha portato alla generazione di enormi quantità di dati, o di Big Data, che devono essere raccolti, memorizzati e elaborati attraverso nuove tecniche per produrre valore nel modo migliore. I framework distribuiti di calcolo come Hadoop, basati sul paradigma MapRe- duce, sono stati utilizzati per elaborare tali quantità di dati sfruttando la potenza di calcolo di molti nodi di cluster. Purtroppo, in molte applicazioni di big data, i dati da elaborare risiedono in diversi data center computazionali eterogeni e distribuiti in luoghi diversi. In questo contesto le performance di Hadoop crollano drasticamente. Per affrontare questo problema, abbiamo sviluppato un Hierarchical Hadoop Framework(H2F) in grado di pianificare e distribuire task tra cluster geograficamente distanti in modo da ridurre al minimo il tempo di esecuzione complessivo delle applicazioni. Le nostre valutazioni sperimentali mostrano che l utilizzo di H2F migliora notevolmente il tempo di elaborazione per dataset geodistribuiti rispetto ad un semplice sistema Hadoop.

APA, Harvard, Vancouver, ISO, and other styles

24

Danesh, Sabri. "BIG DATA : From hype to reality." Thesis, Örebro universitet, Handelshögskolan vid Örebro Universitet, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:oru:diva-37493.

Full text

Abstract:

Big data is all of a sudden everywhere. It is too big to ignore!It has been six decades since the computer revolution, four decades after the development of the microchip, and two decades of the modern Internet! More than a decade after the 90s “.com” fizz, can Big Data be the next Big Bang? Big data reveals part of our daily lives. It has the potential to solve virtually any problem for a better urbanized global. Big Data sources are also very interesting from an official statistics point of view. The purpose of this paper is to explore the conceptions of big data and opportunities and challenges associated with using big data especially in official statistics. “A petabyte is the equivalent of 1,000 terabytes, or a quadrillion bytes. One terabyte is a thousand gigabytes. One gigabyte is made up of a thousand megabytes. There are a thousand thousand—i.e., a million—petabytes in a zettabyte” (Shaw 2014). And this is to be continued…

APA, Harvard, Vancouver, ISO, and other styles

25

Kola, Marin. "Progettazione ed implementazione di un database per la gestione della mappa della connettivita urbana utilizzando tecnologie nosql." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2015. http://amslaurea.unibo.it/9696/.

Full text

Abstract:

Nella tesi, inizialmente, viene introdotto il concetto di Big Data, descrivendo le caratteristiche principali, il loro utilizzo, la provenienza e le opportunità che possono apportare. Successivamente, si sono spiegati i motivi che hanno portato alla nascita del movimento NoSQL, come la necessità di dover gestire i Big Data pur mantenendo una struttura flessibile nel tempo. Inoltre, dopo un confronto con i sistemi tradizionali, si è passati al classificare questi DBMS in diverse famiglie, accennando ai concetti strutturali sulle quali si basano, per poi spiegare il funzionamento. In seguito è stato descritto il database MongoDB orientato ai documenti. Sono stati approfonditi i dettagli strutturali, i concetti sui quali si basa e gli obbiettivi che si pone, per poi andare ad analizzare nello specifico importanti funzioni, come le operazioni di inserimento e cancellazione, ma anche il modo di interrogare il database. Grazie alla sue caratteristiche che lo rendono molto performante, MonogDB, è stato utilizzato come supporto di base di dati per la realizzazione di un applicazione web che permette di mostrare la mappa della connettività urbana.

APA, Harvard, Vancouver, ISO, and other styles

26

Tahiri, Ardit. "Online Stream Processing di Big Data su Apache Storm per Applicazioni di Instant Coupon." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amslaurea.unibo.it/10311/.

Full text

Abstract:

Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume,velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valori significativi. Molti sistemi sono sempre più costituiti e caratterizzati da enormi moli di dati da gestire,originati da sorgenti altamente eterogenee e con formati altamente differenziati,oltre a qualità dei dati estremamente eterogenei. Un altro requisito in questi sistemi potrebbe essere il fattore temporale: sempre più sistemi hanno bisogno di ricevere dati significativi dai Big Data il prima possibile,e sempre più spesso l’input da gestire è rappresentato da uno stream di informazioni continuo. In questo campo si inseriscono delle soluzioni specifiche per questi casi chiamati Online Stream Processing. L’obiettivo di questa tesi è di proporre un prototipo funzionante che elabori dati di Instant Coupon provenienti da diverse fonti con diversi formati e protocolli di informazioni e trasmissione e che memorizzi i dati elaborati in maniera efficiente per avere delle risposte in tempo reale. Le fonti di informazione possono essere di due tipologie: XMPP e Eddystone. Il sistema una volta ricevute le informazioni in ingresso, estrapola ed elabora codeste fino ad avere dati significativi che possono essere utilizzati da terze parti. Lo storage di questi dati è fatto su Apache Cassandra. Il problema più grosso che si è dovuto risolvere riguarda il fatto che Apache Storm non prevede il ribilanciamento delle risorse in maniera automatica, in questo caso specifico però la distribuzione dei clienti durante la giornata è molto varia e ricca di picchi. Il sistema interno di ribilanciamento sfrutta tecnologie innovative come le metriche e sulla base del throughput e della latenza esecutiva decide se aumentare/diminuire il numero di risorse o semplicemente non fare niente se le statistiche sono all’interno dei valori di soglia voluti.

APA, Harvard, Vancouver, ISO, and other styles

27

Maglione, Angelo. "Supporto ad Applicazioni di Web Reputation basate su Piattaforma Apache Storm." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amslaurea.unibo.it/10393/.

Full text

Abstract:

Parametro indispensabile di valutazione di un qualsiasi prodotto o servizio, ai giorni nostri, è la web reputation. Sono sempre più numerose le aziende che monitorano la propria "reputazione online". Quest'ultima può esser definita come l'insieme dei messaggi, commenti e feedbacks, positivi, neutri o negativi che siano, di utenti che esprimono la loro opinione tramite il web su un determinato servizio o prodotto rivolto al pubblico. L’applicazione sviluppata, si pone l’obiettivo di analizzare in tempo reale tramite l’utilizzo di Apache Storm, dati provenienti da fonti eterogenee, classificarli tramite KNIME utilizzando tecniche di classificazione quali SVM, alberi decisionali e Naive Bayesian, renderli persistenti mediante l’utilizzo del database NoSQL HBASE e di visualizzarli in tempo reale attraverso dei grafici utilizzando delle servlet, al fine di costituire un valido strumento di supporto per i processi decisionali.

APA, Harvard, Vancouver, ISO, and other styles

28

Pennella, Francesco. "Analisi e sperimentazione della piattaforma Cloud Dataflow." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amslaurea.unibo.it/12360/.

Full text

Abstract:

In questa trattazione si è interessati a sperimentare le possibilità offerte nel campo dell’elaborazione di Big Data da parte di una piattaforma di Cloud Computing sviluppata da Google, chiamata Cloud Dataflow. In particolare l’obiettivo è quello di analizzare e confrontare in modo sperimentale le caratteristiche e le performance di Cloud Dataflow con le piattaforme Apache Hadoop e Apache Spark tramite l’esecuzione di programmi di WordCount basati sul modello MapReduce.

APA, Harvard, Vancouver, ISO, and other styles

29

Righi, Massimo. "apache cassandra: studio ed analisi di prestazioni." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2018. http://amslaurea.unibo.it/16713/.

Full text

Abstract:

La tesi persegue due scopi: il primo è veri�care sperimentalmente l'incremento di performance che si può avere nell'utilizzare un database di tipo NoSql (MongoDB e Cassandra) rispetto a uno relazionale (MYSQL) lavorando con grandi quantità di dati. Il secondo, invece, si propone di confrontare (sempre sperimentalmente) l'utilizzo di due tipi di database della famiglia dei NoSql, ovvero MongoDB, basato su un architettura Document-oriented, e Cassandra (in forte sviluppo), della famiglia dei Column-oriented. Nella prima parte della tesi verranno esposte le caratteristiche tecniche delle due famiglie di database utilizzate: relazionale e NoSql. In particolare, per il gruppo NoSql, verrà fornita una descrizione più dettagliata, classi�ficando i sottogruppi che ne fanno parte in base al tipo di modello che utilizzano per la memorizzazione dei dati. Verrà posta molta attenzione sul database Cassandra. Nella seconda parte verranno effettuate le analisi tecniche di performance per ogni tipo di database basandosi sulle 4 operazioni CRUD, partendo da un caso d'uso da me scelto. Al termine delle analisi verranno stilate delle conclusioni relativamente a pregi e difetti di ognuna delle tre tecnologie.

APA, Harvard, Vancouver, ISO, and other styles

30

Urbinelli, Francesco. "Benchmarking di Flussi Massivi di Dati." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2020.

Find full text

Abstract:

L’European Processor Initiative (EPI) è un progetto il cui obiettivo è realizzare processori a basso consumo per l’extreme scale computing, BigData e applicazioni emergenti. È stato usato un approccio di co-design tra gli esperti di applicazioni e quelli dei processori EPI, utilizzando una suite di benchmark multi-livello (composta da benchmark, mini applicazioni e applicazioni) per verificare l’impatto delle varie decisioni progettuali. L’obiettivo della tesi è quello di identificare ed implementare un benchmark idoneo a misurare le prestazioni dei sistemi di Stream Processing, una delle aree che sta suscitando grande interesse nell’ambito dei BigData, quindi un importante lavoro preliminare nell’ambito del progetto EPI in quanto il benchmark fungerà da base per la realizzazione di un applicazione da includere all’interno della sua suite di benchmark.

APA, Harvard, Vancouver, ISO, and other styles

31

Addimando, Alessio. "Progettazione di un intrusion detection system su piattaforma big data." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2018. http://amslaurea.unibo.it/16755/.

Full text

Abstract:

Negli ultimi anni, nel panorama digitale, è stato rilevato un ingente aumento del numero di dispositivi e utenti con accesso ad Internet. Proporzionalmente a questi fattori ogni giorno vengono generati continuamente, e in qualsiasi contesto, grandi quantità di dati difficili da gestire. Questo ha fatto emergere la necessità di riorganizzare gli asset aziendali per far fronte ad un calibro di informazione maggiore e per far in modo che la gestione stessa ne estragga valore concreto per la realtà decisionale. L'insieme di queste motivazioni da vita al fenomeno dei Big Data. Affiancato a questo panorama, inoltre, la grande quantità macchine e utenti in rete ha esponenzialmente aumentato anche il numero di attacchi informatici, che puntano nella stragrande dei casi all'appropriazione non autorizzata di dati sensibili e/o a provocare disservizi nelle reti private. Un esempio è il campus universitario di Forlì-Cesena che stima costantemente attive circa 3000 macchine interconnesse tra di loro e con la rete esterna. La grande quantità di risorse connesse in rete assume una certa importanza visti i dati sensibili che gestiscono e immagazzinano e nonostante l'archittettura di monitoraggio venga continuamente aggiornata, quest'ultima presenta colli di bottiglia evidenti e limitazioni nell'elaborazione dell'intero traffico di rete. Per far fronte a questa problematica lo scopo della tesi è stato quello di far convergere questi due ambiti informatici integrando al processo di sicurezza della rete un sistema di analisi e monitoraggio per il rilevamento di intrusioni (intrusion detection system), su piattaforma Big Data. Il prototipo realizzato (denominato Styx), sfrutta tecniche di data stream processing (elaborazione di dati real-time) e di machine learning (tecniche di apprendimento per estrazione di modelli predittivi) per potenziare l'attuale sistema di monitoraggio della rete universitaria.

APA, Harvard, Vancouver, ISO, and other styles

32

Villalobos, Luengo César Alexis. "Análisis de archivos Logs semi-estructurados de ambientes Web usando tecnologías Big-Data." Tesis, Universidad de Chile, 2016. http://repositorio.uchile.cl/handle/2250/140417.

Full text

Abstract:

Magíster en Tecnologías de la Información
Actualmente el volumen de datos que las empresas generan es mucho más grande del que realmente pueden procesar, por ende existe un gran universo de información que se pierde implícito en estos datos. Este proyecto de tesis logró implementar tecnologías Big Data capaces de extraer información de estos grandes volúmenes de datos existentes en la organización y que no eran utilizados, de tal forma de transformarlos en valor para el negocio. La empresa elegida para este proyecto se dedicada al pago de cotizaciones previsionales de forma electrónica por internet. Su función es ser el medio por el cual se recaudan las cotizaciones de los trabajadores del país. Cada una de estas cotizaciones es informada, rendida y publicada a las instituciones previsionales correspondientes (Mutuales, Cajas de Compensación, AFPs, etc.). Para realizar su función, la organización ha implementado a lo largo de sus 15 años una gran infraestructura de alto rendimiento orientada a servicios web. Actualmente esta arquitectura de servicios genera una gran cantidad de archivos logs que registran los sucesos de las distintas aplicaciones y portales web. Los archivos logs tienen la característica de poseer un gran tamaño y a la vez no tener una estructura rigurosamente definida. Esto ha causado que la organización no realice un eficiente procesamiento de estos datos, ya que las actuales tecnologías de bases de datos relaciones que posee no lo permiten. Por consiguiente, en este proyecto de tesis se buscó diseñar, desarrollar, implementar y validar métodos que sean capaces de procesar eficientemente estos archivos de logs con el objetivo de responder preguntas de negocio que entreguen valor a la compañía. La tecnología Big Data utilizada fue Cloudera, la que se encuentra en el marco que la organización exige, como por ejemplo: Que tenga soporte en el país, que esté dentro de presupuesto del año, etc. De igual forma, Cloudera es líder en el mercado de soluciones Big Data de código abierto, lo cual entrega seguridad y confianza de estar trabajando sobre una herramienta de calidad. Los métodos desarrollados dentro de esta tecnología se basan en el framework de procesamiento MapReduce sobre un sistema de archivos distribuido HDFS. Este proyecto de tesis probó que los métodos implementados tienen la capacidad de escalar horizontalmente a medida que se le agregan nodos de procesamiento a la arquitectura, de forma que la organización tenga la seguridad que en el futuro, cuando los archivos de logs tengan un mayor volumen o una mayor velocidad de generación, la arquitectura seguirá entregando el mismo o mejor rendimiento de procesamiento, todo dependerá del número de nodos que se decidan incorporar.

APA, Harvard, Vancouver, ISO, and other styles

33

Астістова, Т. І., and М. О. Потапенко. "Розробка програмного забезпечення e-commerce системи з розподіленим навантаженням." Thesis, Київський національний університет технологій та дизайну, 2020. https://er.knutd.edu.ua/handle/123456789/16506.

Full text

APA, Harvard, Vancouver, ISO, and other styles

34

Di, Meo Giovanni. "Analisi e Benchmarking del Sistema HIVE." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2015. http://amslaurea.unibo.it/9186/.

Full text

Abstract:

E' stata effettuata l'analisi del sistema HIVE su piattaforma Hadoop (installato su un cluster) e sfruttando il benchmark TPC-H ne sono stati valutati i tempi di esecuzione delle query modificando la size del database e il formato di memorizzazione dei file: si è utilizzato il formato standard (AVRO) di tipo sequenziale e il formato PARQUET che memorizza i dati per colonna invece che per riga.

APA, Harvard, Vancouver, ISO, and other styles

35

Addimando, Alessio. "Progettazione e prototipazione di un sistema di Data Stream Processing basato su Apache Storm." Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2016. http://amslaurea.unibo.it/10977/.

Full text

Abstract:

Con l’avvento di Internet, il numero di utenti con un effettivo accesso alla rete e la possibilità di condividere informazioni con tutto il mondo è, negli anni, in continua crescita. Con l’introduzione dei social media, in aggiunta, gli utenti sono portati a trasferire sul web una grande quantità di informazioni personali mettendoli a disposizione delle varie aziende. Inoltre, il mondo dell’Internet Of Things, grazie al quale i sensori e le macchine risultano essere agenti sulla rete, permette di avere, per ogni utente, un numero maggiore di dispositivi, direttamente collegati tra loro e alla rete globale. Proporzionalmente a questi fattori anche la mole di dati che vengono generati e immagazzinati sta aumentando in maniera vertiginosa dando luogo alla nascita di un nuovo concetto: i Big Data. Nasce, di conseguenza, la necessità di far ricorso a nuovi strumenti che possano sfruttare la potenza di calcolo oggi offerta dalle architetture più complesse che comprendono, sotto un unico sistema, un insieme di host utili per l’analisi. A tal merito, una quantità di dati così vasta, routine se si parla di Big Data, aggiunta ad una velocità di trasmissione e trasferimento altrettanto alta, rende la memorizzazione dei dati malagevole, tanto meno se le tecniche di storage risultano essere i tradizionali DBMS. Una soluzione relazionale classica, infatti, permetterebbe di processare dati solo su richiesta, producendo ritardi, significative latenze e inevitabile perdita di frazioni di dataset. Occorre, perciò, far ricorso a nuove tecnologie e strumenti consoni a esigenze diverse dalla classica analisi batch. In particolare, è stato preso in considerazione, come argomento di questa tesi, il Data Stream Processing progettando e prototipando un sistema bastato su Apache Storm scegliendo, come campo di applicazione, la cyber security.

APA, Harvard, Vancouver, ISO, and other styles

36

Berni, Mila. "Inclusione di Apache Samza e Kafka nel framework RAM3S." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2021.

Find full text

Abstract:

La rapida diffusione di dispositivi connessi ad Internet e il conseguente aumento della generazione di dati ha portato le piattaforme di data processing a voler sempre di più diminuire i tempi di latenza dell'elaborazione delle informazioni. Esistono vari framework dedicati al real-time processing, tutti con vari pro e contro, dipendenti anche dal tipo di applicazione che si vuole sviluppare. In particolare, il framework RAM3S si basa su Flink, Storm e Spark, tre piattaforme di Apache con caratteristiche differenti ma tutte aderenti al paradigma dello stream processing. Tramite RAM3S lo sviluppatore viene sgravato dall'impegno di dover conoscere approfonditamente i framework prima citati, mettendo a disposizione delle interfacce per semplificare lo sviluppo delle applicazioni. In questo lavoro di tesi verranno descritti i procedimenti per includere Apache Samza e Kafka all'interno di RAM3S. Samza è un framework per lo stream processing da affiancare a Flink, Storm e Spark mentre Kafka mantiene la coda di messaggi che, al momento, viene amministrata da RabbitMQ. Verranno inoltre svolte alcune analisi di prestazioni per valutare velocità e throughput del sistema in seguito ai cambiamenti prima citati.

APA, Harvard, Vancouver, ISO, and other styles

37

Monrat, Ahmed Afif. "A BELIEF RULE BASED FLOOD RISK ASSESSMENT EXPERT SYSTEM USING REAL TIME SENSOR DATA STREAMING." Thesis, Luleå tekniska universitet, Datavetenskap, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:ltu:diva-71081.

Full text

Abstract:

Among the various natural calamities, flood is considered one of the most catastrophic natural hazards, which has a significant impact on the socio-economic lifeline of a country. The Assessment of flood risks facilitates taking appropriate measures to reduce the consequences of flooding. The flood risk assessment requires Big data which are coming from different sources, such as sensors, social media, and organizations. However, these data sources contain various types of uncertainties because of the presence of incomplete and inaccurate information. This paper presents a Belief rule-based expert system (BRBES) which is developed in Big data platform to assess flood risk in real time. The system processes extremely large dataset by integrating BRBES with Apache Spark while a web-based interface has developed allowing the visualization of flood risk in real time. Since the integrated BRBES employs knowledge driven learning mechanism, it has been compared with other data-driven learning mechanisms to determine the reliability in assessing flood risk. Integrated BRBES produces reliable results comparing from the other data-driven approaches. Data for the expert system has been collected targeting different case study areas from Bangladesh to validate the integrated system.

APA, Harvard, Vancouver, ISO, and other styles

38

Camilli, M. "Coping with the State Explosion Problem in Formal Methods: Advanced Abstraction Techniques and Big Data Approaches." Doctoral thesis, Università degli Studi di Milano, 2015. http://hdl.handle.net/2434/264140.

Full text

Abstract:

Formal verification of dynamic, concurrent and real-time systems has been the focus of several decades of software engineering research. Formal verification requires high-performance data processing software for extracting knowledge from the unprecedented amount of data containing all reachable states and all transitions that systems can make among those states, for instance, the extraction of specific reachable states, traces, and more. One of the most challenging task in this context is the development of tools able to cope with the complexity of real-world models analysis. Many methods have been proposed to alleviate this problem. For instance, advanced state space techniques aim at reducing the data needed to be constructed in order to verify certain properties. Other directions are the efficient implementation of such analysis techniques, and studying ways to parallelize the algorithms in order to exploit multi-core and distributed architectures. Since cloud-based computing resources have became easily accessible, there is an opportunity for verification techniques and tools to undergo a deep technological transition to exploit the new available architectures. This has created an increasing interest in parallelizing and distributing verification techniques. Cloud computing is an emerging and evolving paradigm where challenges and opportunities allow for new research directions and applications. There is an evidence that this trend will continue, in fact several companies are putting remarkable efforts in delivering services able to offer hundreds, or even thousands, commodity computers available to customers, thus enabling users to run massively parallel jobs. This revolution is already started in different scientific fields, achieving remarkable breakthroughs through new kinds of experiments that would have been impossible only few years ago. Anyway, despite many years of work in the area of multi-core and distributed model checking, still few works introduce algorithms that can scale effortlessly to the use of thousands of loosely connected computers in a network, so existing technology does not yet allow us to take full advantage of the vast array of compute power of a "cloud" environment. Moreover, despite model checking software tools are so called "push-button", managing a high-performance computing environment required by distributed scientific applications, is far from being considered such, especially whenever one wants to exploit general purpose cloud computing facilities. The thesis focuses on two complementary approaches to deal with the state explosion problem in formal verification. On the one hand we try to decrease the exploration space by studying advanced state space methods for real-time systems modeled with Time Basic Petri nets. In particular, we addressed and solved several different open problems for such a modeling formalism. On the other hand, we try to increase the computational power by introducing approaches, techniques and software tools that allow us to leverage the "big data" trend to some extent. In particular, we provided frameworks and software tools that can be easily specialized to deal with the construction and verification of very huge state spaces of different kinds of formalisms by exploiting big data approaches and cloud computing infrastructures.

APA, Harvard, Vancouver, ISO, and other styles

39

Zanotti, Andrea. "Supporto a query geografiche efficienti su dati spaziali in ambiente Apache Spark." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2016.

Find full text

Abstract:

La tesi illustra la progettazione e implementazione di un supporto basato su tecnologia Apache Spark per l'analisi di dati di posizionamento in ambito Big Data. Dopo aver analizzato tre estensioni specifiche per il trattamento di dati geografici si è deciso di utilizzare il framework GeoSpark. Al suo interno è stata inserita la tecnica di clustering basata su densità DBSCAN ottimizzata per il funzionamento in architettura distribuita. È presente anche un layer dedicato all'ottimizzazione automatica per la configurazione dei parametri relativi al partizionamento del database sul cluster. Sono stati eseguiti test di funzionamento e integrazione per verificare il corretto comportamento delle funzionalità offerte e dimostrare l'integrazione con quelle già presenti. Infine è stata realizzata una sessione di test dedicata all'analisi delle prestazioni attraverso il servizio di cloud computing Amazon Web Services in particolare Amazon EMR. In questo capitolo la nostra soluzione è stata paragonata ad una precedente basata su tecnologia MongoDB per confrontarne le performance. Come dimostrato dai risultati sperimentali, il nostro supporto risulta essere computazionalmente più veloce e ottimizzato.

APA, Harvard, Vancouver, ISO, and other styles

40

Mendoza, Sánchez Jhenner Emiliano, and MONTEROLA LESLLY PAOLA EUMELIA SANCHEZ. "Gestión de la innovación abierta y los derechos de propiedad intelectual." Universidad Peruana de Ciencias Aplicadas, 2019. http://hdl.handle.net/10757/648722.

Full text

Abstract:

El profesor Henry Chesbrough, da origen a “Open Innovation” (OI por sus siglas en inglés) a principios del presente milenio. Él afirma que “La innovación abierta es un paradigma que parte de la suposición de que las empresas pueden y deben utilizar ideas externas, así como vías internas y externas de acceso al mercado, con el fin de desarrollar su negocio” (Chesbrough, 2011, p. 126). La base de OI y los derechos de propiedad intelectual(DPI) en distintas áreas juegan un rol fundamental. Bican, Guderian & Ringbeck (2017), afirman que existe un efecto desactivador de la innovación. Sobre todo, en paises en vías de desarrollo. Debido a que existe una brecha para impulsar I+D+i desde el estado como promotor junto a las universidades. Además, “Las empresas deben organizar sus procesos de innovación para estar más abiertas a ideas y conocimientos externos” (Chesbrough, 2011). En Perú, y otros países de Latinoamérica, falta desarrollar políticas orientadas al desarrollo de innovación abierta. Según CEPAL (2018), el principal motivo de desconexión entre los ciudadanos y el estado, es la incapacidad de las instituciones públicas para satisfacer las demandas crecientes y cambiantes de la sociedad. Además, existen otros desafíos socioeconómicos y la necesidad de repensar las instituciones para darles mejor respuesta a las demandas de la sociedad. En el presente trabajo, estudiaremos los posibles factores de éxito de gestión de OI y DPI, la influencia de las TICs y la generacion de un ecosistema Hyper-colaborativo, para crear valor y promover un mayor bienestar en la población.
Professor Henry Chesbrough gives rise to "Open Innovation" (OI) at the beginning of this millennium. He states that "Open innovation is a paradigm that starts from the assumption that companies can and should use external ideas, as well as internal and external ways of accessing the market, in order to develop their business" (Chesbrough, 2011, p. 126). The basis of OI and intellectual property rights (IPR) in different areas play a fundamental role. Bican, Guderian&Ringbeck (2017), state that there is a deactivating effect of innovation. Above all, in developing countries. Because there is a gap to promote R & D & I from the state as a promoter with universities. In addition, "Companies must organize their innovation processes to be more open to external ideas and knowledge" (Chesbrough, 2011). In Peru, and other Latin American countries, there is a need to develop policies aimed at developing open innovation. According to ECLAC (2018), the main reason for disconnection between citizens and the state is the inability of public institutions to meet the growing and changing demands of society. In addition, there are other socio-economic challenges and the need to rethink institutions to better respond to society's demands. In this paper, we will study the possible success factors of OI and DPI management, the influence of ICTs and the generation of a Hyper-collaborative ecosystem, to create value and promote greater well-being in the population.

APA, Harvard, Vancouver, ISO, and other styles

41

D'ERRICO, MARCO. "A network approach for opinion dynamics and price formation." Doctoral thesis, Università degli Studi di Milano-Bicocca, 2013. http://hdl.handle.net/10281/49777.

Full text

Abstract:

"If men define situations as real, they are real in their consequences". W.I. Thomas and D.S. Thomas In this work, we investigate the intertwined role of network interaction, opinion dynamics and price formation in a financial system. We propose a dynamical multi - agent framework where the interaction network and its topology, opinions and prices depend on one another, co - evolving in time. At first, we introduce some useful concepts in network theory and opinion dynamics. A method for classifying agents according to their topological role in the network is proposed. Second, we build on the existing literature on hetereogenous beliefs and evolutionary systems and provide a model with a specific update rule that leads to an evolving topology. The model is apt at describing social and behavioural phenomena that have recently received particular attention in the financial literature, such as hetereogeneous beliefs on market scenarios and the effects of the topology of interactions. We illustrate such dynamics via simulations, discussing the stylized facts that the model might be able to capture and we will discuss the use of social network data in order to calibrate the model. Third, we propose a model for formation of relative prices in a closed economy when agents have limited attention about a certain asset/sector.

APA, Harvard, Vancouver, ISO, and other styles

42

La, Ferrara Massimiliano. "Elaborazione di Big Data: un’applicazione dello Speed Layer di Lambda Architecture." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2016.

Find full text

Abstract:

I Big Data hanno forgiato nuove tecnologie che migliorano la qualità della vita utilizzando la combinazione di rappresentazioni eterogenee di dati in varie discipline. Occorre, quindi, un sistema realtime in grado di computare i dati in tempo reale. Tale sistema viene denominato speed layer, come si evince dal nome si è pensato a garantire che i nuovi dati siano restituiti dalle query funcions con la rapidità in cui essi arrivano. Il lavoro di tesi verte sulla realizzazione di un’architettura che si rifaccia allo Speed Layer della Lambda Architecture e che sia in grado di ricevere dati metereologici pubblicati su una coda MQTT, elaborarli in tempo reale e memorizzarli in un database per renderli disponibili ai Data Scientist. L’ambiente di programmazione utilizzato è JAVA, il progetto è stato installato sulla piattaforma Hortonworks che si basa sul framework Hadoop e sul sistema di computazione Storm, che permette di lavorare con flussi di dati illimitati, effettuando l’elaborazione in tempo reale. A differenza dei tradizionali approcci di stream-processing con reti di code e workers, Storm è fault-tolerance e scalabile. Gli sforzi dedicati al suo sviluppo da parte della Apache Software Foundation, il crescente utilizzo in ambito di produzione di importanti aziende, il supporto da parte delle compagnie di cloud hosting sono segnali che questa tecnologia prenderà sempre più piede come soluzione per la gestione di computazioni distribuite orientate agli eventi. Per poter memorizzare e analizzare queste moli di dati, che da sempre hanno costituito una problematica non superabile con i database tradizionali, è stato utilizzato un database non relazionale: HBase.

APA, Harvard, Vancouver, ISO, and other styles

43

Ouyang, Hua. "Optimal stochastic and distributed algorithms for machine learning." Diss., Georgia Institute of Technology, 2013. http://hdl.handle.net/1853/49091.

Full text

Abstract:

Stochastic and data-distributed optimization algorithms have received lots of attention from the machine learning community due to the tremendous demand from the large-scale learning and the big-data related optimization. A lot of stochastic and deterministic learning algorithms are proposed recently under various application scenarios. Nevertheless, many of these algorithms are based on heuristics and their optimality in terms of the generalization error is not sufficiently justified. In this talk, I will explain the concept of an optimal learning algorithm, and show that given a time budget and proper hypothesis space, only those achieving the lower bounds of the estimation error and the optimization error are optimal. Guided by this concept, we investigated the stochastic minimization of nonsmooth convex loss functions, a central problem in machine learning. We proposed a novel algorithm named Accelerated Nonsmooth Stochastic Gradient Descent, which exploits the structure of common nonsmooth loss functions to achieve optimal convergence rates for a class of problems including SVMs. It is the first stochastic algorithm that can achieve the optimal O(1/t) rate for minimizing nonsmooth loss functions. The fast rates are confirmed by empirical comparisons with state-of-the-art algorithms including the averaged SGD. The Alternating Direction Method of Multipliers (ADMM) is another flexible method to explore function structures. In the second part we proposed stochastic ADMM that can be applied to a general class of convex and nonsmooth functions, beyond the smooth and separable least squares loss used in lasso. We also demonstrate the rates of convergence for our algorithm under various structural assumptions of the stochastic function: O(1/sqrt{t}) for convex functions and O(log t/t) for strongly convex functions. A novel application named Graph-Guided SVM is proposed to demonstrate the usefulness of our algorithm. We also extend the scalability of stochastic algorithms to nonlinear kernel machines, where the problem is formulated as a constrained dual quadratic optimization. The simplex constraint can be handled by the classic Frank-Wolfe method. The proposed stochastic Frank-Wolfe methods achieve comparable or even better accuracies than state-of-the-art batch and online kernel SVM solvers, and are significantly faster. The last part investigates the problem of data-distributed learning. We formulate it as a consensus-constrained optimization problem and solve it with ADMM. It turns out that the underlying communication topology is a key factor in achieving a balance between a fast learning rate and computation resource consumption. We analyze the linear convergence behavior of consensus ADMM so as to characterize the interplay between the communication topology and the penalty parameters used in ADMM. We observe that given optimal parameters, the complete bipartite and the master-slave graphs exhibit the fastest convergence, followed by bi-regular graphs.

APA, Harvard, Vancouver, ISO, and other styles

44

Allot, Alexis. "MyGeneFriends : vers un nouveau rapport entre chercheurs et mégadonnées." Thesis, Strasbourg, 2015. http://www.theses.fr/2015STRAJ058/document.

Full text

Abstract:

Ces dernières années, la biologie a subi une profonde mutation, impulsée notamment par les technologies à haut débit et la montée de la génomique personnalisée. L’augmentation massive et constante de l’information biologique qui en résulte offre de nouvelles opportunités pour comprendre la fonction et l’évolution des gènes et génomes à différentes échelles et leurs rôles dans les maladies humaines. Ma thèse s’est articulée autour de la relation entre chercheurs et information biologique, et j’ai contribué à (OrthoInspector) ou créé (Parsec, MyGeneFriends) des systèmes permettant aux chercheurs d’accéder, analyser, visualiser, filtrer et annoter en temps réel l’énorme quantité de données disponibles à l’ère post génomique. MyGeneFriends est un premier pas dans une direction passionnante, faire en sorte que ce ne soient plus les chercheurs qui aillent vers l’information, mais que l’information pertinente aille vers les chercheurs sous une forme adaptée, permettant l’accès personnalisé et efficace aux grandes quantités d’informations, la visualisation deces informations et leur interconnexion en réseaux
In recent years, biology has undergone a profound evolution, mainly due to high through put technologies and the rise of personal genomics. The resulting constant and massive increase of biological data offers unprecedented opportunities to decipher the function and evolution of genes and genomes at different scales and their roles in human diseases. My thesis addressed the relationship between researchers and biological information, and I contributed to (OrthoInspector) or created (Parsec, MyGeneFriends) systems allowing researchers to access, analyze, visualize, filter and annotate in real time the enormous quantity of data available in the post genomic era. MyGeneFriends is a first step in an exciting new direction: where researchers no longer search forinformation, but instead pertinent information is brought to researchers in a suitable form, allowing personalized and efficient access to large amounts of information, visualization of this information,and their integration in networks

APA, Harvard, Vancouver, ISO, and other styles

45

Ramanayaka, Mudiyanselage Asanga. "Analyzing vertical crustal deformation induced by hydrological loadings in the US using integrated Hadoop/GIS framework." Bowling Green State University / OhioLINK, 2018. http://rave.ohiolink.edu/etdc/view?acc_num=bgsu1525431761678148.

Full text

APA, Harvard, Vancouver, ISO, and other styles

46

Chen, Peinan. "The BigDawg monitoring framework." Thesis, Massachusetts Institute of Technology, 2016. http://hdl.handle.net/1721.1/105942.

Full text

Abstract:

Thesis: M. Eng., Massachusetts Institute of Technology, Department of Electrical Engineering and Computer Science, 2016.
This electronic version was submitted by the student author. The certified thesis is available in the Institute Archives and Special Collections.
Cataloged from student-submitted PDF version of thesis.
Includes bibliographical references (page 44).
In this thesis, I designed and implemented a monitoring framework for the BigDawg federated database system which maintains performance information on benchmark queries. As environmental conditions change, the monitoring framework updates existing performance information to match current conditions. Using this information, the monitoring system can determine the optimal query execution plan for similar incoming queries. A series of test queries were run to assess whether the system correctly determines the optimal plans for such queries.
by Peinan Chen.
M. Eng.

APA, Harvard, Vancouver, ISO, and other styles

47

Nguyen, Hung The. "Big Networks: Analysis and Optimal Control." VCU Scholars Compass, 2018. https://scholarscompass.vcu.edu/etd/5514.

Full text

Abstract:

The study of networks has seen a tremendous breed of researches due to the explosive spectrum of practical problems that involve networks as the access point. Those problems widely range from detecting functionally correlated proteins in biology to finding people to give discounts and gain maximum popularity of a product in economics. Thus, understanding and further being able to manipulate/control the development and evolution of the networks become critical tasks for network scientists. Despite the vast research effort putting towards these studies, the present state-of-the-arts largely either lack of high quality solutions or require excessive amount of time in real-world `Big Data' requirement. This research aims at affirmatively boosting the modern algorithmic efficiency to approach practical requirements. That is developing a ground-breaking class of algorithms that provide simultaneously both provably good solution qualities and low time and space complexities. Specifically, I target the important yet challenging problems in the three main areas: Information Diffusion: Analyzing and maximizing the influence in networks and extending results for different variations of the problems. Community Detection: Finding communities from multiple sources of information. Security and Privacy: Assessing organization vulnerability under targeted-cyber attacks via social networks.

APA, Harvard, Vancouver, ISO, and other styles

48

CHIESA, GIACOMO. "METRO (Monitoring Energy and Technological Real time data for Optimization) innovative responsive conception for cityfutures." Doctoral thesis, Politecnico di Torino, 2014. http://hdl.handle.net/11583/2560136.

Full text

Abstract:

Il dato, interrelato con i processi di produzione, estrazione, derivazione, analisi, interpretazione, utilizzo e visualizzazione, e le tecnologie di informazione e comunicazione stanno cambiando velocemente aprendo a nuove implicazioni di natura architettonico-progettuale alle diverse scale (urbana, di edificio e impiantistica). Siamo di fronte ad una fase di innovazione e cambiamento nel rapporto uomo-tecnologia, stimolata soprattutto dal rapido sviluppo delle ICT e della loro pervasività nella vita quotidiana, tale da evidenziare la necessità di ridisegnare totalmente i tool concettuali per la loro comprensione e il loro consapevole utilizzo. Le ripercussioni indotte dalle innovazioni ICT sui processi e sulle attività umane possono essere localizzate intorno a quattro macro assi (the OnLife initiative): 1. la riduzione dei confini tra mondo reale e mondo virtuale; 2. l’ibridazione tra mondo naturale e mondo artificiale; 3. il passaggio dalla scarsità all’abbondanza di informazioni; 4. il passaggio dal primato dell’entità al primato dell’interazione. La ricerca dottorale ha sviluppato analisi, applicazioni e simulazioni di applicazione alle diverse scale e un ragionamento teorico inerente questa tematica, con particolare riguardo ai punti 1,3 e 4. Per validare il ragionamento teorico sulle ICT e sulle implicazioni di natura metodologica sul fare progetto (modello digitale come strumento di progetto e non solo di rappresentazione – I era digitale (Oxman 2006) e implementazione del concetto di II e III era), ci si è appoggiati ad un campo di ricerca specifico identificato con il raffrescamento passivo degli edifici. L’attività di ricerca La ricerca dottorale ha come obiettivi lo studio teorico e la dimostrazione pratica, tramite campagne di monitoraggio e di produzione di dati, delle implicazioni progettuali, alle diverse scale (impianto, edificio, città) dovute alla disponibilità di grandi quantità di dati in tempo reale. Implicazioni che riguardano il progetto, la valutazione, l’esercizio, la manutenzione e l’ottimizzazione grazie all’utilizzo di dati provenienti dal mondo reale nei modelli e nelle simulazioni virtuali. Viene altresì analizzato come i concetti di smart building e smart city cambino il rapporto tra cittadino, imprese e amministrazioni. La ricerca ha utilizzato un approccio sperimentale in situ e in laboratorio e un approccio teorico. Nel corso del dottorato sono stati analizzati dati pluriennali derivati dal monitoraggio del sistema geotermico ad aria installato nella scuola media “Orsini” di Imola. Parallelamente all’analisi in situ, si è contribuito, all’interno del gruppo di ricerca H-NAC, alla creazione di un laboratorio per il monitoraggio di sistemi e soluzioni per il raffrescamento passivo. Le attrezzature di laboratorio hanno permesso di progettare e condurre una campagna di monitoraggio e analisi dati volta a verificare il funzionamento di una torretta evaporativa diretta al variare delle condizioni ambientali, simulate tramite UTA. La fase di produzione dati ha permesso di testare una piattaforma di sensori e datalogger appositamente progettata e basata su soluzioni open source. I risultati del monitoraggio sono stati comparati con alcuni metodi semplificati per la stima delle temperature in uscita da torrette evaporative per il raffrescamento ventilativo al fine di implementare l’applicabilità e gli strumenti di controllo delle tecniche di raffrescamento passive. Queste esperienze hanno permesso di definire schemi e diagrammi di flusso per il controllo del funzionamento di sistemi H-NAC (Hybrid-Natural Air Conditioning). Si è verificata la possibilità di utilizzare soluzioni hardware e software open source (nello specifico basate sulla piattaforma di prototipazione elettronica rapida Arduino) sia per i monitoraggi in laboratorio (in corso e futuri) riguardo i sottosistemi di raffrescamento e il modulo parete, sia per la gestione del funzionamento del sistema completo. Nel corso della ricerca dottorale è stato sviluppato un modello in scala atto a dimostrare l’applicabilità di dette soluzioni al controllo di un sistema semplificato di illuminazione abbinato a schemi solari mobili controllati da un servomotore. Il funzionamento del sistema mira a garantire un valore di illuminamento interno massimizzando l’utilizzo della radiazione solare tramite l’impiego di appositi sensori interni e esterni. Il modello reale è stato interfacciato con un modello virtuale CAD capace di modificarsi in real time, permettendo di studiare possibili interrelazioni tra i due mondi. L’applicabilità di soluzioni open source per la produzione dati real time è stata ulteriormente testata simulando una campagna di monitoraggio diffusa utilizzando nodi di sensori geo-posizionati in tre diversi edifici in Torino. Partendo da questo primo studio di applicabilità si è elaborato un quadro di possibili applicazioni dell’utilizzo di grandi moli di dati di bassa qualità prodotti dalla diffusione di soluzioni IoT (long tail del dato). Questa sperimentazione è riportata al capitolo monitoraggio real time, il dato al tempo delle reti. Le implicazioni teoriche La connessione in rete di nodi in grado di raccogliere, comunicare e trasmettere dati, sta diventando una realtà concreta per le città del futuro. Gli approcci sono, anche in questo caso, diversi. Piattaforme proprietarie costituiscono strumenti di grande qualità che, tuttavia, comportano alcuni rischi per quel che concerne la proprietà e l’accesso ai dati, soprattutto in un contesto di commistione tra il pubblico e il privato. Le applicazioni pratiche hanno permesso di articolare un discorso teorico di supporto a questa argomentazione che è stato sviluppato nelle conclusioni della ricerca dottorale dedicate a studiare tre macro tematiche: - il modello scientifico come strumento di progetto nel quale convertono tecnologie e strumenti innovativi informatici per il progetto di natura virtuale, reale o di integrazione. La crescente consapevolezza delle potenzialità dei mezzi digitali a supporto del progetto stanno modificando le modalità progettuali sommando alla semplice rappresentazione altre funzionalità specifiche di natura tecnica e decisionale. Le possibilità portate dalle tecnologie digitali per il progetto sono studiate in base alle ricadute, alla complessità e vastità delle implicazioni utilizzando i concetti di I, II e III era digitale; - le piattaforme, gli spazi di gestione e il progetto. Le piattaforme sono lo spazio, fisico o virtuale, di decisione e gestione dei processi (progettuali, decisionali, organizzativi), dove le competenze e le tecniche si incontrano secondo specifiche modalità. Nelle piattaforme vengono gestite le diverse fasi che seguono il processo dei dati dalla produzione all’utilizzo, sfruttando tecniche di modellizzazione e materializzione. Per questa ragione le piattaforme si configurano come luoghi di gestione della complessità. - il dato e la sua proprietà. Questo capitolo studia le implicazioni che le diverse modalità di produzione, utilizzo e diffusione dei dati e dell'informazione hanno sulle città e sugli abitanti mettendo in relazione gli interessi collettivi o individuali con l’apertura o la protezione dei sistemi utilizzati. Dallo studio emerge la necessità di valutare, sin dalle prime fasi decisionali di implementazione dei piani strategici per le SmartCity, le implicazioni che le tecnologie ICT e digitali in generale hanno e potranno avere sul tessuto sociale, sul tessuto urbanistico e architettonico nel loro doppio ruolo abilitante e coevolutivo.

APA, Harvard, Vancouver, ISO, and other styles

49

Benkő, Krisztián. "Zpracování velkých dat z rozsáhlých IoT sítí." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2019. http://www.nusl.cz/ntk/nusl-403820.

Full text

Abstract:

The goal of this diploma thesis is to design and develop a system for collecting, processing and storing data from large IoT networks. The developed system introduces a complex solution able to process data from various IoT networks using Apache Hadoop ecosystem. The data are real-time processed and stored in a NoSQL database, but the data are also stored in the file system for a potential later processing. The system is optimized and tested using data from IQRF network. The data stored in the NoSQL database are visualized and the system periodically generates derived predictions. Users are connected to this system via an information system, which is able to automatically generate notifications when monitored values are out of range.

APA, Harvard, Vancouver, ISO, and other styles

50

Yu, Katherine (Katherine X. ). "Database engine integration and performance analysis of the BigDAWG polystore system." Thesis, Massachusetts Institute of Technology, 2017. http://hdl.handle.net/1721.1/113455.

Full text

Abstract:

Thesis: M. Eng., Massachusetts Institute of Technology, Department of Electrical Engineering and Computer Science, 2017.
This electronic version was submitted by the student author. The certified thesis is available in the Institute Archives and Special Collections.
Cataloged from student-submitted PDF version of thesis.
Includes bibliographical references (pages 55-56).
The BigDAWG polystore database system aims to address workloads dealing with large, heterogeneous datasets. The need for such a system is motivated by an increase in Big Data applications dealing with disparate types of data, from large scale analytics to realtime data streams to text-based records, each suited for different storage engines. These applications often perform cross-engine queries on correlated data, resulting in complex query planning, data migration, and execution. One such application is a medical application built by the Intel Science and Technology Center (ISTC) on data collected from an intensive care unit (ICU). This thesis presents work done to add support for two commonly used database engines, Vertica and MySQL, to the BigDAWG system, as well as results and analysis from performance evaluation of the system using the TPC-H benchmark.
by Katherine Yu.
M. Eng.

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'BigData'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles