Dissertations / Theses on the topic 'Data classification and machine learning'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Data classification and machine learning.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Stenekap, Daniel. "Classification of Gear-shift data using machine learning." Thesis, Mälardalens högskola, Akademin för innovation, design och teknik, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:mdh:diva-53445.
Full textFujino, Akinori. "Machine Learning with Heterogeneous Data for Classification Problems." 京都大学 (Kyoto University), 2009. http://hdl.handle.net/2433/123832.
Full textTeatini, Alex. "Movement trajectory classification using supervised machine learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-265009.
Full textAllt som rör sig kan detekteras och därmed kan dess bana analyseras. Banan för ett rörligt objekt kan bära en hel del användbar information beroende på vad som eftersöks. I detta arbete är syftet att utnyttja maskininlärning för att kunna klassificera ändliga banor baserat på deras form. I en klinisk miljö har en uppsättning banklasser definierats baserat på dess relevans för vissa sjukdomar. Vidare har flera banor samlats in med hjälp av en djupledssensor från ett antal personer. Projektets syfte är att utvärdera om det är möjligt att klassificera dessa banor i de fördefinierade klasserna. En bana består av en sekventiellt ordnad lista av koordinater, vilket skulle antyda temporal behandling. Men utifrån framgången av maskininlärning för att klassificera bilder fick vi idén om en bildbaserad analys. På grundval av detta har banor omvandlas till bilder, vilket gör att problemet nu liknar igenkänningsproblemet av handskrivna siffror. De genomförda metoderna för klassificeringsuppgiften är den välkända Support Vector Machine (SVM), implementerad i några olika konfigurationer samt Convolutional Neural Network (CNN), den mest uppskattade metoden för bildigenkänning inom Deep Learning. Vi finner att bästa möjliga sätt för att uppnå betydande prestationer på klassificeringsuppgiften är att använda en blandning av de två tidigare nämnda metoderna, nämligen en tvåstegsklassificering gjord av en binär SVM, ansvarig för en första distinktion, följt av en CNN för det slutliga beslutet. Vi visar att detta trädbaserade tillvägagångssätt kan ge den bästa klassnoggrannheten under ålagda restriktioner. Avslutningsvis ges en hypotes för framtida förbättringar av nya djupa inlärningsmetoder
Milne, Linda Computer Science & Engineering Faculty of Engineering UNSW. "Machine learning for automatic classification of remotely sensed data." Publisher:University of New South Wales. Computer Science & Engineering, 2008. http://handle.unsw.edu.au/1959.4/41322.
Full textLi, Ling Abu-Mostafa Yaser S. "Data complexity in machine learning and novel classification algorithms /." Diss., Pasadena, Calif. : Caltech, 2006. http://resolver.caltech.edu/CaltechETD:etd-04122006-114210.
Full textMontiel, López Jacob. "Fast and slow machine learning." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLT014/document.
Full textThe Big Data era has revolutionized the way in which data is created and processed. In this context, multiple challenges arise given the massive amount of data that needs to be efficiently handled and processed in order to extract knowledge. This thesis explores the symbiosis of batch and stream learning, which are traditionally considered in the literature as antagonists. We focus on the problem of classification from evolving data streams.Batch learning is a well-established approach in machine learning based on a finite sequence: first data is collected, then predictive models are created, then the model is applied. On the other hand, stream learning considers data as infinite, rendering the learning problem as a continuous (never-ending) task. Furthermore, data streams can evolve over time, meaning that the relationship between features and the corresponding response (class in classification) can change.We propose a systematic framework to predict over-indebtedness, a real-world problem with significant implications in modern society. The two versions of the early warning mechanism (batch and stream) outperform the baseline performance of the solution implemented by the Groupe BPCE, the second largest banking institution in France. Additionally, we introduce a scalable model-based imputation method for missing data in classification. This method casts the imputation problem as a set of classification/regression tasks which are solved incrementally.We present a unified framework that serves as a common learning platform where batch and stream methods can positively interact. We show that batch methods can be efficiently trained on the stream setting under specific conditions. The proposed hybrid solution works under the positive interactions between batch and stream methods. We also propose an adaptation of the Extreme Gradient Boosting (XGBoost) algorithm for evolving data streams. The proposed adaptive method generates and updates the ensemble incrementally using mini-batches of data. Finally, we introduce scikit-multiflow, an open source framework in Python that fills the gap in Python for a development/research platform for learning from evolving data streams
He, Jin. "Robust Mote-Scale Classification of Noisy Data via Machine Learning." The Ohio State University, 2015. http://rave.ohiolink.edu/etdc/view?acc_num=osu1440413201.
Full textRosquist, Christine. "Text Classification of Human Resources-related Data with Machine Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-302375.
Full textTextklassificering har varit en viktig tillämpning och ett viktigt forskningsämne sedan uppkomsten av digitala dokument. Idag, i och med att allt mer data sparas i form av elektroniska dokument, är textklassificeringen ännu mer relevant. Det existerar flera studier som applicerar maskininlärningsmodeller så som Naive Bayes och Convolutional Neural Networks (CNN) på textklassificering och sentimentanalys. Dock ligger inte fokuset i dessa studier på en krossdomän-klassificering, vilket innebär att maskinlärningsmodellerna tränas på ett dataset från en viss kontext och sedan testas på ett dataset från en annan kontext. Detta är användbart när det inte finns tillräckligt med träningsdata från den specifika domänen där textdata ska klassificeras. Den här studien undersöker hur maskininlärningsmodellerna Naive Bayes och CNN presterar när de är tränade i en viss kontext och sedan testade i en annan, något annorlunda, kontext. Studien använder data från recensioner gjorda av anställda för att träna modellerna, som sedan testas på den datan men också på personalavdelningsrelaterad data. Således är syftet med denna studie att bidra med insikt i hur ett system kan utvecklas med kapabilitet att utföra en korrekt krossdomän-klassificering, samt bidra med generell insikt till forskningsämnet textklassificering. En jämförande analys av modellerna Naive Bayes och CNN utfördes, och resultaten visade att modellerna presterar lika när det kom till att klassificera text genom att enbart använda datan med recensioner gjorda av anställda för att träna och testa modellerna. Dock visade det sig att CNN presterade bättre när det kom till multiklass-klassificering av datan med recensioner gjorda av anställda, vilket indikerar att CNN kan vara en bättre modell i den kontexten. Från ett krossdomän-perspektiv visade det sig att Naive Bayes var den bättre modellen, i och med att den modellen presterade bäst i alla mätningar. Båda modellerna kan användas som guidningsverktyg för att klassificera personalavdelningsrelaterad data, trots att Naive Bayes var modellen som presterade bäst i ett krossdomän-perspektiv. Resultatet kan förbättrats en del med mer forskning, och behöver verifieras med mer data. Förslag på hur resultaten kan förbättras är att förbättra hyperparameteroptimeringen, använda en annan metod för att hantera den obalanserade datan samt att justera förbehandlingen av datan. Det är också värt att notera att den statistiska signifikansen inte kunde bekräftas i alla testfall, vilket innebär att inga egentliga slutsatser kan dras, även om det fortfarande bidrar med en indikering om hur bra de olika modellerna presterar i de olika fallen.
Pehrson, Jakob, and Sara Lindstrand. "Support Unit Classification through Supervised Machine Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-281537.
Full textSyftet med artikeln är att utvärdera den påverkan som en klassificeringsmodell kan ha på den interna processen av kundtjänst inom ett stort digitaliserat företag. Chatbotar används allt mer frekvent bland digitala tjänster, även om den generella effekten inte alltid är tydlig. Studien är uppdelad i följande två frågeställningar: (1) Vilken klassificeringsalgoritm bland naive Bayes, logistisk regression, och neurala nätverk kan bäst förutspå den korrekta hjälpen en användare är i behov av och med vilken noggrannhet? Och (2) Vad är effekten på produktivitet och kundnöjdhet för användandet av maskininlärning för sortering av kundbehov? Data samlades från ett stort, digitalt företags interna databas och används sedan i träning och testning med de tre klassificeringsalgoritmerna. Vidare, en enkät skickades ut med fokus på att förstå hur det nuvarande systemet påverkar de berörda arbetarna. Ett första fynd indikerar att neurala nätverk är den mest lämpade modellen för klassificeringen. Däremot, när omfånget och komplexiteten var begränsat presenterade även naive Bayes och logistisk regression tillräckligt. Ett andra fynd av studien är att klassificeringen potentiellt förbättrar produktiviteten givet att baslinjen är mött. Däremot existerar en svårighet i att dra slutsatser om den exakta effekten på kundnöjdhet eftersom det finns många olika aspekter att ta hänsyn till. Likväl finns en god potential i att uppnå en positiv nettoeffekt.
Amil, Marletti Pablo. "Machine learning methods for the characterization and classification of complex data." Doctoral thesis, Universitat Politècnica de Catalunya, 2020. http://hdl.handle.net/10803/668842.
Full textEl presente trabajo de tesis desarrolla nuevos métodos para el análisis y clasificación de imágenes médicas y datos complejos en general. Primero, proponemos un método de aprendizaje automático sin supervisión que ordena imágenes OCT (tomografía de coherencia óptica) de la cámara anterior del ojo en función del grado de riesgo del paciente de padecer glaucoma de ángulo cerrado. Luego, desarrollamos dos métodos de detección automática de anomalías que utilizamos para mejorar los resultados del algoritmo anterior, pero que su aplicabilidad va mucho más allá, siendo útil, incluso, para la detección automática de fraudes en transacciones de tarjetas de crédito. Mostramos también, cómo al analizar la topología de la red vascular de la retina considerándola una red compleja, podemos detectar la presencia de glaucoma y de retinopatía diabética a través de diferencias estructurales. Estudiamos también un modelo de un láser con inyección óptica que presenta eventos extremos en la serie temporal de intensidad para evaluar diferentes métodos de aprendizaje automático para predecir dichos eventos extremos.
Aquesta tesi desenvolupa nous mètodes per a l’anàlisi i la classificació d’imatges mèdiques i dades complexes. Hem proposat, primer, un mètode d’aprenentatge automàtic sense supervisió que ordena imatges OCT (tomografia de coherència òptica) de la cambra anterior de l’ull en funció del grau de risc del pacient de patir glaucoma d’angle tancat. Després, hem desenvolupat dos mètodes de detecció automàtica d’anomalies que hem utilitzat per millorar els resultats de l’algoritme anterior, però que la seva aplicabilitat va molt més enllà, sent útil, fins i tot, per a la detecció automàtica de fraus en transaccions de targetes de crèdit. Mostrem també, com en analitzar la topologia de la xarxa vascular de la retina considerant-la una xarxa complexa, podem detectar la presència de glaucoma i de retinopatia diabètica a través de diferències estructurals. Finalment, hem estudiat un làser amb injecció òptica, el qual presenta esdeveniments extrems en la sèrie temporal d’intensitat. Hem avaluat diferents mètodes per tal de predir-los.
Dos, Santos Ludovic. "Representation learning for relational data." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066480/document.
Full textThe increasing use of social and sensor networks generates a large quantity of data that can be represented as complex graphs. There are many tasks from information analysis, to prediction and retrieval one can imagine on those data where relation between graph nodes should be informative. In this thesis, we proposed different models for three different tasks: - Graph node classification - Relational time series forecasting - Collaborative filtering. All the proposed models use the representation learning framework in its deterministic or Gaussian variant. First, we proposed two algorithms for the heterogeneous graph labeling task, one using deterministic representations and the other one Gaussian representations. Contrary to other state of the art models, our solution is able to learn edge weights when learning simultaneously the representations and the classifiers. Second, we proposed an algorithm for relational time series forecasting where the observations are not only correlated inside each series, but also across the different series. We use Gaussian representations in this contribution. This was an opportunity to see in which way using Gaussian representations instead of deterministic ones was profitable. At last, we apply the Gaussian representation learning approach to the collaborative filtering task. This is a preliminary work to see if the properties of Gaussian representations found on the two previous tasks were also verified for the ranking one. The goal of this work was to then generalize the approach to more relational data and not only bipartite graphs between users and items
Zhao, Xiaochuang. "Ensemble Learning Method on Machine Maintenance Data." Scholar Commons, 2015. http://scholarcommons.usf.edu/etd/6056.
Full textHuss, Jakob. "Cross Site Product Page Classification with Supervised Machine Learning." Thesis, KTH, Skolan för datavetenskap och kommunikation (CSC), 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189555.
Full textStakovska, Meri. "Improving search results with machine learning : Classifying multi-source data with supervised machine learning to improve search results." Thesis, Linnéuniversitetet, Institutionen för datavetenskap och medieteknik (DM), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:lnu:diva-75598.
Full textJiang, Fuhua. "SVM-Based Negative Data Mining to Binary Classification." Digital Archive @ GSU, 2006. http://digitalarchive.gsu.edu/cs_diss/8.
Full textLanglet, Jonatan. "Towards Machine Learning Inference in the Data Plane." Thesis, Karlstads universitet, Institutionen för matematik och datavetenskap (from 2013), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-72875.
Full textMcClintick, Kyle W. "Training Data Generation Framework For Machine-Learning Based Classifiers." Digital WPI, 2018. https://digitalcommons.wpi.edu/etd-theses/1276.
Full textTang, Fung Michael, and 鄧峰. "Sequence classification and melody tracks selection." Thesis, The University of Hong Kong (Pokfulam, Hong Kong), 2001. http://hub.hku.hk/bib/B29742973.
Full textTang, Fung Michael. "Sequence classification and melody tracks selection /." Hong Kong : University of Hong Kong, 2001. http://sunzi.lib.hku.hk/hkuto/record.jsp?B25017470.
Full textAnne, Chaitanya. "Advanced Text Analytics and Machine Learning Approach for Document Classification." ScholarWorks@UNO, 2017. http://scholarworks.uno.edu/td/2292.
Full textLi, Sichu. "Application of Machine Learning Techniques for Real-time Classification of Sensor Array Data." ScholarWorks@UNO, 2009. http://scholarworks.uno.edu/td/913.
Full textAtallah, Louis N. "Learning from sonar data for the classification of underwater seabeds." Thesis, University of Oxford, 2005. http://ora.ox.ac.uk/objects/uuid:11a17b77-6e17-409e-9a6e-d19c13b86709.
Full textRoth, Robin, and Martin Lundblad. "An Evaluation of Machine Learning Approaches for Hierarchical Malware Classification." Thesis, Blekinge Tekniska Högskola, Institutionen för datavetenskap, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-18260.
Full textAwodokun, Olugbenga. "Classification of Patterns in Streaming Data Using Clustering Signatures." University of Cincinnati / OhioLINK, 2017. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1504880155623189.
Full textReynen, Andrew. "Supervised Machine Learning on a Network Scale: Application to Seismic Event Detection and Classification." Thesis, Université d'Ottawa / University of Ottawa, 2017. http://hdl.handle.net/10393/36867.
Full textBörthas, Lovisa, and Sjölander Jessica Krange. "Machine Learning Based Prediction and Classification for Uplift Modeling." Thesis, KTH, Matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-266379.
Full textBehovet av att kunna modellera den verkliga vinsten av riktad marknadsföring har lett till den idag vanligt förekommande metoden inkrementell responsanalys. För att kunna utföra denna typ av metod krävs förekomsten av en existerande testgrupp samt kontrollgrupp och målet är således att beräkna differensen mellan de positiva utfallen i de två grupperna. Sannolikheten för de positiva utfallen för de två grupperna kan effektivt estimeras med statistiska maskininlärningsmetoder. De inkrementella responsanalysmetoderna som undersöks i detta projekt är subtraktion av två modeller, att modellera den inkrementella responsen direkt samt en klassvariabeltransformation. De statistiska maskininlärningsmetoderna som tillämpas är random forests och neurala nätverk samt standardmetoden logistisk regression. Datan är samlad från ett väletablerat detaljhandelsföretag och målet är därmed att undersöka vilken inkrementell responsanalysmetod och maskininlärningsmetod som presterar bäst givet datan i detta projekt. De mest avgörande aspekterna för att få ett bra resultat visade sig vara variabelselektionen och mängden kontrolldata i varje dataset. För att få ett lyckat resultat bör valet av maskininlärningsmetod vara random forests vilken används för att modellera den inkrementella responsen direkt, eller logistisk regression tillsammans med en klassvariabeltransformation. Neurala nätverksmetoder är känsliga för ojämna klassfördelningar och klarar därmed inte av att erhålla stabila modeller med den givna datan. Vidare presterade subtraktion av två modeller dåligt på grund av att var modell tenderade att fokusera för mycket på att modellera klassen i båda dataseten separat, istället för att modellera differensen mellan dem. Slutsatsen är således att en metod som modellerar den inkrementella responsen direkt samt en relativt stor kontrollgrupp är att föredra för att få ett stabilt resultat.
Sopova, Oleksandra. "Domain adaptation for classifying disaster-related Twitter data." Kansas State University, 2017. http://hdl.handle.net/2097/35388.
Full textDepartment of Computing and Information Sciences
Doina Caragea
Machine learning is the subfield of Artificial intelligence that gives computers the ability to learn without being explicitly programmed, as it was defined by Arthur Samuel - the American pioneer in the field of computer gaming and artificial intelligence who was born in Emporia, Kansas. Supervised Machine Learning is focused on building predictive models given labeled training data. Data may come from a variety of sources, for instance, social media networks. In our research, we use Twitter data, specifically, user-generated tweets about disasters such as floods, hurricanes, terrorist attacks, etc., to build classifiers that could help disaster management teams identify useful information. A supervised classifier trained on data (training data) from a particular domain (i.e. disaster) is expected to give accurate predictions on unseen data (testing data) from the same domain, assuming that the training and test data have similar characteristics. Labeled data is not easily available for a current target disaster. However, labeled data from a prior source disaster is presumably available, and can be used to learn a supervised classifier for the target disaster. Unfortunately, the source disaster data and the target disaster data may not share the same characteristics, and the classifier learned from the source may not perform well on the target. Domain adaptation techniques, which use unlabeled target data in addition to labeled source data, can be used to address this problem. We study single-source and multi-source domain adaptation techniques, using Nave Bayes classifier. Experimental results on Twitter datasets corresponding to six disasters show that domain adaptation techniques improve the overall performance as compared to basic supervised learning classifiers. Domain adaptation is crucial for many machine learning applications, as it enables the use of unlabeled data in domains where labeled data is not available.
Svensson, Patrik. "Machine learning techniques for binary classification of microarray data with correlation-based gene selection." Thesis, Uppsala universitet, Statistiska institutionen, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-302402.
Full textAlsaad, Amal. "Enhanced root extraction and document classification algorithm for Arabic text." Thesis, Brunel University, 2016. http://bura.brunel.ac.uk/handle/2438/13510.
Full textLan, Liang. "Data Mining Algorithms for Classification of Complex Biomedical Data." Diss., Temple University Libraries, 2012. http://cdm16002.contentdm.oclc.org/cdm/ref/collection/p245801coll10/id/214773.
Full textPh.D.
In my dissertation, I will present my research which contributes to solve the following three open problems from biomedical informatics: (1) Multi-task approaches for microarray classification; (2) Multi-label classification of gene and protein prediction from multi-source biological data; (3) Spatial scan for movement data. In microarray classification, samples belong to several predefined categories (e.g., cancer vs. control tissues) and the goal is to build a predictor that classifies a new tissue sample based on its microarray measurements. When faced with the small-sample high-dimensional microarray data, most machine learning algorithm would produce an overly complicated model that performs well on training data but poorly on new data. To reduce the risk of over-fitting, feature selection becomes an essential technique in microarray classification. However, standard feature selection algorithms are bound to underperform when the size of the microarray data is particularly small. The best remedy is to borrow strength from external microarray datasets. In this dissertation, I will present two new multi-task feature filter methods which can improve the classification performance by utilizing the external microarray data. The first method is to aggregate the feature selection results from multiple microarray classification tasks. The resulting multi-task feature selection can be shown to improve quality of the selected features and lead to higher classification accuracy. The second method jointly selects a small gene set with maximal discriminative power and minimal redundancy across multiple classification tasks by solving an objective function with integer constraints. In protein function prediction problem, gene functions are predicted from a predefined set of possible functions (e.g., the functions defined in the Gene Ontology). Gene function prediction is a complex classification problem characterized by the following aspects: (1) a single gene may have multiple functions; (2) the functions are organized in hierarchy; (3) unbalanced training data for each function (much less positive than negative examples); (4) missing class labels; (5) availability of multiple biological data sources, such as microarray data, genome sequence and protein-protein interactions. As participants in the 2011 Critical Assessment of Function Annotation (CAFA) challenge, our team achieved the highest AUC accuracy among 45 groups. In the competition, we gained by focusing on the 5-th aspect of the problem. Thus, in this dissertation, I will discuss several schemes to integrate the prediction scores from multiple data sources and show their results. Interestingly, the experimental results show that a simple averaging integration method is competitive with other state-of-the-art data integration methods. Original spatial scan algorithm is used for detection of spatial overdensities: discovery of spatial subregions with significantly higher scores according to some density measure. This algorithm is widely used in identifying cluster of disease cases (e.g., identifying environmental risk factors for child leukemia). However, the original spatial scan algorithm only works on static spatial data. In this dissertation, I will propose one possible solution for spatial scan on movement data.
Temple University--Theses
Bušo, Bohumír. "Porovnanie metód machine learningu pre analýzu kreditného rizika." Master's thesis, Vysoká škola ekonomická v Praze, 2015. http://www.nusl.cz/ntk/nusl-207120.
Full textKing, Michael Allen. "Ensemble Learning Techniques for Structured and Unstructured Data." Diss., Virginia Tech, 2015. http://hdl.handle.net/10919/51667.
Full textPh. D.
Johansson, Henrik. "Video Flow Classification : Feature Based Classification Using the Tree-based Approach." Thesis, Karlstads universitet, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-43012.
Full textHITS, 4707
Stephanos, Dembe. "Machine Learning Approaches to Dribble Hand-off Action Classification with SportVU NBA Player Coordinate Data." Digital Commons @ East Tennessee State University, 2021. https://dc.etsu.edu/etd/3908.
Full textCeccon, Stefano. "Extending Bayesian network models for mining and classification of glaucoma." Thesis, Brunel University, 2013. http://bura.brunel.ac.uk/handle/2438/8051.
Full textRado, Omesaad A. M. "Contributions to evaluation of machine learning models. Applicability domain of classification models." Thesis, University of Bradford, 2019. http://hdl.handle.net/10454/18447.
Full textMinistry of Higher Education in Libya
Kaden, Marika. "Integration of Auxiliary Data Knowledge in Prototype Based Vector Quantization and Classification Models." Doctoral thesis, Universitätsbibliothek Leipzig, 2016. http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-206413.
Full textLundgren, Andreas. "Data-Driven Engine Fault Classification and Severity Estimation Using Residuals and Data." Thesis, Linköpings universitet, Fordonssystem, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-165736.
Full textGonzalez, Munoz Mario, and Philip Hedström. "Predicting Customer Behavior in E-commerce using Machine Learning." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260269.
Full textE-commerce has been a rapidly growing sector during the last years, and are predicted to continue to grow as fast during the next ones. This has opened up a lot of opportunities for companies trying to sell their products or services, but it is also forcing them to exploit these opportunities before their competitors in order to not fall behind. One interesting opportunity we have chosen to focus this thesis on is the ability to use customer data, that has not been available with physical stores, to identify customer behaviour patterns and develop a better understanding for the customers. Hopefully this makes it possible to predict customer behaviour. We specifically focused on distinguishing possible-buyers from buyers, with the intent of identifying key factors that affect whether the customer performs a purchase or not. We did this using Binary Logistic Regression, a supervised machine learning algorithm that is trained to classify an input observation. We managed to create a model that predicted whether or not a customer was a possible-buyer or buyer with an accuracy of 88%.
dos, Santos Toledo Busarello Mariana. "Machine Learning Applied to Reach Classification in a Northern Sweden Catchment." Thesis, Umeå universitet, Institutionen för ekologi, miljö och geovetenskap, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-184140.
Full textAlvarado, Mantecon Jesus Gerardo. "Towards the Automatic Classification of Student Answers to Open-ended Questions." Thesis, Université d'Ottawa / University of Ottawa, 2019. http://hdl.handle.net/10393/39093.
Full textNordström, Jesper. "Automated classification of bibliographic data using SVM and Naive Bayes." Thesis, Linnéuniversitetet, Institutionen för datavetenskap och medieteknik (DM), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:lnu:diva-75167.
Full textKarunaratne, Thashmee M. "Learning predictive models from graph data using pattern mining." Doctoral thesis, Stockholms universitet, Institutionen för data- och systemvetenskap, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-100713.
Full textMoshfeghi, Mohammadshakib, Jyoti Prasad Bartaula, and Aliye Tuke Bedasso. "Emotion Recognition from EEG Signals using Machine Learning." Thesis, Blekinge Tekniska Högskola, Sektionen för ingenjörsvetenskap, 2013. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-4147.
Full textMiloš, Radovanović. "High-Dimensional Data Representations and Metrics for Machine Learning and Data Mining." Phd thesis, Univerzitet u Novom Sadu, Prirodno-matematički fakultet u Novom Sadu, 2011. https://www.cris.uns.ac.rs/record.jsf?recordId=77530&source=NDLTD&language=en.
Full textU tekućem „informatičkom dobu“, masivne količine podataka sesakupljaju brzinom koja ne dozvoljava njihovo efektivno strukturiranje,analizu, i pretvaranje u korisno znanje. Ovo zasićenje informacijamase manifestuje kako kroz veliki broj objekata uključenihu skupove podataka, tako i kroz veliki broj atributa, takođe poznatkao velika dimenzionalnost. Disertacija se bavi problemima kojiproizilaze iz velike dimenzionalnosti reprezentacije podataka, čestonazivanim „prokletstvom dimenzionalnosti“, u kontekstu mašinskogučenja, data mining-a i information retrieval-a. Opisana istraživanjaprate dva pravca: izučavanje ponašanja metrika (ne)sličnosti u odnosuna rastuću dimenzionalnost, i proučavanje metoda odabira atributa,prvenstveno u interakciji sa tehnikama reprezentacije dokumenata zaklasifikaciju teksta. Centralni rezultati disertacije, relevantni za prvipravac istraživanja, uključuju teorijske uvide u fenomen koncentracijekosinusne mere sličnosti, i detaljnu analizu fenomena habovitosti kojise odnosi na tendenciju nekih tačaka u skupu podataka da postanuhabovi tako što bivaju uvrštene u neočekivano mnogo lista k najbližihsuseda ostalih tačaka. Mehanizmi koji pokreću fenomen detaljno suproučeni, kako iz teorijske tako i iz empirijske perspektive. Habovitostje povezana sa (latentnom) dimenzionalnošću podataka, opisanaje njena interakcija sa strukturom klastera u podacima i informacijamakoje pružaju oznake klasa, i demonstriran je njen efekat napoznate algoritme za klasifikaciju, semi-supervizirano učenje, klasteringi detekciju outlier-a, sa posebnim osvrtom na klasifikaciju vremenskihserija i information retrieval. Rezultati koji se odnose nadrugi pravac istraživanja uključuju kvantifikaciju interakcije izmeđurazličitih transformacija višedimenzionalnih reprezentacija dokumenatai odabira atributa, u kontekstu klasifikacije teksta.
Taslimitehrani, Vahid. "Contrast Pattern Aided Regression and Classification." Wright State University / OhioLINK, 2016. http://rave.ohiolink.edu/etdc/view?acc_num=wright1459377694.
Full textKristensson, Jonathan. "Load Classification with Machine Learning : Classifying Loads in a Distribution Grid." Thesis, Uppsala universitet, Institutionen för teknikvetenskaper, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-395280.
Full textChandra, Nagasai. "Node Classification on Relational Graphs using Deep-RGCNs." DigitalCommons@CalPoly, 2021. https://digitalcommons.calpoly.edu/theses/2265.
Full textBrown, Elliot Morgan. "The Application of Synthetic Signals for ECG Beat Classification." BYU ScholarsArchive, 2019. https://scholarsarchive.byu.edu/etd/8116.
Full textSohaib, Ahmad Tauseef, and Shahnawaz Qureshi. "An Empirical Study of Machine Learning Techniques for Classifying Emotional States from EEG Data." Thesis, Blekinge Tekniska Högskola, Sektionen för datavetenskap och kommunikation, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:bth-2932.
Full text