Dissertations / Theses on the topic 'Random forest classification'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the top 50 dissertations / theses for your research on the topic 'Random forest classification.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.
Linusson, Henrik, Robin Rudenwall, and Andreas Olausson. "Random forest och glesa datarespresentationer." Thesis, Högskolan i Borås, Institutionen Handels- och IT-högskolan, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:hb:diva-16672.
Full textProgram: Systemarkitekturutbildningen
Nelson, Marc. "Evaluating Multitemporal Sentinel-2 data for Forest Mapping using Random Forest." Thesis, Stockholms universitet, Institutionen för naturgeografi, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-146657.
Full textKindbom, Hannes. "LSTM vs Random Forest for Binary Classification of Insurance Related Text." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252748.
Full textDet vetenskapliga området språkteknologi har fått ökad uppmärksamhet den senaste tiden, men mindre fokus riktas på att jämföra modeller som skiljer sig i komplexitet. Den här kandidatuppsatsen jämför Random Forest med LSTM, genom att undersöka hur väl modellerna kan användas för att klassificera ett meddelande som fråga eller icke-fråga. Jämförelsen gjordes genom att träna och optimera modellerna på historisk chattdata från det svenska försäkringsbolaget Hedvig. Olika typer av word embedding, så som Word2vec och Bag of Words, testades också. Resultaten visade att LSTM uppnådde något högre F1 och accuracy än Random Forest. Modellernas prestanda förbättrades inte signifikant efter optimering och resultatet var också beroende av vilket korpus modellerna tränades på. En undersökning av hur en chattbot skulle påverka Hedvigs adoption rate genomfördes också, huvudsakligen genom att granska tidigare studier om chattbotars effekt på användarupplevelsen. De potentiella effekterna på en innovations fem attribut, relativ fördel, kompatibilitet, komplexitet, prövbarhet and observerbarhet analyserades för att kunna svara på frågeställningen. Resultaten visade att Hedvigs adoption rate kan påverkas positivt, genom att förbättra de två första attributen. Effekterna en chattbot skulle ha på komplexitet, prövbarhet och observerbarhet ansågs dock vara försumbar, om inte negativ.
Alkazaz, Ayham, and Kharouki Marwa Saado. "Evaluation of Adaptive random forest algorithm for classification of evolving data stream." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-283114.
Full textI big data tiden har online-maskininlärningsalgoritmer fått mer och mer dragkraft från både akademin och industrin. I flera scenarier måste beslut och predektioner göras i nära realtid när data observeras från dataströmmar som kontinuerligt utvecklas. Offline-inlärningsalgoritmer brister på olika sätt när det gäller att hantera sådana problem. Bortsett från kostnaderna och svårigheterna med att lagra dessa dataströmmar i en lagringskluster och den beräkningsmässiga svårigheterna förknippade med att träna modellen på nytt varje gång ny data observeras för att hålla modellen uppdaterad. Dessa metoder har inte heller inbyggda mekanismer för att hantera säsongsbetonade och icke-stationära dataströmmar. I sådana strömmar kan datadistributionen förändras över tid i det som kallas konceptdrift. Anpassningsbara slumpmässiga skogar (Adaptive random forests) är väl studerade och effektiva modeller för online-inlärning och hantering av icke-stationära dataströmmar. Genom att använda mekanismer för att upptäcka konceptdrift och bagging syftar adaptiva slumpmässiga skogar att förbättra noggrannheten och prestandan hos traditionella slumpmässiga skogar för onlineinlärning. I denna studie analyserar vi den prediktiva klassificeringsnoggrannheten för adaptiva slumpmässiga skogar när de används i samband med olika dataströmmar och konceptdrift. Dataströmmarna som används för att utvärdera prestandan är SEA och Agrawal. Varje dataström testas i 3 olika konceptdriftkonfigurationer; gradvis, plötslig och återkommande. Resultaten som erhållits från de utförda experiment visar att anpassningsbara slumpmässiga skogar har bättre noggrannhet än Agrawal, vilket kan tolkas av antal dimensioner och strukturen av inmatningsattributen. Adaptiva slumpmässiga skogar visade dock ingen tydlig skillnad i noggrannhet mellan gradvisa och plötsliga konceptdrift. Emellertid hade återkommande konceptdrift lägre noggrannhet i riktmärken än både de plötsliga och gradvisa motstycken. Detta kan vara ett resultat av den högre frekvensen av konceptdrift inom samma tidsperiod (antal observerade prover).
Linusson, Henrik. "Multi-Output Random Forests." Thesis, Högskolan i Borås, Institutionen Handels- och IT-högskolan, 2013. http://urn.kb.se/resolve?urn=urn:nbn:se:hb:diva-17167.
Full textProgram: Magisterutbildning i informatik
Röhss, Josefine. "A Statistical Framework for Classification of Tumor Type from microRNA Data." Thesis, KTH, Matematisk statistik, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-191990.
Full textHepatocellulär cancer (HCC) är en typ av levercancer med mycket låg överlevnadsgrad, inte minst på grund av svårigheten att diagnosticera i ett tidigt skede. Syftet med det här projektet är att bygga en klassificeringsmodell med random forest, baserad på uttrycksprofiler av mikroRNA (och budbärar-RNA) från patienter med HCC. Målet är att kunna skilja mellan tumörprover och normala prover genom att mäta uttrycket av mikroRNA. Om detta mål uppnås kan metoden användas för att upptäcka HCC i ett tidigare skede och för att utveckla nya läkemedel. De mikroRNA och budbärar-RNA som har en signifikant skillnad i uttryck mellan prover från tumörvävnad och intilliggande normal vävnad väljs ut för att bygga klassificaringsmodeller med random forest. Dessa modeller testas sedan på parade prover av tumörvävnad och intilliggande vävnad från patienter med HCC. Resultaten visar att modeller som byggs med denna metod kan klassificera tumörprover och normala prover med hög noggrannhet. Det finns således stor potential för att använda uttrycksprofiler från mikroRNA och budbärar-RNA för att diagnosticera HCC.
Ringqvist, Sanna. "Classification of terrain using superpixel segmentation and supervised learning." Thesis, Linköpings universitet, Datorseende, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-112511.
Full textWålinder, Andreas. "Evaluation of logistic regression and random forest classification based on prediction accuracy and metadata analysis." Thesis, Linnéuniversitetet, Institutionen för matematik (MA), 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:lnu:diva-35126.
Full textPettersson, Anders. "High-Dimensional Classification Models with Applications to Email Targeting." Thesis, KTH, Matematisk statistik, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168203.
Full textFöretag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.
Halmann, Marju. "Email Mining Classifier : The empirical study on combining the topic modelling with Random Forest classification." Thesis, Högskolan i Skövde, Institutionen för informationsteknologi, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-14710.
Full textVerica, Weverton Rodrigo. "Mapeamento semiautomático por meio de padrão espectro-temporal de áreas agrícolas e alvos permanentes com evi/modis no Paraná." Universidade Estadual do Oeste do Paraná, 2018. http://tede.unioeste.br/handle/tede/3916.
Full textMade available in DSpace on 2018-09-06T19:38:50Z (GMT). No. of bitstreams: 2 Weverton_Verica2018.pdf: 4544186 bytes, checksum: 766200b4dea97433d3d88b08cbe3e548 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2018-02-16
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
Knowledge of location and quantity of areas for agriculture or either native or planted forests is relevant for public managers to make their decisions based on reliable data. In addition, part of ICMS revenues from the Municipal Participation Fund (FPM) depends on agricultural production data, number of rural properties and the environmental factor. The objective of this research was to design an objective and semiautomatic methodology to map agricultural areas and targets permanent, and later to identify areas of soybean, corn 1st and 2nd crops, winter crops, semi-perennial agriculture, forests and other permanent targets in the state of Paraná for the harvest years (2013/14 to 2016/17), using temporal series of EVI/Modis vegetation indexes. The proposed methodology follows the steps of the Knowledge Discovery Process in Database – KDD, in which the classification task was performed by the Random Forest algorithm. For the validation of the mappings, samples extracted from Landsat-8 images were used, obtaining the global accuracy indices greater than 84.37% and a kappa index ranging from 0.63 to 0.98, hence considered mappings with good or excellent spatial accuracy. The municipal data of the area of soybean, corn 1st crop, corn 2nd crop and winter crops mapped were confronted with the official statistics obtaining coefficients of linear correlation between 0.61 to 0.9, indicating moderate or strong correlation with the data officials. In this way, the proposed semi-automatic methodology was successful in the mapping, as well as the automation of the process of elaboration of the metrics, thus generating a script in the software R in order to facilitate future mappings with low processing time.
O conhecimento da localização e da quantidade de áreas destinadas a agricultura ou a florestas nativas ou plantadas é relevante para que os gestores públicos tomem suas decisões pautadas em dados fidedignos com a realidade. Além disto, parte das receitas de ICMS advindas do Fundo de Participação aos Municípios (FPM) depende de dados de produção agropecuária, número de propriedades rurais e fator ambiental. Diante disso, esta dissertação teve como objetivo elaborar uma metodologia objetiva e semiautomática para mapear áreas agrícolas e alvos permanente e posteriormente identificar áreas de soja, milho 1ª e 2ª safras, culturas de inverno, agricultura semi-perene, florestas e demais alvos permanentes no estado do Paraná para os anos-safra (2013/14 a 2016/17), utilizando séries temporais de índices de vegetação EVI/Modis. A metodologia proposta segue os passos do Processo de descoberta de conhecimento em base de dados – KDD, sendo que para isso foram elaboradas métricas extraídas do perfil espectro temporal de cada pixel e foi empregada a tarefa de classificação, realizada pelo algoritmo Random Forest. Para a validação dos mapeamentos utilizaram-se amostras extraídas de imagens Landsat-8, obtendo-se os índices de exatidão global maior que 84,37% e um índice kappa variando entre 0,63 e 0,98, sendo, portanto, considerados mapeamentos com boa ou excelente acurácia espacial. Os dados municipais da área de soja, milho 1ª safra, milho 2ª safra e culturas de inverno mapeada foram confrontados com as estatísticas oficiais obtendo-se coeficientes de correlação linear entre 0,61 a 0,9, indicando moderada ou forte correlação com os dados oficiais. Desse modo, a metodologia semiautomática proposta obteve êxito na realização do mapeamento, bem como a automatização do processo de elaboração das métricas, gerando, com isso um script no software R de maneira a facilitar mapeamentos futuros com baixo tempo de processamento.
Andersson, Ricky. "Classification of Video Traffic : An Evaluation of Video Traffic Classification using Random Forests and Gradient Boosted Trees." Thesis, Karlstads universitet, Fakulteten för hälsa, natur- och teknikvetenskap (from 2013), 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-55302.
Full textHITS, 4707
Lou, Yuxiang, and Filip Matz. "Optimizing Product Assortments with Unknown Historical Transaction Data Using Nonparametric Choice Modeling and Random Forest Classification." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-261636.
Full textProduktsortimentsoptimering är ett centralt problem för många företag som måste ta beslut om vilka produkter de ska lagerhålla för att maximera sin vinst. Att optimera produktsortiment brukar ofta innebära att träna valmodeller på historisk data. Detta blir ofta en fråga om att förstå konsumenters beteende. I denna uppsats presenteras en tvåstegs metod för att optimiera produktsortiment utan historisk data. I det första steget optimeras sortimentet med hjälp av en icke-parametrisk valmodell på liknande butiker där data finns tillgängligt. Sedan utvecklas Random Forest modellermed de optimerade sortimenten som träningsdata. Givna en rad parameterar kan dessa modeller generera optimala sortiment. Parametrarna som användes i Random Forest modellerna valdes baserat på konsumentteori and bestod av geografiska och finansiella parametrar så väl som parameterar som beskrev butikernas sammansättning. Datan som användes tillhandahölls av ett svenskt företag inom tryckbranschen som har över 1000 butiker och 2500 produkter i sitt sortiment. Resultaten som presenterades i denna uppsats visar att metoden presterar bättre än baslinjen i alla fall som studerades. Utöver detta, så beslutas det att geografiska parametrar är de viktigaste parametrarna för modelerna att ta beslut angående de optimala sortimenten.
Williams, Paige T. "Mapping Smallholder Forest Plantations in Andhra Pradesh, India using Multitemporal Harmonized Landsat Sentinel-2 S10 Data." Thesis, Virginia Tech, 2020. http://hdl.handle.net/10919/104234.
Full textThe objective of this study was to develop a method by which smallholder forest plantations can be mapped accurately in Andhra Pradesh, India using multitemporal (intra- and inter-annual) visible (red, green, blue) and near-infrared (VNIR) bands from the European Space Agency satellite Sentinel-2. Dependency on and scarcity of wood products have driven the deforestation and degradation of natural forests in Southeast Asia. At the same time, forest plantations have been established both within and outside of forests, with the latter (as contiguous blocks) being the focus of this study. The ecosystem services provided by natural forests are different from those of plantations. As such, being able to separate natural forests from plantations is important. Unfortunately, there are constraints to accurately mapping planted forests in Andhra Pradesh (and other similar landscapes in South and Southeast Asia) using remotely sensed data due to the plantations' small size (average 2 hectares), short rotation ages (often 4-7 years for timber species), and spectral (reflectance from satellite imagery) similarities to croplands and natural forests. The East and West Godavari districts of Andhra Pradesh were selected as the area for a case study. Cloud-free Harmonized Landsat Sentinel-2 (HLS) S10 images were acquired over six dates, from different seasons, as follows: December 28, 2015; November 22, 2016; November 2, 2017; December 22, 2017; March 1, 2018; and June 15, 2018. Cloud-free satellite data are not available during the monsoon season (July to September) in this coastal region. In situ data on forest plantations, provided by collaborators, was supplemented with additional training data points (X and Y locations with land cover class) representing other land cover subclasses in the region: agriculture, water, aquaculture, mangrove, palm, forest plantation, ground, natural forest, shrub/scrub, sand, and urban, with a total of 2,230 training points. These high-quality samples were then aggregated into three land use classes: non-forest, natural forest, and forest plantations. Image classification used random forests within the Julia DecisionTree package on a thirty-band stack that was comprised of the VNIR bands and NDVI (calculation related to greenness, i.e. higher value = more vegetation) images for all dates. The median classification accuracy from the 5-fold cross validation was 94.3%. Our results, predicated on high quality training data, demonstrate that (mostly smallholder) forest plantations can be separated from natural forests even using only the Sentinel 2 VNIR bands when multitemporal data (across both years and seasons) are used.
Sakouvogui, Kekoura. "Comparative Classification of Prostate Cancer Data using the Support Vector Machine, Random Forest, Dualks and k-Nearest Neighbours." Thesis, North Dakota State University, 2015. https://hdl.handle.net/10365/27698.
Full textMaginnity, Joseph D. "Comparing the Uses and Classification Accuracy of Logistic and Random Forest Models on an Adolescent Tobacco Use Dataset." The Ohio State University, 2020. http://rave.ohiolink.edu/etdc/view?acc_num=osu1586997693789325.
Full textShockey, Melissa Dawn. "Incorporating Climate Sensitivity for Southern Pine Species into the Forest Vegetation Simulator." Thesis, Virginia Tech, 2013. http://hdl.handle.net/10919/22031.
Full textMaster of Science
Arnroth, Lukas, and Dennis Jonni Fiddler. "Supervised Learning Techniques : A comparison of the Random Forest and the Support Vector Machine." Thesis, Uppsala universitet, Statistiska institutionen, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-274768.
Full textDaines, Kyle. "Fall Risk Classification for People with Lower Extremity Amputations Using Machine Learning and Smartphone Sensor Features from a 6-Minute Walk Test." Thesis, Université d'Ottawa / University of Ottawa, 2020. http://hdl.handle.net/10393/40948.
Full textFürderer, Niklas. "A Study of an Iterative User-Specific Human Activity Classification Approach." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-253802.
Full textSensorbaserad aktivitetsigenkänning använder sig av det senaste algoritmerna för detektion och klassificering av mänskliga vardagliga aktiviteter, både i uppoch frånkopplat läge. De insikter som genereras av algoritmerna kan i ett nästa steg användas inom en mängd nya applikationer inom områden så som säkerhet, träningmonitorering, platsangivelser, personifierade hälsoråd samt inom barnoch äldreomsorgen.För att en algoritm skall uppnå hög prestanda krävs en inte obetydlig mängd annoterad data, som med fördel härrör från den avsedda målgruppen. Dock är datainsamlingsprocessen kostnadsoch arbetsintensiv. Den kan dessutom även vara orimlig att genomföra för vissa specifika målgrupper, då åldrandet påverkar rörelsemönster och beteenden. En av de största utmaningarna inom detta område är att hitta de relevanta förändringar som sker över tid, samtidigt som man vill återanvända tidigare annoterad data. För att kunna skapa en korrekt bild av det individuella rörelsemönstret behövs därför individuella och adaptiva klassificeringsmodeller.Målet med detta examensarbete är att jämföra flera olika övervakade klassificerares (eng. supervised classifiers) prestanda när dem tränats med hjälp av ett iterativt användarspecifikt aktivitetsklassificeringsmetod, som beskrivs i denna rapport. En kvalitativ och kvantitativ datainsamlingsprocess tillämpades. Trädbaserade klassificeringsalgoritmerna Decision Tree, Random Forest samt XGBoost testades utifrån specifikt skapade dataset baserade på 21 volontärer, som delades in i tre grupper. Data är baserad på rörelsedata från armbandssensorer.Beräknat över samtlig data, ökade den genomsnittliga sensitiviteten med 5.2% (simulerad korsvalidering genom utelämna-en-individ) för algoritmer tränade via beskrivna metoden jämfört med slumpvis icke-iterativ träning.
Jabali, Aghyad, and Husein Abdelkadir Mohammedbrhan. "Tyre sound classification with machine learning." Thesis, Högskolan i Gävle, Datavetenskap, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:hig:diva-36209.
Full textLi, Sichu. "Application of Machine Learning Techniques for Real-time Classification of Sensor Array Data." ScholarWorks@UNO, 2009. http://scholarworks.uno.edu/td/913.
Full textVraštiak, Pavel. "Hledání anomálií v DNS provozu." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2012. http://www.nusl.cz/ntk/nusl-236506.
Full textAnkaräng, Marcus, and Jakob Kristiansson. "Comparison of Logistic Regression and an Explained Random Forest in the Domain of Creditworthiness Assessment." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-301907.
Full textI takt med att AI används allt oftare för att fatta beslut i samhället, har kravet på förklarbarhet ökat. En utmaning med flera moderna maskininlärningsmodeller är att de, på grund av sina komplexa strukturer, sällan ger tillgång till mänskligt förståeliga motiveringar. Forskning inom förklarar AI har lett fram till metoder som kan appliceras ovanpå icke- förklarbara modeller för att tolka deras beslutsgrunder. Det här arbetet syftar till att jämföra en icke- förklarbar maskininlärningsmodell i kombination med en förklaringsmetod, och en modell som är förklarbar genom sin struktur. Den icke- förklarbara modellen var random forest och förklaringsmetoden som användes var SHAP. Den förklarbara modellen var logistisk regression, som är förklarande genom sina vikter. Jämförelsen utfördes inom området kreditvärdighet och grundades i prediktiv prestanda och förklarbarhet. Vidare användes dessa modeller för att undersöka vilka egenskaper som var kännetecknande för låntagare som inte förväntades kunna betala tillbaka sitt lån. Jämförelsen visade att ingen av de båda metoderna presterande signifikant mycket bättre än den andra sett till prediktiv prestanda. Kännetecknande särdrag för dåliga låntagare skiljde sig åt mellan metoderna. Tre viktiga aspekter var låntagarens °ålder, vart denna bodde och huruvida personen ägde en hemtelefon. Gällande förklarbarheten framträdde flera fördelar med SHAP, däribland möjligheten att kunna producera både lokala och globala förklaringar. Vidare konstaterades att SHAP gör det möjligt att dra fördel av den höga prestandan som många moderna maskininlärningsmetoder uppvisar och samtidigt uppfylla dagens ökade krav på transparens.
Bouaziz, Ameni. "Méthodes d’apprentissage interactif pour la classification des messages courts." Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4039/document.
Full textAutomatic short text classification is more and more used nowadays in various applications like sentiment analysis or spam detection. Short texts like tweets or SMS are more challenging than traditional texts. Therefore, their classification is more difficult owing to their shortness, sparsity and lack of contextual information. We present two new approaches to improve short text classification. Our first approach is "Semantic Forest". The first step of this approach proposes a new enrichment method that uses an external source of enrichment built in advance. The idea is to transform a short text from few words to a larger text containing more information in order to improve its quality before building the classification model. Contrarily to the methods proposed in the literature, the second step of our approach does not use traditional learning algorithm but proposes a new one based on the semantic links among words in the Random Forest classifier. Our second contribution is "IGLM" (Interactive Generic Learning Method). It is a new interactive approach that recursively updates the classification model by considering the new data arriving over time and by leveraging the user intervention to correct misclassified data. An abstraction method is then combined with the update mechanism to improve short text quality. The experiments performed on these two methods show their efficiency and how they outperform traditional algorithms in short text classification. Finally, the last part of the thesis concerns a complete and argued comparative study of the two proposed methods taking into account various criteria such as accuracy, speed, etc
Yu, Jie. "Classification of Genotype and Age of Eyes Using RPE Cell Size and Shape." Digital Archive @ GSU, 2012. http://digitalarchive.gsu.edu/math_theses/118.
Full textHesping, Malena. "Remote sensing-based land cover classification and change detection using Sentinel-2 data and Random Forest : A case study of Rusinga Island, Kenya." Thesis, Linköpings universitet, Tema Miljöförändring, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-166749.
Full textÖrnbratt, Filip, Jonathan Isaksson, and Mario Willing. "A comparative study of social bot classification techniques." Thesis, Högskolan i Skövde, Institutionen för informationsteknologi, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16994.
Full textXia, Junshi. "Multiple classifier systems for the classification of hyperspectral data." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENT047/document.
Full textIn this thesis, we propose several new techniques for the classification of hyperspectral remote sensing images based on multiple classifier system (MCS). Our proposed framework introduces significant innovations with regards to previous approaches in the same field, many of which are mainly based on an individual algorithm. First, we propose to use Rotation Forests with several linear feature extraction and compared them with the traditional ensemble approaches, such as Bagging, Boosting, Random subspace and Random Forest. Second, the integration of the support vector machines (SVM) with Rotation subspace framework for context classification is investigated. SVM and Rotation subspace are two powerful tools for high-dimensional data classification. Therefore, combining them can further improve the classification performance. Third, we extend the work of Rotation Forests by incorporating local feature extraction technique and spatial contextual information with Markov random Field (MRF) to design robust spatial-spectral methods. Finally, we presented a new general framework, Random subspace ensemble, to train series of effective classifiers, including decision trees and extreme learning machine (ELM), with extended multi-attribute profiles (EMAPs) for classifying hyperspectral data. Six RS ensemble methods, including Random subspace with DT (RSDT), Random Forest (RF), Rotation Forest (RoF), Rotation Random Forest (RoRF), RS with ELM (RSELM) and Rotation subspace with ELM (RoELM), are constructed by the multiple base learners. The effectiveness of the proposed techniques is illustrated by comparing with state-of-the-art methods by using real hyperspectral data sets with different contexts
Braff, Pamela Hope. "Not All Biomass is Created Equal: An Assessment of Social and Biophysical Factors Constraining Wood Availability in Virginia." Thesis, Virginia Tech, 2014. http://hdl.handle.net/10919/63997.
Full textMaster of Science
Axén, Maja, and Jennifer Karlberg. "Binary Classification for Predicting Customer Churn." Thesis, Umeå universitet, Institutionen för matematik och matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-171892.
Full textAtt prediktera när en kund är påväg att vända sig till en konkurrent kan vara svårt, dock kan det visa sig extremt värdefullt ur ett affärsperspektiv. När en kund slutar vara kund benäms det ofta som kundbortfall eller ”churn”. Detta är ett ämne som är brett forskat på i flertalet olika industrier, men då ofta i situationer med prenumenationstjänster. När man inte har en prenumerationstjänst försvåras uppgiften att definera churn och existerande studier brister i att analysera detta. Denna uppsats kan därför ses som ett bidrag till nuvarande litteratur, i synnerhet i fall där ingen tydlig definition för churn existerar. En definition för churn, anpassad efter DIAKRIT och deras affärsstruktur har skapats i det här projektet. DIAKRIT är verksamma i fastighetsbranschen, en industri som har flera utmaningar, bland annat en extrem säsongsvariaton. För att genomföra prediktionerna användes tre olika maskininlärningamodeller: Logistisk Regression, Random Forest och Support Vector Machine. De variabler som användes är mestadels aktivitetsdata. Med relativt hög noggranhet och AUC-värde anses Random Forest vara mest pålitlig. Modellen kan dock inte separera mellan de två klasserna perfekt. Random Forest modellen visade sig också genera en hög precision. Därför kan slutsatsen dras att även om modellen inte är felfri verkar det som att kunderna predikterade som churn mest sannolikt kommer churna.
Dekrét, Lukáš. "Techniky klasifikace proteinů." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2020. http://www.nusl.cz/ntk/nusl-417215.
Full textSäfström, Stella. "Predicting the Unobserved : A statistical analysis of missing data techniques for binary classification." Thesis, Uppsala universitet, Statistiska institutionen, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-388581.
Full textAmlathe, Prakhar. "Standard Machine Learning Techniques in Audio Beehive Monitoring: Classification of Audio Samples with Logistic Regression, K-Nearest Neighbor, Random Forest and Support Vector Machine." DigitalCommons@USU, 2018. https://digitalcommons.usu.edu/etd/7050.
Full textBenacchio, Véronique. "Etude par imagerie in situ des processus biophysiques en milieu fluvial : éléments méthodologiques et applications." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE2056/document.
Full textRemote sensing is more and more used in river sciences, mainly using satellite and airborne imagery. Ground imagery constitutes a complementary tool which presents numerous advantages for the study of rivers. For example, it is easy to set up; costs are limited; it allows an oblique angle; etc. It also presents the possibility to set up the triggering with very high frequency, ranging, for instance, from a few seconds to a few hours. The possibility to monitor events at the instant they occur makes ground imagery extremely advantageous compared to aerial or spatial imagery (whose highest acquisition frequency corresponds to a few days). Such frequencies produce huge datasets, which require automated analyses. This is one of the challenges addressed in this thesis. Processing and analysis of data acquired at five study sites located in France and Québec, Canada, facilitated the evaluation of ground imagery potentials, as well as its limitations with respect to the study of fluvial systems. The identification of optimal conditions to set up the cameras and to acquire images is the first step of a global approach, presented as a chain of optional modules. Each one is to be taken into account according to the objectives of the study. The extraction of radiometric information and the subsequent statistical analysis of the signal were tested in several situations. In particular, random forests were applied, as a supervised object-oriented classification method. The datasets were principally exploited using high frequency time series analyses, which allowed demonstrating strengths and weaknesses of this approach, as well as some potential applications. Ground imagery is a powerful tool to monitor fluvial systems, as it facilitates the definition of various kinds of time characteristics linked with fluvial biophysical processes. However, it is necessary to optimize the quality of the data produced. In particular, it is necessary to minimize the acquisition angle and to limit the variability of luminosity conditions between shots in order to acquire fully exploitable datasets
Ankaräng, Fredrik, and Fabian Waldner. "Evaluating Random Forest and a Long Short-Term Memory in Classifying a Given Sentence as a Question or Non-Question." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-262209.
Full textSpråkteknologi och textklassificering är vetenskapliga områden som tillägnats mycket uppmärksamhet av forskare inom maskininlärning. Nya metoder och modeller presenteras årligen, men mindre fokus riktas på att jämföra modeller av olika karaktär. Den här uppsatsen jämför Random Forest med ett Long Short-Term Memory neuralt nätverk genom att undersöka hur väl modellerna klassificerar meningar som frågor eller icke-frågor, utan att ta hänsyn till skiljetecken. Modellerna tränades och optimerades på användardata från ett svenskt försäkringsbolag, samt kommentarer från nyhetsartiklar. Resultaten visade att LSTM-modellen presterade bättre än Random Forest. Skillnaden var dock liten, vilket innebär att Random Forest fortfarande kan vara ett bättre alternativ i vissa situationer tack vare dess enkelhet. Modellernas prestanda förbättrades inte avsevärt efter hyperparameteroptimering. En litteraturstudie genomfördes även med målsättning att undersöka hur arbetsuppgifter inom kundsupport kan automatiseras genom införandet av en chatbot, samt vilka funktioner som bör prioriteras av ledningen inför en sådan implementation. Resultaten av studien visade att en data-driven approach var att föredra, där funktionaliteten bestämdes av användarnas och organisationens specifika behov. Tre funktioner var dock tillräckligt generella för att presenteras personligheten av chatboten, dess trovärdighet och i vilket steg av värdekedjan den implementeras.
Victors, Mason Lemoyne. "A Classification Tool for Predictive Data Analysis in Healthcare." BYU ScholarsArchive, 2013. https://scholarsarchive.byu.edu/etd/5639.
Full textLood, Olof. "Prediktering av grundvattennivåi område utan grundvattenrör : Modellering i ArcGIS Pro och undersökningav olika miljövariablers betydelse." Thesis, Uppsala universitet, Institutionen för geovetenskaper, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-448020.
Full textThe Swedish authority Geological Survey of Sweden (SGU) has a national responsibility to oversee the groundwater levels. A national network of measurement stations has been established to facilitate this. The density of measurement stations varies considerably. Since it will never be feasible to cover the entire country with measurement stations, the groundwater levels need to be computed in areas that are not in the near vicinity of a measurement station. For that reason, it is of interest to investigate the correlation between the groundwater levels and selected geographical information, so called environmental variables. In the future, SGU may use machine learning to compute the groundwater levels. The focus of this master's thesis is to study the importance of the environmental variables and model uncertainties in order to determine if this is a feasible option for implementation on a national basis. The study uses data from seven areas of the Groundwater network of SGU, where the measuring stations are in clusters. The pilot study uses a supervised machine learning method which in this case means that the median groundwater levels and the environmental variables train the models. By evaluating the model's statistical data output the performance can gradually be improved. The algorithm used is called “Random Forest” and uses a classification and regression tree to learn how to make decisions throughout a network of nodes, branches and leaves due to the input data. The models are set up by the prediction tool “Forest-based Classification and Regression” in ArcGIS Pro. Because the areas are geographically spread out, eight unique models are set up. The results show that it’s possible to predict groundwater levels by using this method but that the importance of the environmental variables varies between the different areas used in this study. The cause of this may be due to geographical and topographical differences. Most often, the absolute level over mean sea level and slope direction are the most important variables. Planar and height distance differences to low and high permeable soils have medium high importance while the distance differences to medium high permeable soils have lower importance. Planar and height distance differences are more important to lakes and large watercourses than to small watercourses and ditches. The model’s r2-values are slightly low in theory but within reasonable limits to be a hydrological model. The Standard Errors Estimate (SSE) are also in most cases within reasonable limits. The uncertainty is displayed by a 90 % confidence interval. The uncertainties increase with increased distance to measuring stations and become greatest at high altitude. The cause of this may be due to having too few observations, especially in areas with high altitude. The uncertainties are smaller close to the stations and in valleys.
SGUs grundvattennät
Ekman, Björn. "Machine Learning for Beam Based Mobility Optimization in NR." Thesis, Linköpings universitet, Kommunikationssystem, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-136489.
Full textWirgen, Isak, and Douglas Rube. "Supervised fraud detection of mobile money transactions on different distributions of imbalanced data : A comparative study of the classification methods logistic regression, random forest, and support vector machine." Thesis, Uppsala universitet, Statistiska institutionen, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-446108.
Full textLi, Mao Li. "Spatial-temporal classification enhancement via 3-D iterative filtering for multi-temporal Very-High-Resolution satellite images." The Ohio State University, 2018. http://rave.ohiolink.edu/etdc/view?acc_num=osu1514939565470669.
Full textStříteský, Radek. "Sémantické rozpoznávání komentářů na webu." Master's thesis, Vysoké učení technické v Brně. Fakulta elektrotechniky a komunikačních technologií, 2017. http://www.nusl.cz/ntk/nusl-317212.
Full textConsuegra, Rengifo Nathan Adolfo. "Detection and Classification of Anomalies in Road Traffic using Spark Streaming." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-238733.
Full textVägtrafikkontroll har funnits länge för att garantera säkerheten hos fordon och fotgängare. Emellertid kan avvikelser som olyckor eller naturkatastrofer inte undvikas. Därför är det viktigt att förberedas så snart som möjligt för att förhindra ett större antal mänskliga förluster. Ändå finns det inget system som är noggrannt som upptäcker och klassificerar avvikelser från vägtrafiken i realtid. För att lösa detta problem föreslår följande studie utbildningen av en maskininlärningsmodell för detektering och klassificering av anomalier på Stockholms vägar. På grund av bristen på en märkt dataset är den första fasen av arbetet att upptäcka olika slags avvikare som kan hittas och manuellt märka dem utifrån resultaten av en datautforskningsstudie. Dataset som innehåller information om olyckor och väder ingår också för att ytterligare öka antalet anomalier. Alla experiment använder realtidsdataset från antingen sensorerna på Stockholms vägar eller från officiella olyckor och väderrapporter. Därefter utbildas tre modeller (beslutsträd, slumpmässig skog och logistisk regression) för att upptäcka och klassificera outliersna. Utformningen av en Apache Spark streaming-applikation som använder modellen med de bästa resultaten ges också. Resultaten tyder på att logistisk regression är bättre än resten men fortfarande lider av datasetets obalanserade natur. I framtiden kan detta projekt användas för att inte bara bidra till framtida forskning kring liknande ämnen utan även att övervaka Stockholms vägar.
dos, Santos Toledo Busarello Mariana. "Machine Learning Applied to Reach Classification in a Northern Sweden Catchment." Thesis, Umeå universitet, Institutionen för ekologi, miljö och geovetenskap, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-184140.
Full textAndrade, Priscilla Valessa de Castro. "O que h? por tr?s das diferen?as individuais? Perfis comportamentais e fisiol?gicos em Betta splendens." PROGRAMA DE P?S-GRADUA??O EM PSICOBIOLOGIA, 2017. https://repositorio.ufrn.br/jspui/handle/123456789/23842.
Full textApproved for entry into archive by Arlan Eloi Leite Silva (eloihistoriador@yahoo.com.br) on 2017-09-12T19:30:23Z (GMT) No. of bitstreams: 1 PriscillaValessaDeCastroAndrade_DISSERT.pdf: 1841839 bytes, checksum: 3fb757eaa049425550138768d7d96f9b (MD5)
Made available in DSpace on 2017-09-12T19:30:23Z (GMT). No. of bitstreams: 1 PriscillaValessaDeCastroAndrade_DISSERT.pdf: 1841839 bytes, checksum: 3fb757eaa049425550138768d7d96f9b (MD5) Previous issue date: 2017-04-28
De acordo com as mudan?as ambientais, os indiv?duos apresentam diferentes estrat?gias para lidar com os variados est?mulos externos. Os diferentes comportamentos compreendem os diferentes fen?tipos que comp?em uma popula??o. Essas diferen?as podem ser explicadas por altera??es end?genas, como a secre??o hormonal. Por exemplo, os horm?nios modulam comportamentos reprodutivos e processos cognitivos. Com o objetivo de caracterizar as diferen?as individuais em uma popula??o, o presente estudo teve como objetivo testar a rela??o entre os perfis comportamental e hormonal em um grupo de machos lutando peixes, Betta splendens. Um grupo de 86 machos foi observado para constru??o de ninho de bolha, exposi??es agon?sticas em competi??es coespec?ficas e desempenho em um protocolo de aprendizagem espacial. Depois disso, mediram-se os n?veis plasm?ticos de cortisol e testosterona. Um procedimento estat?stico inovador e elegante foi aplicado ao conjunto de dados para separar animais em grupos relacionados ao seu comportamento de constru??o de ninhos (teste de m?dias de k) e depois mostrar quais os par?metros comportamentais e fisiol?gicos que melhor explicam os perfis dos grupos (Random Forest and Classification Tree). Nossos resultados apontam para tr?s perfis distintos: construtores de ninhos (ninhos de 30,74 ? 9,84 cm?), intermedi?rios (ninhos de 13,57 ? 4,23 cm?) e n?o-construtores (ninhos de 2,17 ? 2,25 cm?). Estes grupos apresentaram diferen?as nos comportamentos agon?stico e de aprendizagem, bem como nos n?veis hormonais. O cortisol foi o principal preditor apontado pelo teste Random Forest para a separa??o de indiv?duos nos diferentes grupos: construtores de ninhos e intermedi?rios apresentaram n?veis mais baixos de cortisol, enquanto os n?o-construtores apresentaram os maiores valores de cortisol basal. O segundo mais importante preditor foi o desempenho de aprendizagem, que separou os animais intermedi?rios dos construtores de ninhos (aqueles que aprenderam mais r?pido), seguidos pelos n?veis basais de testosterona e comportamentos agon?sticos. Enquanto os n?veis de testosterona n?o foram significativos para explicar as diferen?as comportamentais, parece estar relacionado com o perfil de constru??o. Nosso achado mostra que diferentes perfis investem de forma diferente na reprodu??o e que o cortisol influencia negativamente o comportamento e a aprendizagem do nidifica??o. Em resumo, nossos dados sugerem que diferentes perfis em uma popula??o s?o determinados por respostas hormonais e comportamentais, e essas diferen?as conferem flexibilidade ? popula??o, permitindo a presen?a de animais que investem mais na reprodu??o enquanto outros mostram defesa e agress?o como a dominante caracter?stica expressa.
According to environmental changes, the individuals show different strategies to coping with the varied external stimuli. The different responders comprise the different phenotypes that compose a population. These differences can be explained by endogenous changes, such as hormonal secretion. For instance, hormones modulate reproductive behaviors and cognitive processes. In order to characterize individual differences in a population, the present study aimed to testing the relationship between behavioral and hormonal profiles in a group of males Fighting fish, Betta splendens. A group of 86 males were observed for bubble nest construction, agonistic displays in conspecific contests and performance in a spatial learning protocol. After that, cortisol and testosterone plasma levels were measured. An innovative and stylish statistical procedure was applied to the data set in order to separate animal in groups related to its nest building behavior (k-means test) and then shown which behavioral and physiological parameters better explain the groups? profiles (Random forest and Classification tree). Our results point to three distinct profiles: nest builders (nests of 30.74 ? 9.84 cm?), intermediates (nests of 13.57 ? 4.23 cm?) and non-builders (nests of 2.17 ? 2.25 cm?). These groups presented marked different in agonistic and learning behavior, as well as hormone levels. Cortisol was the main predictor prepared by the Random Forest test for the separation of individuals in the different groups: nest builders and intermediates showed lower levels of cortisol while non-builders presented the highest basal cortisol values. The second most important predictor was learning performance, that separated animals from the intermediate from the nest builders (faster learners), followed by basal testosterone levels and agonistic behavior displays. While the testosterone levels were not significant to explain behavioral differences, it seems to be related to the construction profile. Our finding shows that different profiles invest differently in reproduction and that cortisol negatively influences nesting behavior and learning. In summary, our data suggest that different profiles in a population are determined by both hormonal and behavioral responses, and these differences confer flexibility to the population, allowing the presence of animals that invest the most in reproduction while other show defense and aggression as the dominant feature expressed.
Mordini, Michael B. "GULF OF MAINE LAND COVER AND LAND USE CHANGE ANALYSIS UTILIZING RANDOM FOREST CLASSIFICATION: TO BE USED IN HYDROLOGICAL AND ECOLOGICAL MODELING OF TERRESTRIAL CARBON EXPORT TO THE GULF OF MAINE VIA RIVERINE SYSTEMS." Miami University / OhioLINK, 2013. http://rave.ohiolink.edu/etdc/view?acc_num=miami1375801345.
Full textHe, Juan Xia. "Assessing and Improving Methods for the Effective Use of Landsat Imagery for Classification and Change Detection in Remote Canadian Regions." Thesis, Université d'Ottawa / University of Ottawa, 2016. http://hdl.handle.net/10393/34221.
Full textTrahan, Patrick. "Classification of Carpiodes Using Fourier Descriptors: A Content Based Image Retrieval Approach." ScholarWorks@UNO, 2009. http://scholarworks.uno.edu/td/1085.
Full textWoods, Tonya M. "Extracting meaningful statistics for the characterization and classification of biological, medical, and financial data." Diss., Georgia Institute of Technology, 2015. http://hdl.handle.net/1853/53857.
Full textXiong, Kuangnan. "Roughened Random Forests for Binary Classification." Thesis, State University of New York at Albany, 2014. http://pqdtopen.proquest.com/#viewpdf?dispub=3624962.
Full textBinary classification plays an important role in many decision-making processes. Random forests can build a strong ensemble classifier by combining weaker classification trees that are de-correlated. The strength and correlation among individual classification trees are the key factors that contribute to the ensemble performance of random forests. We propose roughened random forests, a new set of tools which show further improvement over random forests in binary classification. Roughened random forests modify the original dataset for each classification tree and further reduce the correlation among individual classification trees. This data modification process is composed of artificially imposing missing data that are missing completely at random and subsequent missing data imputation.
Through this dissertation we aim to answer a few important questions in building roughened random forests: (1) What is the ideal rate of missing data to impose on the original dataset? (2) Should we impose missing data on both the training and testing datasets, or only on the training dataset? (3) What are the best missing data imputation methods to use in roughened random forests? (4) Do roughened random forests share the same ideal number of covariates selected at each tree node as the original random forests? (5) Can roughened random forests be used in medium- to high- dimensional datasets?