Dissertations / Theses: 'Logistisk regression'

1

Widman, Linnea. "Regression då data utgörs av urval av ranger." Thesis, Umeå universitet, Institutionen för matematik och matematisk statistik, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-60664.

Full text

Abstract:

För alpina skidåkare mäter man prestationer i så kallad FIS-ranking. Vi undersöker några metoder för hur man kan analysera data där responsen består av ranger som dessa. Vid situationer då responsdata utgörs av urval av ranger finns ingen självklar analysmetod. Det vi undersöker är skillnaderna vid användandet av olika regressionsanpassningar så som linjär, logistisk och ordinal logistisk regression för att analysera data av denna typ. Vidare används bootstrap för att bilda konfidensintervall. Det visar sig att för våra datamaterial ger metoderna liknande resultat när det gäller att hitta betydelsefulla förklarande variabler. Man kan därmed utgående från denna undersökning, inte se några skäl till varför man ska använda de mer avancerade modellerna.
Alpine skiers measure their performance in FIS ranking. We will investigate some methods on how to analyze data where response data is based on ranks like this. In situations where response data is based on ranks there is no obvious method of analysis. Here, we examine differences in the use of linear, logistic and ordinal logistic regression to analyze data of this type. Bootstrap is used to make confidence intervals. For our data these methods give similar results when it comes to finding important explanatory variables. Based on this survey we cannot see any reason why one should use the more advanced models.

APA, Harvard, Vancouver, ISO, and other styles

2

Klockare, Mikael. "Logit, oddskvot och sannolikhet : En analys av multinomial logistisk regression." Thesis, Karlstads universitet, Avdelningen för nationalekonomi och statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-74575.

Full text

Abstract:

Den här uppsatsen inleds med att studera de moment som används för multinomial logistisk regression och hur resultaten mäts. Teorin tar sin avsats i den binomiala logistiska regression, för att stegvis ta sig vidare till den multinomiala logistiska regressionen. Begreppen logit, oddskvoten och sannolikheterna förtydligas, effekterna av de oberoende variablerna diskuteras och kopplingen till vanlig linjär regression åskådliggörs. Det blir även en fördjupning av matematiken bakom den logistiska funktionen. Därefter tillämpas den multinomial logistisk regressionsanalysen med ett praktiskt exempel. Analysmodellen är användbar inom flertalet områden och den här uppsatsen ligger inom ramen för sportanalys. Matchstatistik från ishockey och närmare bestämt Örebro Hockeys matcher från säsongerna 2012/13 till 2017/18 nyttjas och den slutgiltiga modellen använder sig av tre förklarande variabler. Resultatet visar att utfallet efter ordinarie tid kan förklaras till 60,9% med hjälp av matchstatistiken, vilket tyder på att den multinomiala regressionsmodellen presterar likvärdigt med andra metoder som tillämpar kategorisk dataanalys inom sportanalys.
This thesis starts by studying the multinomial logistic regression and its moments and how the results are measured. The theory begins with the binomial logistics regression and gradually moves on towards the multinomial logistics regression. Concepts as logit, odds ratio and probabilities are explained, the effects of the independent variables discussed and the link to ordinary linear regression is illustrated. There will also be a deeper, mathematical look at the function of logistic growth. Thereafter the multinomial logistic regression model will be applied. The model is useful within several domains and this thesis lies within sportsanalytics. For this thesis matchstatistics from ice hockey, that is Örebro Hockey’s matches from season 2012/13 to 2017/18, has been used and the final model has three exploratory variables. The outcome of the result performs equivalent to other methods, which applies categorical data analysis within sportsanalytics.

APA, Harvard, Vancouver, ISO, and other styles

3

Olsson, Henrik. "Upphandling av måltidsverksamhet inom äldreomsorgen : En logistisk regressionsanalys." Thesis, Uppsala universitet, Statistiska institutionen, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-275733.

Full text

Abstract:

Studien syftar till att besvara vad som definierar kommuner som upphandlar måltidsverksamheten inom äldreomsorgen. Detta genomförs med hjälp av den statistiska metoden logistisk regression. Syftet med studien är att klargöra vilka variabler som har påverkan för händelsen upphandling och hur de förhåller sig. En enkätundersökning genomförd 2013 låg till grund för analysen, där oberoende variabler valdes ut inom kategorierna lokala förutsättningar, kvalitet och lokalt politiskt styre. Resultatet tyder på att Moderaternas resultat i kommunvalet 2010 samt stor kommun jämfört med liten kommun har en statistiskt signifikant påverkan på händelsen upphandling.

APA, Harvard, Vancouver, ISO, and other styles

4

Marklund, Per. "Alpin permafrost i Kebnekaisefjällen : Modellering med logistisk regression och BTS-data." Thesis, Uppsala universitet, Luft-, vatten och landskapslära, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-174485.

Full text

Abstract:

Denna studie är ett försök att modellera den alpina permafrostens utbredning inom Kebnekaisemassivet i norra Lappland. En karta som visar sannolikheten för permafrostens utbredning har skapats med hjälp av data från Bottom Temperature of Snow cover (BTS) - mätningar samt statistisk modellering genom logistisk regression. Fältstudien genomfördes under mars till april 2011 med totalt 56 BTS-punkter från 1073 till 1805 m.ö.h. Permafrostförekomsten bestämdes vara en funktion av höjden. För att utreda detta användes stepwise selection som är en metod för att identifiera statistiskt signifikanta variabler gentemot en beroende variabel. De andra parametrarna som testades var topografins sluttningsgradient, riktningen av den maximala lutningen och den potentiella solinstrålningen. Dessa parametrars inverkan på permafrostförekomsten ansågs vara försumbara, och de bortsågs därför från i modelleringen. Modelleringen indikerar att permafrost med sannolikhet större än 0,8 existerar över 1190 m.ö.h, och med sannolikhet mellan 0,8 till 0,5 finns mellan 1190 till 1144 m.ö.h. Eftersom fältstudien är begränsad till Tarfaladalen så är modelleringens förutsägelse för förekomsten av permafrost i andra delar av fjällmassivet mera osäkert.
This study presents an attempt to model the limits of mountain permafrost distribution within the Kebnekaise massif in northern Sweden. A map showing the probabilities for the mountain permafrost distribution has been created using statistical modelling through logistic regression of Bottom Temperature of Snow cover (BTS) measurements. The survey was conducted in March to April 2011 with a total of 56 BTS-point measurements stretching from 1073 to 1805 m.a.s.l. Permafrost occurrence was determined to be a function of altitude. This was determined by a stepwise selection analysis, a method used for identifying parameters with a statistical significance against a dependent variable. The other parameters that were tested for significance were the slope and aspect of the topography, and the potential incoming solar radiation. Although these might have an influence on the permafrost occurrence, they were considered to be of less importance and were thus neglected in the modelling. The model indicates permafrost with greater than 0,8 probability at and above 1190 m.a.s.l, and with probability from 0,8 to 0,5 between 1190 to 1144 m.a.s.l. Since the survey was carried in the Tarfala valley, the result of the modelling is more uncertain in the parts of the area which lie outside of this valley.

APA, Harvard, Vancouver, ISO, and other styles

5

Vesterlund, Sebastian, and Jens Svensson. "Illusionen om frihet : Det nya arbetslivet och dess fängslande egenskaper." Thesis, Södertörns högskola, Institutionen för samhällsvetenskaper, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:sh:diva-18157.

Full text

Abstract:

Syftet med denna uppsats är att undersöka hur olika aspekter av arbetslivet påverkar individen. Vår utgångspunkt i denna uppsats är att vi ställer oss kritiska till arbeten med högt självbestämmande som blir allt mer vanligt. Till vår hjälp har vi en mängd tidigare forskning samt kritisk teori och Foucaults teori om makt och övervakning som guidar oss i genom forskningsprocessen. Urvalet är baserat på tidigare statistik framtaget av ESS, som består av ett samarbete mellan 24 europeiska länder. Uppsatsen testar hur olika aspekter av arbetslivet påverkar gränsdragningen mellan arbete och fritid. Resultaten visar att ju högre grad av självbestämmande individen har i sitt arbete, desto mindre missnöjd är hon med tidsfördelning mellan arbete och fritid samt att en högre grad av självbestämmande även tenderar att skapa en oro hos individen på hennes fritid över arbetsrelaterade problem. Vår slutsats är att det finns goda skäl att vara uppmärksam på vad detta alltmer vanliga arbetssätt kan ställa till med för individen.
The purpose of this paper is to explore how different aspects of working life affect the individual. Our starting point in this paper is that we are critical of jobs with high autonomy that is becoming increasingly common. To assist us, we have a lot of previous research as well as critical theory and Foucault’s theory about power and surveillance that guides us through the research process. The selection is based on previous statistics produced by the ESS, which consists of a collaboration between 24 European countries. The essay test different aspects of paid work and its affect on work-life balance. The results show that the higher the degree of autonomy the individual has in his/her work, the less dissatisfied he/she is with time spent between work and leisure. A higher degree of autonomy does in fact lead to the individual worrying about work-related problems in his/her leisure time. Our conclusion is that there are good reasons to pay attention to what this increasingly common tendency can affect the individual.

APA, Harvard, Vancouver, ISO, and other styles

6

Alic, Almedina, and Caroline Emilsson. "Att modellera utfallen i en fotbollsmatch: med multinomial respektive ordinal logistisk regression." Thesis, KTH, Matematisk statistik, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-188983.

Full text

Abstract:

I detta arbete undersöks hur bra prediktionsförmåga som uppnås då multinomial och ordinal logistisk regression tillämpas för att modellera respektive utfall 1X2 i fotbollsmatcher. De två modellerna har använts i jämförande syfte, där den multinomiala logistiska modellen behandlar utfallen som nominala och den ordinala behandlar dem som ordnade, 1 > X > 2. Matchens utfall påverkas av kvantitativa förklaringsvariabler, baserade på data från Premier League 2015/206, som beskriver lagens form och prestation. Prediktionsmåttet för den multinomiala modellen är 53.4 % och för den ordinala modellen är den 43.8 %. Vidare har de flesta förklaringsvariabler låga och oväntade effekter. Slutsatsen är att modellering med enbart historisk data är en bra grund, men lämnar utrymme åt förbättring. I framtida undersökningar rekommenderas att utöka antal observationer, använda testdata som skiljer sig från utgångsdatan samt att undersöka om målskillnad som responsvariabel genererar ett bättre prediktionsmått. Den matematiska undersökningen kompletteras med en industriell ekonomisk tillämpning i form av en branschanalys med Porters femkraftsmodell, samt förslag på etableringsstrategier med fokus på marknadsföring för nya aktörer. På grund av det svenska spelmonopolet begränsas konkurrensen av inhemska aktörer, men de utländska nätaktörerna ökar sina marknadsandelar. En ny nätaktör måste således använda digitala distributionskanaler för att nå den svenska spelmarknaden. De svenska spelkonsumenterna är priskänsliga, varför en transaktionsmarknadsföring med fokus på 4P, framför allt pris, är att föredra gentemot dessa.
This study examines how well multinomial and ordinal logistic regressions predict the outcome of football games. The two models have been used for comparison, since the multinomial logistic model treats the outcome as nominal while the ordinal model treats the outcome as ordered variables, 1 > X > 2. The outcome of the game is affected by quantitative explanatory variables, based on data from Premier League 2015/2016, which describe the teams form and performance. The multinomial model has a prediction measure of 53.4 % and the ordinal model has a prediction measure of 43.8 %. Furthermore, most of the explanatory variables have small and unexpected influence. The conclusion is that modeling with solely historical data is a good basis, but can be improved. In future research the number of observations should be increased and the model should be tested on data different from the one used to develop the model. Furthermore, the goal difference could be used as the response variable, to examine if the prediction measure improves. The mathematical study is completed with an industrial management approach, which consists of an analysis of the betting industry with Porters Five Forces and suggestions of establishment strategies with focus on marketing. Because of the Swedish gambling monopoly, the competition from local operators is limited, but foreign network operators increase their market shares. A new foreign network operator must thus use digital distribution channels to reach the Swedish betting market. The Swedish consumer is price sensitive, why transaction marketing with focus on 4P, above all price, is preferable towards these.

APA, Harvard, Vancouver, ISO, and other styles

7

Altersved, Sofia, and Elin Mäkelä. "Vaccinering mot H1N1 : En studie av vad som påverkade svenska individers vaccinationsbeslut 2009." Thesis, Karlstads universitet, Fakulteten för ekonomi, kommunikation och IT, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-14512.

Full text

Abstract:

The Swine flu (H1N1) erupted in 2009 and wasquickly spread over the world and developed into a pandemic, with a great threat against people’s health. It was soon discovered that the H1N1–virus had a different character than the seasonal flu, since it especially affected younger individuals and the consequences from the disease were expected to be more severe. In Sweden it was decided to provide a free of charge vaccination against the H1N1-virus, and the Swedish vaccination ratiobecome relatively high compared to other countries. This thesis studies what factors affected the Swedish population´s decision to take the flu shot against the H1N1-virus in 2009. This is done by a statistical study with a logistic regression analysis, which is conducted on secondary data. The results show that the probability of vaccination against H1N1 increases if the individual is over 60 years, and increases with growing income. The results also show that women have a higher vaccination propensity than men. In contrast, there’s no association between vaccination against H1N1 and the level of health or education level. As the results were not entirely consistent in comparison with theories and previous studies, it can be concluded that it is difficult to determine how different factors actually affected the individuals’ vaccination decision against H1N1. Possibly,it depends on the specific and extreme circumstances with regard to H1N1. Therefore, it may be difficult to predict how individuals will behave in the case of future pandemics.
Svininfluensan (H1N1) bröt ut 2009 och spred sig snabbt över flera länder i världen med utveckling till en pandemi, vilket utgjorde ett stort hot mot människors hälsa. Det konstaterades snart att H1N1 var av en annan karaktär än säsongsinfluensan, då den framförallt drabbade yngre individer och konsekvenserna av sjukdomen förväntades vara allvarligare. I Sverige beslutades att befolkningen skulle erbjudas en kostnadsfri vaccinering och den svenska vaccinationstäckningsgraden blev relativt hög i jämförelse med många andra länder. Denna uppsats undersöker vilka faktorer som påverkade svenska befolkningens beslut om vaccinering mot svininfluensan under 2009. Detta görs genom en statistisk undersökning i form av en logistisk regressionsanalys som utförs på sekundärdata. Resultaten visar att sannolikheten för vaccinering mot H1N1 ökar om individen är över 60 år, samt ökar med en stigande inkomst. Resultaten visar också att kvinnor har högre benägenhet att vaccinera sig än män. Däremot förekommer inget samband mellan hälsonivå eller utbildning och vaccinering mot H1N1. Då resultaten inte var helt konsistenta i jämförelse med teorier och tidigare studier, kan konstateras att det är svårt att fastställa hur olika faktorer påverkade individers vaccinationsbeslut mot H1N1. Möjligtvis kan detta bero på de särskilda och extrema omständigheter som rörde H1N1. Utifrån detta kan det bli svårt att förutse hur individer kommer resonera och agera inför eventuella framtida pandemier.

APA, Harvard, Vancouver, ISO, and other styles

8

Strandqvist, Ida, and Louise Yxenholt. "Informell äldreomsorg : En studie om vad som påverkar svenska individens informella omsorgsgivande av äldre närstående." Thesis, Karlstads universitet, Handelshögskolan, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:kau:diva-32446.

Full text

Abstract:

Med formell omsorg menas offentlig vård- och omsorgsinsatser som oftast kommuner, landsting eller privaträttsliga företag på entreprenad utför. Med informell omsorg menar man anhörigomsorg som motsvarar insatser vid långvariga hjälpbehov och frivilliga insatser som innebär oavlönade arbetsuppgifter som man själv väljer att göra. Denna uppsats undersöker ifall variablerna kön, ålder, utbildning, anställning, inkomst, bostadsort samt barn i hemmet kan associeras med svenska individers utförande av informell omsorg av föräldrar eller svärföräldrar. Resultatet visar att om man har en hög utbildning så minskar sannolikheten för att man utför informell omsorg på sina föräldrar/svärföräldrar. Något som också minskar sannolikheten är om du har fler än ett barn under 18 år i hemmet, vilket kan ses som logiskt då barn kräver mycket tid. Något som istället ökar sannolikheten för att man utför informell omsorg är om man är anställd eller om man är i åldern 31-80 år. Undersökningen visar också att kön spelar roll då det framgick att kvinnor i större utsträckning utför informell omsorg. Resultaten stämmer inte helt överens med tidigare teorier och uppfattningar, vilket gör att vi kan konstatera att det är svårt att fastställa hur olika faktorer påverkar informell omsorg.
Formal care refers to public health and social care interventions that usually municipal, county or private sector company on contract performs. Informal care includes care provided by relatives that corresponds action when long-term assistance is needed and volunteer efforts involving unpaid duties that they themselves choose to do. This paper examines whether the variables gender, age, education, employment, income, place of residence and children in the home may be associated with Swedish individuals performing informal care by parents or in-laws. The result shows that if you have a high level of education the probability of performing informal care for their parents / in-laws decreases. Something that also reduces the probability is if you have more than one child under 18 at home, which can be seen as logical since children require much time. Something that instead increases the probability of performing informal care is if you are employed or if you are aged 31-80 years. The survey also shows that gender matters since it appeared that more women performing informal care. The results are not entirely consistent with previous theories and concepts, which enables us to conclude that it is difficult to determine how various factors affect the informal care.

APA, Harvard, Vancouver, ISO, and other styles

9

Alnervik, Jonna, and Andersson Peter Nord. "En retrospektiv studie av vilka patientgrupper som erhåller insulinpump." Thesis, Linköping University, Statistics, 2010. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-59044.

Full text

Abstract:

Målsättning

Att utreda skillnader i tillgänglighet till insulinpump mellan olika patientgrupper samt vad som orsakar ett byte till insulinpump.

Metod

Data från 7224 individer med typ 1 diabetes vid tio olika vårdenheter analyserades för att utreda effekterna av njurfunktion, kön, långtidsblodsocker, insulindos, diabetesduration samt ålder. Jämförelsen mellan patientgrupper utfördes med logistisk regression som en tvärsnittsstudie och Cox-regression för att utreda vad som föregått ett byte till pump.

Resultat

Genom logistisk regression erhölls en bild av hur skillnader mellan patienter som använder insulinpump och patienter som inte gör det ser ut i dagsläget. Cox-regressionen tar med ett tidsperspektiv och ger på så sätt svar på vad som föregått ett byte till insulinpump. Dessa analyser gav liknande resultat gällande variabler konstanta över tiden. Kvinnor använder pump i större utsträckning än män och andelen pumpanvändare skiljer sig åt vid olika vårdenheter. I dagsläget visar sig hög ålder sänka sannolikheten att använda insulinpump, vilket bekräftas vid den tidsberoende studien som visade hur sannolikheten att byta till pump är avsevärt lägre vid hög ålder. Långtidsblodsockret har också tydlig effekt på sannolikheten att gå över till pump där ett högt långtidsblodsocker medför hög sannolikhet att byta till insulinpump.

Slutsatser

I dagsläget finns det skillnader i andelen insulinpumpanvändare mellan olika patientgrupper och skillnader finns även i de olika gruppernas benägenhet att byta från andra insulinbehandlingar till insulinpump. Beroende av patienters njurfunktion, kön, långtidsblodsocker, insulindos, diabetesduration och ålder har dessa olika sannolikheter att byta till insulinpump.

APA, Harvard, Vancouver, ISO, and other styles

10

Alm, Micael. "Probability Modelling of Alpine Permafrost Distribution in Tarfala Valley, Sweden." Thesis, Uppsala universitet, Luft-, vatten och landskapslära, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-323971.

Full text

Abstract:

Datainsamling har genomförts i Tarfaladalen under 5 dagar vid månadsskiftet mellan mars och april 2017. Insamlingen resulterade i 36 BTS-mätningar (Bottom Temperature of Snow cover) som därefter har använts tillsammans med data från tidigare insamlingar, till att skapa en sammanställd modell över förekomsten av permafrost omkring Tarfala. En statistisk undersökning syftade till att identifiera meningsfulla parametrar som permafrost beror av, genom att testa de oberoende variablerna mot BTS i en stegvis regression. De oberoende faktorerna höjd över havet, aspekt, solinstrålning, vinkel och gradient hos sluttningar producerades för varje undersökt BTS-punkt i ett geografiskt informationssystem. Den stegvisa regressionen valde enbart höjden som signifikant variabel, höjden användes i en logistisk regression för att modellera permafrostens utbredning. Den slutliga modellen visade att permafrostens sannolikhet ökar med höjden. För att skilja mellan kontinuerlig, diskontinuerlig och sporadisk permafrost delades modellen in i tre zoner med olika sannolikhetsspann. Den kontinuerliga permafrosten är högst belägen och därav den zon där sannolikheten för permafrost är störst, denna zon gränsar till den diskontinuerliga permafrosten vid en höjd på 1523 m. Den diskontinuerliga permafrosten har en sannolikhet mellan 50–80 % och dess undre gräns på 1108 m.ö.h. separerar den diskontinuerliga zonen från den sporadiska permafrosten
A field data collection has been carried out in Tarfala valley at the turn of March to April 2017. The collection resulted in 36 BTS-measurements (Bottom Temperature of Snow cover) that has been used in combination with data from earlier surveys, to create a model of the occurrence of permafrost around Tarfala. To identify meaningful parameters that permafrost relies on, independent variables were tested against BTS in a stepwise regression. The independent variables elevation, aspect, solar radiation, slope angle and curvature were produced for each investigated BTS-point in a geographic information system. The stepwise regression selected elevation as the only significant variable, elevation was applied to a logistic regression to model the permafrost occurrence. The final model showed that the probability of permafrost increases with height. To distinguish between continuous, discontinuous and sporadic permafrost, the model was divided into three zones with intervals of probability. The continuous permafrost is the highest located zone and therefore has the highest likelihood, this zone delimits the discontinuous permafrost at 1523 m a.s.l. The discontinuous permafrost has probabilities between 50-80 % and its lower limit at 1108 m a.s.l. separates the discontinuous zone from the sporadic permafrost.

APA, Harvard, Vancouver, ISO, and other styles

11

Lindberg, Lars, and Carolin Dahlberg. "Konkursprognostisering i en svensk kontext : En modell utvecklad för svenska småföretag." Thesis, Umeå universitet, Företagsekonomi, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-90721.

Full text

Abstract:

Konsekvenser av konkurser drabbar såväl företaget själv som andra intressenter. Exempel på sådana är investerare, kunder, leverantörer, långivare och staten. Att utveckla ett verktyg för att kunna analysera ett företags väg mot konkurs är därför ett bidrag till såväl företaget själv som samhället. I den här studien har vi utvecklat en modell som kan appliceras på småföretag inom kategorin aktiebolag i Sverige. Den kan användas för att prognostisera konkurs för 18 månader framåt i tiden. Modellen är uppbyggd på nyckeltal och består av fyra stycken: EBIT/Totala skulder, Balanserat resultat/Totala tillgångar, Totala skulder/Totala tillgångar samt Likvida medel/Totala tillgångar. Genom den statistiska metoden logistisk regression utvecklades modellen genom en analys av 1200 bolag från varierande branscher. Den validerades sedan på en kontrollgrupp bestående av 5592 bolag. I kontrollgruppen prognostiserade modellen 74,5 procent av bolagen korrekt.

APA, Harvard, Vancouver, ISO, and other styles

12

Bylund, Rebecca, and Höök Malin J-son. "Går det prediktera demens? : En jämförande studie mellan Logistisk regression, Elastic Net och Random Forests." Thesis, Umeå universitet, Statistik, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-149728.

Full text

Abstract:

Denna studie tar avstamp i ett tidigare resultat av Boraxbekk et al. (2015) som genom data från Betula-projektet visat att vissa episodiska minnestester tillsammans med ålder ochutbildningsnivå har signifikanta samband med utvecklandet av demenssjukdomar. Syftet med denna studie är att jämföra klassificeringsmetoderna Random Forests, Elastic Net ochLogistisk Regression med avseende på prestationer vid klassificering av demens. I studien undersöks förutom det binära fallet (demens: ja/nej) prediktionsprestationer för utveckling av demens inom tidsspannen 1-10 år och 11-22 år. Detta för att undersöka om tidig diagnostisering av demens skulle vara möjlig. Prestationerna utvärderas även för situationen då de individer som avlidit inom de upp till 22 år de följts utgör en egen klass. Resultatet visar på att ingen av klassificeringsmetoderna presterar väl nog för att möjliggöra prediktion av demens på det givna datamaterialet och att skillnaderna i de resultat som metoderna genererar är väldigt små. Ingen större skillnad kan heller påvisas för prestationerna när tidsaspekten för utvecklandet utesluts. Inte heller kan några förbättringar i prediktion av demens utläsas när de personer som avlidit inom tidsramen för studien kontrollerats för.

APA, Harvard, Vancouver, ISO, and other styles

13

Björk, Gustaf, and Carlsson Tobias. "Klassificeringsmetoder med medicinska tillämpningar : En jämförande studie mellan logistisk regression, elastic net och random forest." Thesis, Umeå universitet, Statistik, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-122698.

Full text

Abstract:

Idag genererar den medicinska forskningen mycket stora mängder data med en skiftande karaktär. Detta har gjort att statistiska klassificeringsmetoder blivit allt mer populära som beslutstöd inom medicinsk forskning och praktik. Den här uppsatsen försöker reda ut om någon av klassificeringsmetoderna logistisk regression, elastic net eller random forest presterar bättre än övriga metoder när datamaterialets förhållande mellan observationer och förklaringsvariabler varierar. Metodernas klassificeringsprestation utvärderas med hjälp av korsvalidering. Resultatet visar att metoderna presterar likvärdigt när datamaterialet består av fler observationer än förklaringsvariabler och även då datamaterialet innehåller fler förklaringsvariabler än observationer. Däremot presterar elastic net klart bättre än de övriga metoderna på det datamaterial där antalet observationer är ungefär lika som antalet förklaringsvariabler. Vidare tyder resultaten på att alla tre metoder med fördel kan användas på datamaterial med fler variabler än observationer vilket är vanligt för datamaterial som rör genetik. Detta givet att en manuell variabelselektion sker för logistisk regression för att metoden ska kunna appliceras i denna situation.

APA, Harvard, Vancouver, ISO, and other styles

14

Hedström, Jon, and Johan Vidlund. "Modellerande av förhållande mellan P/E-tal och nedgångar på OMXS30." Thesis, Linköpings universitet, Matematisk statistik, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-114068.

Full text

Abstract:

Den rapport du just ska till att läsa är ett kandidatarbete i matematisk statistik skrivet vid matematiska instutitionen, Linköpings Universitet. Det område som undersöks är att om man med hjälp av P/E-tal kan förutsäga kraftiga börsnedgångar (börskrascher) på OMXS30. För att definiera en börskrasch har vi använt måttet Value at Risk (VaR). Detta mått är vedertaget hos finansiella instutitioner som ett riskmått men i denna rapport används det som sagt för att definiera nivån for en börskrasch. VaR har beräknats med diverse olika metoder som presenteras i rapporten. Efter att en börskrasch definierats har vi använt logistisk regression med P/E-tal som förklaringsvariabel för att undersöka om dessa nedgångar har ett samband med höga P/E-tal. Denna undersökning har lett fram till ett starkt resultat som säger att om en börsnedgång definieras med ett V aR mått som bygger på normalfördelningsantagande där volatiliteten är simulerad med GARCH(1,1) så kan vi konstatera att det finns ett säkerställt samband mellan höga P/E-tal och börskrascher. Slutsatserna som dragit från undersökningen är att man genom att inkorporera en logistisk regression mot P/E-talet kan forstärka sitt VaR mått givet de antaganden som presenterats. Författarna uppmuntrar vidare forskning på området för att se om resultatet kan generaliseras till olika börsindex och även till specifika bolag.

APA, Harvard, Vancouver, ISO, and other styles

15

Alfredsson, Lovisa. "Attityder till invandring och invandrare : En kvantitativ uppsats om individens utbildningsnivå och arbetssituations samband med attityder till invandring och invandrare." Thesis, Stockholms universitet, Sociologiska institutionen, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-111783.

Full text

Abstract:

Syftet med uppsatsen är undersöka huruvida utbildningsnivå och arbetssituation har ett samband med attityder till invandring i Sverige idag. I litteraturen finns det förklaringar som menar att lägre utbildade individer hyser mer negativa attityder mot invandrare och invandring jämfört med högre utbildade individer som genom sin utbildning får ett mer upplyst perspektiv som hämmar de negativa attityderna. Det förekommer även förklaringar som menar att arbetslöshet och en upplevd konkurrens från invandrare leder till negativa attityder mot invandrare och invandring. I den här uppsatsen används material från European Social Survey 2012 för att se hur attityderna mot invandring och invandrare ser ut i Sverige idag. Uppsatsen utgår från två hypoteser. Högutbildade individer förväntas ha mer positiva attityder mot invandrare jämfört med lågutbildade och individer som är sysselsatta förväntas ha mer positiva attityder mot invandrare jämfört med arbetslösa individer. Materialet analyseras med hjälp av två logistiska regressioner där utfallen är sannolikheten att anse att Sveriges kulturliv undergrävs av invandring samt sannolikheten att vilja tillåta få eller inga invandrare med annan hudfärg eller etnisk tillhörighet som majoriteten av Sveriges befolkning. Resultatet visar att den första hypotesen stämmer, högre utbildade individer har mer positiva attityder mot invandrare jämfört med lägre utbildade individer. Resultatet visar vidare att den andra hypotesen kan förkastas, det finns inget signifikant samband som visar att sysselsatta individer har mer positiva attityder mot invandrare jämfört med arbetslösa individer. Slutsatsen är att enbart utbildningsnivå förmodligen inte kan förklara orsakerna till negativa attityder till invandring och invandrare.

APA, Harvard, Vancouver, ISO, and other styles

16

Larsson, Märta, and Linnea Lantz. "Lärares trivsel med sin skolledning : En studie om förklaringsfaktorer till lärares trivsel med skolledningen." Thesis, Uppsala universitet, Statistiska institutionen, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-315047.

Full text

Abstract:

I denna studie undersöks förklaringsfaktorer till lärares trivsel med sin skolledning. Studien använder data från Skolverkets enkätundersökning Attityder till skolan 2015 samt 2014/2015 års version av Lärarregistret. Bland annat betraktas förutsättningar för undervisningen, inflytande på arbetsplatsen, stressnivå samt bakgrundsvariabler för lärare, rektorer och skolor. För att undersöka effekterna används ordinal logistisk regression. De variabler och faktorer som uppvisar en positiv signifikant effekt på trivsel med skolledningen är lärarens inflytande över resursfördelning, lärarens upplevelse av skolledningens mottaglighet för kritik, tillgången till teknisk IT-support samt stöd för undervisningen. Lärarens stressnivå har en negativ signifikant effekt.

APA, Harvard, Vancouver, ISO, and other styles

17

Giron, Eriksson Cecilia, and Haglund Daniella Fröberg. "Varför hjälpa andra? : - En enkätstudie om motivationen bakom socionomers val av yrke." Thesis, Uppsala universitet, Sociologiska institutionen, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-297198.

Full text

Abstract:

Sammanfattning Denna studie syftar till att kvantitativt undersöka vad som motiverar människor till att välja socionomyrket; ett yrke som utgår ifrån en strävan att hjälpa andra människor. Studien fokuserar på socionomstudenters motivation till studieval samt på vilket sätt personliga erfarenheter av socialt arbete och sociala problem kan påverka studievalet. En enkät skickades ut till flera svenska högskolor/universitet och besvarades av socionomstudenter samt studenter från andra samhällsvetenskapliga program. Urvalet bestod i slutändan av 147 respondenter, varav 79 socionomstudenter och 68 studenter från övriga program. Enkäten syftade till att mäta studenternas attityder och motivation till studievalet. De attitydfaktorer som mättes operationaliserades utifrån tidigare forskning och resulterade i fem variabler; altruism, personlig vinning, social förändring, påverkan av omgivningen samt arbetets utformning och arbetsmarknad. Respondenterna ombads även uppge om de hade personliga erfarenheter av olika sociala problem som missbruk, psykisk ohälsa, våld, sexuella övergrepp och ekonomisk utsatthet. Materialet presenterades och analyserades med hjälp av medelvärden, T-test och logistisk regressionsanalys. Resultaten visade att socionomstudenter har en högre grad av altruism samt att de i större utsträckning har tidigare erfarenheter av socialt arbete och sociala problem. Resultaten analyserades med hjälp av Self-Determination Theory och Bourdieus teori om habitus och kapital. Studien kan kopplas till socionomutbildningarnas utformning, socionomers roll samt socionomstudenters motivation och välmående.

APA, Harvard, Vancouver, ISO, and other styles

18

Ljungberg, Amanda, and Ahn Agnieszka von. "Finns det ett samband mellan födelseland och patientrapporterade utfall och upplevelser av vården efter stroke? : Jämförelse av statistiska metoder för att hantera skillnader i patientsammansättning." Thesis, Umeå universitet, Statistik, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-184934.

Full text

Abstract:

Studier visar att strokesjukvården i Sverige har en ojämn kvalitet. Denna studie syftar till att vidare undersöka möjliga ojämlikheter i strokevården. I uppsatsen undersöktes huruvida födelseland påverkar hur patienter som insjuknat i stroke skattar sin hälsa, nöjdhet med vården och nedstämdhet. Därtill jämfördes två statistiska metoder som kan hantera skillnader i patientsammansättning (t.ex. ålder och andra bakgrundsfaktorer), vilka var multipel logistisk regression och propensity score matching följt av konditionell logistisk regression. Båda metoderna gav signifikanta resultat. Resultatet visade att det är troligare att uppskatta sin allmänna hälsa som dålig, vara missnöjd med vården och vara nedstämd ofta eller ständigt för patienter födda utanför Sverige jämfört med de födda i Sverige, oberoende av vilken metod som användes. Propensity score matching visade större påverkan av födelseland på de undersökta responsvariablerna jämfört med multipel logistisk regression. Däremot var resultaten från multipel logistisk regression mer precisa.

APA, Harvard, Vancouver, ISO, and other styles

19

Lamers, Petrus, and Linda Sagnérius. "Prognostiska faktorer för att inte fullfölja multimodal smärtrehabilitering." Thesis, Högskolan Dalarna, Vårdvetenskap, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:du-30665.

Full text

Abstract:

Bakgrund: Långvarig smärta är vanligt förekommande och orsakar stort lidande. Multimodal rehabilitering (MMR) är en behandlingsmetod som erbjuds patienter med komplexa rehabiliteringsbehov. Behandlingsföljsamhet definieras hur väl patientens beteende överensstämmer med de rekommendationer patienten kommit överens med sin vårdgivare och har betydelse för behandlingsresultatet. Lite är känt idag om prognostiska faktorer för behandlingsföljsamheten vid MMR. Identifiering av hinder som kan förklara varför patienter inte slutför behandling är därför viktigt för att kunna optimera behandlingseffekterna. Syfte: Att undersöka vilka faktorer som hade betydelse för att inte fullfölja ett MMR 2 program hos patienter med komplex långvarig smärta. Metod: Projektet var en prospektiv kohortstudie. Studiepopulation var patienter mellan 18– 67 år med långvarig smärta, som påbörjade ett MMR program mellan 2009–2016, registrerade i det Nationella Registret över Smärtrehabilitering (NRS). Trettiosex variabler fanns tillgängliga, utfallsmåttet var fullfölja eller ej fullfölja MMR. För att identifiera variabler med störst betydelse för behandlingsföljsamhet skapades regressionsmodeller med logistisk regression. Modellens diskriminativa förmåga testades och goodness of fit bedömdes. Resultat: De tre viktigaste faktorerna som ökade odds för att inte slutföra MMR 2 var patienter med hög smärtintensitet, patienter i yngre ålderskategori och låg motivation. Modellens diskriminativa förmåga var undermålig, goodness of fit var inte signifikant. Slutsats: Modellen kan inte predicera utfall för enskilda individer men ger informationen om vilka faktorer som historiskt har varit viktiga. På sikt kan identifiering av faktorer som försämrar följsamheten bidra till att anpassa MMR program och därmed skapa bättre förutsättningar så att flera patienter fullföljer rehabiliteringen.
Background: Prolonged pain is common and causes great suffering. Multimodal rehabilitation (MMR) is a treatment method that is offered to patients with complex rehabilitation needs. Treatment adherence is defined how well the patient's behavior is consistent with the recommendations the patient has agreed with his / her health care provider and is of importance for the treatment outcome. Little is known today about prognostic factors for treatment adherence at MMR. Identification of obstacles that can explain why patients do not complete treatment is therefore important in order to be able to optimize the treatment effects. Purpose: To investigate which factors were important for the prognosis to not completing MMR 2 treatment in patients with complex long-term pain. Method: The project was a prospective cohort study. Study population were patients aged 18–67 years with long-term pain who started an MMR 2 program between 2009–2016, registered in the National Register for Pain Rehabilitation (NRS). Thirty-six variables were available, the outcome measure was to complete or not complete MMR. To identify variables with the greatest importance for treatment adherence, regression models were created with logistic regression. The model's discriminatory ability was tested, and goodness of fit was assessed Results: The three most important factors that increased odds of not completing MMR were high MPI-PI, patients in the younger age category and low motivation. The model's discriminatory ability was substandard, goodness of fit was not significant. Conclusion: The model cannot predict outcomes on individual level but provides information on which factors historically have been important. In the long term, identification of factors that impair adherence can contribute to adapting MMR programs and thereby create better conditions so that several patients complete the rehabilitation.

APA, Harvard, Vancouver, ISO, and other styles

20

Blomkvist, Oscar. "Machine Learning Based Sentiment Classification of Text, with Application to Equity Research Reports." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-257506.

Full text

Abstract:

In this thesis, we analyse the sentiment in equity research reports written by analysts at Skandinaviska Enskilda Banken (SEB). We provide a description of established statistical and machine learning methods for classifying the sentiment in text documents as positive or negative. Specifically, a form of recurrent neural network known as long short-term memory (LSTM) is of interest. We investigate two different labelling regimes for generating training data from the reports. Benchmark classification accuracies are obtained using logistic regression models. Finally, two different word embedding models and bidirectional LSTMs of varying network size are implemented and compared to the benchmark results. We find that the logistic regression works well for one of the labelling approaches, and that the best LSTM models outperform it slightly.
I denna rapport analyserar vi sentimentet, eller attityden, i aktieanalysrapporter skrivna av analytiker på Skandinaviska Enskilda Banken (SEB). Etablerade statistiska metoder och maskininlärningsmetoder för klassificering av sentimentet i textdokument som antingen positivt eller negativt presenteras. Vi är speciellt intresserade av en typ av rekurrent neuronnät känt som long short-term memory (LSTM). Vidare undersöker vi två olika scheman för att märka upp träningsdatan som genereras från rapporterna. Riktmärken för klassificeringsgraden erhålls med hjälp av logistisk regression. Slutligen implementeras två olika ordrepresentationsmodeller och dubbelriktad LSTM av varierande nätverksstorlek, och jämförs med riktmärkena. Vi finner att logistisk regression presterar bra för ett av märkningsschemana, och att LSTM har något bättre prestanda.

APA, Harvard, Vancouver, ISO, and other styles

21

Kullerback, Karl, and Marcus Löf. "Återköp av aktier på den svenska marknaden : Hur påverkar utestående optioner sannolikheten för aktieåterköp?" Thesis, Uppsala University, Department of Economics, 2009. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-120164.

Full text

Abstract:

I mars år 2000 blev det tillåtet för börsnoterade bolag att genomföra återköp av egna aktier i Sverige. En del kritiker hävdar att återköp kan användas till att påverka aktiekursen positivt, till förmån för bland annat optionsinnehavare. I denna uppsats har vi undersökt om antal utestående optioner till anställda ökar sannolikheten för genomförandet av aktieåterköp. För att ta reda på detta har vi undersökt data från samtliga bolag som var noterade på NASDAQ OMX Large Cap i Stockholm vid utgången av år 2007. Vi har analyserat datamaterialet med hjälp av enkel linjär regression samt logistisk regression. Vi finner en svag positiv korrelation i den enkla regressionsmodellen. Den logistiska regressionen påvisar dock ett starkare samband, vilket indikerar att återköp till viss del kan påverkas av bolagens optionsprogram.

APA, Harvard, Vancouver, ISO, and other styles

22

Eriksson, Ulf, and Fredrik Källgren. "Nyckeltal och finansiell kris : En studie av bioteknikbranschen." Thesis, Uppsala University, Department of Business Studies, 2008. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-8894.

Full text

Abstract:

Tidigare forskning har genom att studera alla tillgängliga företag eller företag med

udda branscher exkluderade identifierat vissa nyckeltal som bra indikatorer på

finansiell kris. I denna studie undersöks om dessa nyckeltal även ger ett

samstämmigt resultat för en udda bransch. Med utgångspunkt från

bioteknikbranschen identifieras genom logistisk regression nyckeltalen korta skulder

genom eget kapital och avkastning på investerat kapital som indikatorer på finansiell kris.

Avkastning på investerat kapital överensstämmer med tidigare resultat, medan korta

skulder genom eget kapital bör, för denna bransch, tolkas tvärt emot jämfört med

tidigare studier.

APA, Harvard, Vancouver, ISO, and other styles

23

Löfving, Jimmy, and Brännström Robin Carrión. "Vilka grupper av faktorer predicerar bäst elevers skolkande? : En kvantitativ studie baserad på PISA-enkäten 2015." Thesis, Uppsala universitet, Statistiska institutionen, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-323697.

Full text

Abstract:

I denna studie undersöks vilka grupper av faktorer som bäst predicerar elevers skolkande. Med utgångspunkt i tidigare kvalitativa studier och forskning, undersöks orsaker till skolk med kvantitativ ansats, utifrån 5 458 15-åriga elevers enkätsvar från 2015 års PISA-undersökning. Skolfaktorer, hem- och familjefaktorer samt individfaktorer jämförs med varandra, och det visar sig att dessa tre bidrar med ungefär lika stor förklaring till elevers skolkande. Intressant är att mobbning enligt denna studie inte verkar samvariera med elevers skolk.

APA, Harvard, Vancouver, ISO, and other styles

24

Jansson, Nils-Henrik, and Patrik Pavlov. "Cryptosporidiumutbrottet i Östersunds kommun 2010 : Påverkan på kommunens barn." Thesis, Linköpings universitet, Statistik, 2013. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-95525.

Full text

Abstract:

Målet med den här studien är att undersöka hur barn under 15 år påverkades av Cryptosporidiumutbrottet i slutet av år 2010 i Östersunds kommun. Datamaterialet utgörs av svar på en enkätundersökning från 514 barn rörande deras hälsa relaterad till utbrottet. Dessa enkäter togs fram av svenska Smittskyddsinstitutet kort efter utbrottet och det är i uppdrag av denna myndighet som studien utförs. Analys av riskfaktorer och följdsymptom utförs med logistiska regressionsmodeller utifrån både ett Bayesianskt och ett frekventistiskt tillvägagångssätt för att på så sätt betrakta datamaterialet från fler synvinklar och samtidigt identifiera skillnader mellan dessa två tillvägagångssätten. En annan del av arbetet presenterar bortfallskalibrerade skattningar av antalet Cryptosporidiumfall både totalt och månadsvis men också skattningar av fallprevalensen i olika redovisningsgrupper. Slutligen analyseras sambanden mellan följdsymptomen med logistisk regression. Dessutom utförs variabelklustring av följdsymptom med metoden fuzzy clustering för att se hur dessa kan grupperas. Resultaten visar att Glas vatten, Inom VA. område, Tidigare lös avföring och Kön identifieras som riskfaktorer medan de bäst förklarande följdsymptomen är Vattnig diarré, Buk- eller magsmärtor, Feber och Trött/utmattad.
The purpose of this study is to analyze how children under the age of 15 years were affected by the 2010 Östersund Cryptosporidium outbreak. The data consists of responses to a questionnaire from 514 children concerning their health related to the outbreak. The questionnaire was developed by the Swedish Institute for Infectious Disease Control shortly after the outbreak. The analysis of risk factors and the analysis of symptoms associated with infection were performed using logistic regression models based on both a Bayesian and a frequentist approach. Using the two different approaches we thus consider the dataset from different angels and at the same time try to identify the differences between these two approaches. Another part of the paper presents estimates calibrated for nonresponse of the number of Cryptosporidium infections both totally and on a monthly basis. Additionally estimates of the prevalence of cases in various domain groups are presented. Finally, associations between the symptoms are investigated using logistic regression. With the same goal we performed variable clustering of the symptoms using the fuzzy clustering approach. The results shows that higher water intake, getting water thru the municipal water distribution system, Former loose stools and Gender could be identified as risk factors while the best-explanatory symptoms were watery diarrhea, abdominal or stomach pain, fever and tiredness/exhaustion.

APA, Harvard, Vancouver, ISO, and other styles

25

Elmdahl, Martin, and Jonas Tärnemark. "En webbundersökning med panel : Vilka variabler påverkar om, hur tidigt och vad panelmedlemmar svarar?" Thesis, Linköpings universitet, Statistik, 2014. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-103695.

Full text

Abstract:

Denna rapport ger en bakgrundsbeskrivning av datainsamlingsföretaget Norstat och hur de genomför en tracking-undersökning med panel via internet. Vidare analyseras samband mellan variabler som beskriver personer som ingår i undersökningen och hur dessa personer besvarar undersökningen. I rapporten tas också reda på hur länge en undersökning behöver vara igång och om inkomna svar skiljer sig åt beroende på när en person har svarat. En ingående beskrivning av bearbetning och de variabler som ingår i det använda datamaterialet kommer också att ges. Tidigare forskning med anknytning till paneler och webbundersökningar tas upp för att ge läsaren en nyanserad bild av för- och nackdelar med webbundersökningar. Logistiska regressionsmetoder har använts för att utreda vilka variabler som påverkar om en person besvarar undersökningen eller ej, samt vilka variabler som gör att en person besvarar undersökningen tidigt eller sent. Andra metoder som har använts är deskriptiv statistik och χ2-test. Resultaten visar att faktorer som påverkar hur mycket fritid en person har får störst betydelse för om och hur tidigt undersökningen besvaras. Vidare konstateras att det ofta räcker med en fältperiod t.o.m. 6 dagar efter att inbjudan till undersökningen skickats ut för att alla kategorier av personer ska vara relativt lika representerade. Den optimala fältperioden skiljer sig åt beroende på om en undersökning syftar till att ge en bild av hela rikets befolkning eller enbart specifika kategorier av denna. För en speciell kategori av personer kan det ibland räcka att fältperioden sträcker sig t.o.m. dagen efter inbjudan till enkäten skickats ut för att tillräckligt många svar ska ha inkommit.
This report gives a background description of the data collection company Norstat and how they implement a tracking survey with a panel via the internet. Furthermore connections between variables describing persons in the survey and the way these persons answer the survey will be investigated. The report also intends to find out how long a survey needs to be running and if there are differences between received answers depending on when a person has answered. A detailed description of the processing and variables included in the data material being used will also be given. Earlier research concerning panels and web surveys are covered to give the reader a nuanced picture of the pros and cons with opinion surveys. Logistic regression methods have been used to examine which variables influence whether a person will answer the survey or not, and the variables that make a person answer the survey early or late. Other methods used are descriptive statistics and a χ2-test. The results show that factors influencing how much spare time a person has give the greatest impact on whether and how early the survey gets completed. It can be noted that it is often enough with a field period up to 6 days after the invitation to the survey has been sent out until all categories of persons are relatively equally represented. The optimal field period differs depending on whether a study is aimed at providing a picture of the entire country's population or only specific categories of this. For a special category of the persons, it can sometimes be enough to let the field period run until the day after the invitation to the survey had been sent out for enough answers to be submitted.

APA, Harvard, Vancouver, ISO, and other styles

26

Hardin, Patrik, and Sam Tabari. "Modelling Non-life Insurance Policyholder Price Sensitivity : A Statistical Analysis Performed with Logistic Regression." Thesis, KTH, Matematisk statistik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-209773.

Full text

Abstract:

This bachelor thesis within mathematical statistics studies the possibility of modelling the renewal probability for commercial non-life insurance policyholders. The project was carried out in collaboration with the non-life insurance company If P&C Insurance Ltd. at their headquarters in Stockholm, Sweden. The paper includes an introduction to underlying concepts within insurance and mathematics and a detailed review of the analytical process followed by a discussion and conclusions. The first stages of the project were the initial collection and processing of explanatory insurance data and the development of a logistic regression model for policy renewal. An initial model was built and modern methods of mathematics and statistics were applied in order obtain a final model consisting of 9 significant characteristics. The regression model had a predictive power of 61%. This suggests that it to a certain degree is possible to predict the renewal probability of non-life insurance policyholders based on their characteristics. The results from the final model were ultimately translated into a measure of price sensitivity which can be implemented in both pricing models and CRM systems. We believe that price sensitivity analysis, if done correctly, is a natural step in improving the current pricing models in the insurance industry and this project provides a foundation for further research in this area.
Detta kandidatexamensarbete inom matematisk statistik undersöker möjligheten att modellera förnyelsegraden för kommersiella skadeförsärkringskunder. Arbetet utfördes i samarbete med If Skadeförsäkring vid huvudkontoret i Stockholm, Sverige. Uppsatsen innehåller en introduktion till underliggande koncept inom försäkring och matematik samt en utförlig översikt över projektets analytiska process, följt av en diskussion och slutsatser. De huvudsakliga delarna av projektet var insamling och bearbetning av förklarande försäkringsdata samt utvecklandet och tolkningen av en logistisk regressionsmodell för förnyelsegrad. En första modell byggdes och moderna metoder inom matematik och statistik utfördes för att erhålla en slutgiltig regressionsmodell uppbyggd av 9 signifikanta kundkaraktäristika. Regressionsmodellen hade en förklaringsgrad av 61% vilket pekar på att det till en viss grad är möjligt att förklara förnyelsegraden hos försäkringskunder utifrån dessa karaktäristika. Resultaten från den slutgiltiga modellen översattes slutligen till ett priskänslighetsmått vilket möjliggjorde implementering i prissättningsmodeller samt CRM-system. Vi anser att priskänslighetsanalys, om korrekt genomfört, är ett naturligt steg i utvecklingen av dagens prissättningsmodeller inom försäkringsbranschen och detta projekt lägger en grund för fortsatta studier inom detta område.

APA, Harvard, Vancouver, ISO, and other styles

27

Cronstedt, Axel, and Rebecca Andersson. "Readjusting Historical Credit Ratings : using Ordered Logistic Regression and Principal ComponentAnalysis." Thesis, Umeå universitet, Institutionen för matematik och matematisk statistik, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-148567.

Full text

Abstract:

Readjusting Historical Credit Ratings using Ordered Logistic Re-gression and Principal Component Analysis The introduction of the Basel II Accord as a regulatory document for creditrisk presented new concepts of credit risk management and credit risk mea-surements, such as enabling international banks to use internal estimates ofprobability of default (PD), exposure at default (EAD) and loss given default(LGD). These three measurements is the foundation of the regulatory capitalcalculations and are all in turn based on the bank’s internal credit ratings. Ithas hence been of increasing importance to build sound credit rating modelsthat possess the capability to provide accurate measurements of the credit riskof borrowers. These statistical models are usually based on empirical data andthe goodness-of-fit of the model is mainly depending on the quality and sta-tistical significance of the data. Therefore, one of the most important aspectsof credit rating modeling is to have a sufficient number of observations to bestatistically reliable, making the success of a rating model heavily dependenton the data collection and development state.The main purpose of this project is to, in a simple but efficient way, createa longer time series of homogeneous data by readjusting the historical creditrating data of one of Svenska Handelsbanken AB’s credit portfolios. Thisreadjustment is done by developing ordered logistic regression models thatare using independent variables consisting of macro economic data in separateways. One model uses macro economic variables compiled into principal com-ponents, generated through a Principal Component Analysis while all othermodels uses the same macro economic variables separately in different com-binations. The models will be tested to evaluate their ability to readjust theportfolio as well as their predictive capabilities.
Justering av historiska kreditbetyg med hjälp av ordinal logistiskregression och principialkomponentsanalys När Basel II implementerades introducerades även nya riktlinjer för finan-siella instituts riskhantering och beräkning av kreditrisk, så som möjlighetenför banker att använda interna beräkningar av Probability of Default (PD),Exposure at Default (EAD) och Loss Given Default (LGD), som tillsammansgrundar sig i varje låntagares sannoliket för fallissemang. Dessa tre mått ut-gör grunden för beräkningen av de kapitaltäckningskrav som banker förväntasuppfylla och baseras i sin tur på bankernas interna kreditratingsystem. Detär därmed av stor vikt för banker att bygga stabila kreditratingmodeller medkapacitet att generera pålitliga beräkningar av motparternas kreditrisk. Dessamodeller är vanligtvis baserade på empirisk data och modellens goodness-of-fit,eller passning till datat, beror till stor del på kvalitén och den statistiska sig-nifikansen hos det data som står till förfogande. Därför är en av de viktigasteaspekterna för kreditratingsmodeller att ha tillräckligt många observationeratt träna modellen på, vilket gör modellens utvecklingsskede samt mängdendata avgörande för modellens framgång.Huvudsyftet med detta projekt är att, på ett enkelt och effektivt sätt, skapaen längre, homogen tidsserie genom att justera historisk kreditratingdata i enportfölj med företagslån tillhandahållen av Svenska Handelsbanken AB. Jus-teringen görs genom att utveckla olika ordinala logistiska regressionsmodellermed beroende variabler bestående av makroekonomiska variabler, på olikasätt. En av modellerna använder makroekonomiska variabler i form av princi-palkomponenter skapade med hjälp av en principialkomponentsanalys, medande andra modelelrna använder de makroekonomiska variablerna enskilt i olikakombinationer. Modellerna testas för att utvärdera både deras förmåga attjustera portföljens historiska kreditratings samt för att göra prediktioner.

APA, Harvard, Vancouver, ISO, and other styles

28

Apelthun, Catharina. "Klassificeringsförmåga vid komplett cytogenetisk respons för patienter med kronisk myeloisk leukemi : En komparativ studie mellan metoderna diskriminantanalys och logistisk regression." Thesis, Uppsala universitet, Statistik, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-295760.

Full text

Abstract:

Kronisk Myeloisk Leukemi (KML) är en form av blodcancer som idag har goda behandlingsmöjligheter och en hög andel överlevande. Vid behandling av sjukdomen mäts responsen efter 12 månader genom att undersöka om patienten uppnått MMR, komplett cytogenetisk respons. Målet i denna uppsats är att hitta variabler som skiljer de patienter som visar eftersökt respons från dem som inte gör det – för att kunna konstruera en modell som skiljer dessa båda grupper åt och som har en god förmåga att klassificera observationerna. Modellen konstrueras med hjälp av metoden diskriminantanalys och baseras på ett datamaterial som är en sammanställning av tre olika studier. Klassificeringsresultatet för den aktuella metoden jämförs med en logistisk regressions resultat av samma datamaterial med avseende på metodernas förmåga till klassificering av individer. Variablerna som inkluderas i den slutgiltiga diskriminantanalysen är typ av behandling, riskgrupp, hemoglobinhalt, andel vita blodkroppar, kön och respons på behandling efter 3 månader. Klassificeringsförmågan är marginellt bättre än för den logistiska regressionen.

APA, Harvard, Vancouver, ISO, and other styles

29

Anderskär, Erika, and Frida Thomasson. "Inkrementell responsanalys av Scandnavian Airlines medlemmar : Vilka kunder ska väljas vid riktad marknadsföring?" Thesis, Linköpings universitet, Statistik och maskininlärning, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-139465.

Full text

Abstract:

Scandinavian Airlines has a large database containing their Eurobonus members. In order to analyze which customers they should target with direct marketing, such as emails, uplift models have been used. With a binary response variable that indicates whether the customer has bought or not, and a binary dummy variable that indicates if the customer has received the campaign or not conclusions can be drawn about which customers are persuadable. That means that the customers that buy when they receive a campaign and not if they don't are spotted. Analysis have been done with one campaign for Sweden and Scandinavia. The methods that have been used are logistic regression with Lasso and logistic regression with Penalized Net Information Value. The best method for predicting purchases is Lasso regression when comparing with a confusion matrix. The variable that best describes persuadable customers in logistic regression with PNIV is Flown (customers that have own with SAS within the last six months). In Lassoregression the variable that describes a persuadable customer in Sweden is membership level1 (the rst level of membership) and in Scandinavia customers that receive campaigns with delivery code 13 are persuadable, which is a form of dispatch.

APA, Harvard, Vancouver, ISO, and other styles

30

Ewertzh, Jacob. "Bankruptcy Distributions and Modelling for Swedish Companies Using Logistic Regression." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252329.

Full text

Abstract:

This thesis discusses the concept of bankruptcy, or default, for Swedish companies. The actual distribution over time is considered both on aggregate level and within different industries. Several models are constructed to best possible describe the default frequency. Mainly logistic regression models are designed for this purpose, but various other models are considered. Some of these are constructed for comparison and for the ambition to produce the most accurate model possible. A large data set of nearly 30 million quarterly observations is used in the analysis. Taking into account micro and macro economic data. The derived models cover different time periods, considering different variables and display varying levels of accuracy. The most exact model is a logistic regression model considering both micro and macro data. It is tested both in sample and out of sample and perform very well in both areas. This model is estimated on first a subset of the data set to be able to compare with a real scenario. Then an equivalent model is constructed from the whole data set to best possibly describe future scenarios. Here Vector Auto-Regressive (VAR) models, and empirical models constructed by OLS regression estimating the firm values, are used in combination with the logistic regression model to predict the future. All three models are used to describe the most likely scenarios, as well as the worst case scenarios. From the worst case scenarios risk measures, such as the empirical value at risk, can be derived. From all this analysis the most significant results are compiled. Namely, that the Logistic regression model performs remarkably well both in-sample and out-of-sample, if macro variables are taken into account. Further, the future results are harder to interpret. Yet, the analysis has arguments for prediction accuracy and interesting results of a continued low default frequency within the next year.
Den här uppsatsen avhandlar konceptet konkurs, för svenska företag. Den faktiska konkursfördelningen över tid analyseras, både på en sammanlagd nivå och inom olika industrier. Flera modeller konstrueras i syfte att bäst beskriva konkursfördelningen. Huvudsakligen är logistiska regressions modeller utformade för detta syfte, men andra typer av modeller är inkluderade i analysen. Några av dessa modeller är skapade för jämförelse, men också för att kunna producera en så exakt modell som möjligt. Ett stort data set med nästan 30 miljoner kvartalsvisa observationer används i analysen. Mikro- och makroekonomiska faktorer är inkluderade i detta data set. De framtagna modellerna omfattar olika tidsperioder mellan 1990–2018, tar in olika faktorer i analysen och visar på olika nivåer av noggrannhet. Modellen som har högst förklaringsgrad är en logistisk regressionsmodell som tar hänsyn till både mikro- och makroekonomiska faktorer. Denna modell analyseras både i och utanför sitt samplingsintervall, och visar på goda resultat i båda områdena. Modellen är först skattad på en delmängd av tidsperioden, för att kunna jämföra den förutspådda fördelningen med en faktisk fördelning. Sedan är en ekvivalent modell skattad på hela intervallet, för att bäst möjligt förutspå framtida scenarion. För detta syfte är Logistiska regressionsmodellen kombinerad med Vektor Autoregressiva (VAR)-modeller som förutspår makroekonomiska faktorer, och empiriska regressionsmodeller som förutspår mikroekonomiska faktorer. Alla tre modelltyper används för att kunna beskriva det mest sannolika scenariot, samt de värsta tänkbara scenariona. Från de värsta tänkbara scenariona kan riskmått, så som empiriska Value at Risk, tas fram. All analys producerar resultat och de viktigaste sammanställs. Dessa är att den logistiska regression modell som tar hänsyn till makroekonomiska faktorer ger bra resultat både i och utanför samplingsintervallet. Vidare är de framtida simulerade resultaten svårare att tolka, men den genomförda analysen har argument för exakthet i förutsägelserna. Därmed presenteras ett troligt framtida scenario med fortsatt låg konkurs frekvens inom det närmaste året.

APA, Harvard, Vancouver, ISO, and other styles

31

Pettersson, Anders. "High-Dimensional Classification Models with Applications to Email Targeting." Thesis, KTH, Matematisk statistik, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-168203.

Full text

Abstract:

Email communication is valuable for any modern company, since it offers an easy mean for spreading important information or advertising new products, features or offers and much more. To be able to identify which customers that would be interested in certain information would make it possible to significantly improve a company's email communication and as such avoiding that customers start ignoring messages and creating unnecessary badwill. This thesis focuses on trying to target customers by applying statistical learning methods to historical data provided by the music streaming company Spotify. An important aspect was the high-dimensionality of the data, creating certain demands on the applied methods. A binary classification model was created, where the target was whether a customer will open the email or not. Two approaches were used for trying to target the costumers, logistic regression, both with and without regularization, and random forest classifier, for their ability to handle the high-dimensionality of the data. Performance accuracy of the suggested models were then evaluated on both a training set and a test set using statistical validation methods, such as cross-validation, ROC curves and lift charts. The models were studied under both large-sample and high-dimensional scenarios. The high-dimensional scenario represents when the number of observations, N, is of the same order as the number of features, p and the large sample scenario represents when N ≫ p. Lasso-based variable selection was performed for both these scenarios, to study the informative value of the features. This study demonstrates that it is possible to greatly improve the opening rate of emails by targeting users, even in the high dimensional scenario. The results show that increasing the amount of training data over a thousand fold will only improve the performance marginally. Rather efficient customer targeting can be achieved by using a few highly informative variables selected by the Lasso regularization.
Företag kan använda e-mejl för att på ett enkelt sätt sprida viktig information, göra reklam för nya produkter eller erbjudanden och mycket mer, men för många e-mejl kan göra att kunder slutar intressera sig för innehållet, genererar badwill och omöjliggöra framtida kommunikation. Att kunna urskilja vilka kunder som är intresserade av det specifika innehållet skulle vara en möjlighet att signifikant förbättra ett företags användning av e-mejl som kommunikationskanal. Denna studie fokuserar på att urskilja kunder med hjälp av statistisk inlärning applicerad på historisk data tillhandahållen av musikstreaming-företaget Spotify. En binärklassificeringsmodell valdes, där responsvariabeln beskrev huruvida kunden öppnade e-mejlet eller inte. Två olika metoder användes för att försöka identifiera de kunder som troligtvis skulle öppna e-mejlen, logistisk regression, både med och utan regularisering, samt random forest klassificerare, tack vare deras förmåga att hantera högdimensionella data. Metoderna blev sedan utvärderade på både ett träningsset och ett testset, med hjälp av flera olika statistiska valideringsmetoder så som korsvalidering och ROC kurvor. Modellerna studerades under både scenarios med stora stickprov och högdimensionella data. Där scenarion med högdimensionella data representeras av att antalet observationer, N, är av liknande storlek som antalet förklarande variabler, p, och scenarion med stora stickprov representeras av att N ≫ p. Lasso-baserad variabelselektion utfördes för båda dessa scenarion för att studera informationsvärdet av förklaringsvariablerna. Denna studie visar att det är möjligt att signifikant förbättra öppningsfrekvensen av e-mejl genom att selektera kunder, även när man endast använder små mängder av data. Resultaten visar att en enorm ökning i antalet träningsobservationer endast kommer förbättra modellernas förmåga att urskilja kunder marginellt.

APA, Harvard, Vancouver, ISO, and other styles

32

Johansson, Henrik, and Mathias Kardell. "Demografisk sammansättning samt beteende hos medlemmar i panel." Thesis, Linköping University, Linköping University, Statistics, 2010. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-57244.

Full text

Abstract:

The use of marketing research panels are a more and more frequently used source of information for studies within many different branches. The purpose of this report is to investigate the demographic composition of panels and compare it with the population of Sweden, a possible change in behaviour of respondents, and if the source of recruitment is the cause of possible differences in study results. The study was commissioned by Norstats Linkoping office. Sources for the data material include Norstat’s recruitment process and their two main panels with different recruitment sources. To enable a deeper investigation of behaviour we also constructed a survey that was sent to 2,714 members of Norstat’s internet panels.

The statistical analysis includes contingency table analysis, multiple logistic regression, and Poisson regression. The results show that the demographic composition does not fully cover all the aspects of the Swedish population and some groups are less represented than others. The behaviour tends to differ between panel members that have responded to three or less surveys compared to members that have responded to twenty or more surveys. Source of recruitment does not seem to affect the results of studies, but it has some effect on the demographic composition of marketing research panels.

Användandet av paneler som källa vid undersökningar har den senaste tiden blivit en allt vanligare företeelse. Denna rapport har för avsikt att undersöka panelers demografiska sammansättning och överensstämmande med Sveriges befolkning, eventuell ändring av svarsbeteende samt huruvida rekryteringskällan ger upphov till kvalitetsskillnader hos medlemmar i en panel. Företaget Norstat har med sitt kontor i Linköping figurerat som uppdragsgivare till arbetet. Datamaterialet till studien har uppkommit från Norstats rekryteringsprocess samt från företagets två huvudpaneler med olika rekryteringskällor. För att djupare undersöka svarsbeteende konstruerade vi även en enkätundersökning som skickades ut till 2 714 medlemmar i Norstats internetpaneler.

Den statiska analysen innefattar χ2-test, multipel logistisk regression samt Poissonregression. Resultaten påvisade att den demografiska sammansättningen i panelen inte fullt ut speglade Sveriges befolkning samt att vissa grupper undertäcks i högre utsträckning än andra. Svarsbeteendet hos medlemmar i paneler har en tendens att ändras från det att medlemmen har svarat på en till tre undersökningar, till det att den har svarat på tjugo undersökningar eller fler. Rekryteringskällan till en panel verkar inte ge upphov till några större skillnader i svarsresultat, men däremot finns vissa skillnader i demografisk sammansättning.

APA, Harvard, Vancouver, ISO, and other styles

33

Åkesson, Lisa, and Denise Henningsson. "Klassificering av köp på betalda sökannonser." Thesis, Linköpings universitet, Statistik, 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-129412.

Full text

Abstract:

Datakonsultföretaget Knowit AB har en kund som annonserar på Google AdWords. Denna uppsats fokuserar huvudsakligen på att hitta de olika inställningarna i AdWords som genererar köp av kundens produkt. Om en inställning ofta genererar klick men sällan köp av produkten är den inställningen inte lönsam.Responsvariabeln i denna uppsats är binär och indikerar på om ett klick på annonsen lett till köp av produkten eller inte. Eftersom responsvariabelns fördelning var skev har samplingstekniken SMOTE använts för att skapa fler observationer i minoritetsklassen. De statistiska metoder som använts och presenterats i uppsatsen är logistisk regression, neurala nätverk och beslutsträd.Resultatet gav att de fyra undersökta inställningarna påverkar sannolikheten för köp. Den första inställningen resulterade i att om dator används vid sökning på Google är sannolikheten att ett klick leder till köp betydligt högre än för mobil och surfplatta. Den andra inställningen resulterar i att en ”exakt matchning” för sökordet ger högst sannolikhet till köp och ”bred matchning” ger lägst sannolikhet. Den tredje inställningen visar att vilken veckodag annonsen klickas på påverkar sannolikheten för köp. På söndag är sannolikheten högst att ett klick leder till köp, och de två dagar som har lägst sannolikhet är lördag och tisdag. Slutligen har det undersökts om annonsens genomsnittsposition påverkar sannolikheten att produkten köps. Resultatet som gavs är att ju högre värde på genomsnittsposition, desto högre blir sannolikheten för köp.
The data consultancy company Knowit AB has a client who advertises on Google AdWords. This thesis focuses mainly on finding which settings in AdWords generate purchases of the client’s product. If a setting frequently contributes to clicks but rarely to purchases of the product, the setting is not profitable.The target variable in this thesis is binary and indicates whether a click on the advertisement led to purchase of the product or not. Since the target variable’s distribution was skewed, the sampling technique SMOTE was used to create more observations in the minority class. The classification methods researched and presented in this thesis are logistic regression, neural networks and decision trees.The results showed that all four factor had significant affect on the probability of purchase. First, if a desktop or laptop computer was used to search on Google, the likelihood that a click leads to purchase is substantially higher compared to if a mobile or tablet was used. Second, an “exact match” setting for the keywords gives the highest probability of purchase and a “broad match” gives the lowest probability. Third, purchase rates are also affected by the day of the week. Sunday has the highest probability of purchase while Saturday and Tuesday have the lowest probability. Finally, an advertisement´s average position affects the likelihood of the product being purchased. The higher value of average position, the higher the likelihood of purchase.

APA, Harvard, Vancouver, ISO, and other styles

34

Jovanovic, Filip, and Paul Singh. "Modelling default probabilities: The classical vs. machine learning approach." Thesis, KTH, Matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-273570.

Full text

Abstract:

Fintech companies that offer Buy Now, Pay Later products are heavily dependent on accurate default probability models. This is since the fintech companies bear the risk of customers not fulfilling their obligations. In order to minimize the losses incurred to customers defaulting several machine learning algorithms can be applied but in an era in which machine learning is gaining popularity, there is a vast amount of algorithms to select from. This thesis aims to address this issue by applying three fundamentally different machine learning algorithms in order to find the best algorithm according to a selection of chosen metrics such as ROCAUC and precision-recall AUC. The algorithms that were compared are Logistic Regression, Random Forest and CatBoost. All these algorithms were benchmarked against Klarna's current XGBoost model. The results indicated that the CatBoost model is the optimal one according to the main metric of comparison, the ROCAUC-score. The CatBoost model outperformed the Logistic Regression model by seven percentage points, the Random Forest model by three percentage points and the XGBoost model by one percentage point.
Fintechbolag som erbjuder Köp Nu, Betala Senare-tjänster är starkt beroende av välfungerande fallissemangmodeller. Detta då dessa fintechbolag bär risken av att kunder inte betalar tillbaka sina krediter. För att minimera förlusterna som uppkommer när en kund inte betalar tillbaka finns flera olika maskininlärningsalgoritmer att applicera, men i dagens explosiva utveckling på maskininlärningsfronten finns det ett stort antal algoritmer att välja mellan. Denna avhandling ämnar att testa tre olika maskininlärningsalgoritmer för att fastställa vilken av dessa som presterar bäst sett till olika prestationsmått så som ROCAUC och precision-recall AUC. Algoritmerna som jämförs är Logistisk Regression, Random Forest och CatBoost. Samtliga algoritmers prestanda jämförs även med Klarnas nuvarande XGBoost-modell. Resultaten visar på att CatBoost-modellen är den mest optimala sett till det primära prestationsmåttet ROCAUC. CatBoost-modellen var överlägset bättre med sju procentenheter högre ROCAUC än Logistisk Regression, tre procentenheter högre ROCAUC än Random Forest och en procentenhet högre ROCAUC än Klarnas nuvarande XGBoost-modell

APA, Harvard, Vancouver, ISO, and other styles

35

Barr, Kajsa, and Hampus Pettersson. "Predicting and Explaining Customer Churn for an Audio/e-book Subscription Service using Statistical Analysis and Machine Learning." Thesis, KTH, Matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-252723.

Full text

Abstract:

The current technology shift has contributed to increased consumption of media and entertainment through various mobile devices, and especially through subscription based services. Storytel is a company offering a subscription based streaming service for audio and e-books, and has grown rapidly in the last couple of years. However, when operating in a competitive market, it is of great importance to understand the behavior and demands of the customer base. It has been shown that it is more profitable to retain existing customers than to acquire new ones, which is why a large focus should be directed towards preventing customers from leaving the service, that is preventing customer churn. One way to cope with this problem is by applying statistical analysis and machine learning in order to identify patterns and customer behavior in data. In this thesis, the models logistic regression and random forest are used with an aim to both predict and explain churn in early stages of a customer's subscription. The models are tested together with the feature selection methods Elastic Net, RFE and PCA, as well as with the oversampling method SMOTE. One main finding is that the best predictive model is obtained by using random forest together with RFE, producing a prediction score of 0.2427 and a recall score of 0.7699. The other main finding is that the explanatory model is given by logistic regression together with Elastic Net, where significant regression coefficient estimates can be used to explain patterns associated with churn and give useful findings from a business perspective.
Det pågående teknologiskiftet har bidragit till en ökad konsumtion av digital media och underhållning via olika typer av mobila enheter, t.ex. smarttelefoner. Storytel är ett företag som erbjuder en prenumerationstjänst för ljud- och e-böcker och har haft en kraftig tillväxt de senaste åren. När företag befinner sig i en konkurrensutsatt marknad är det av stor vikt att förstå sig på kunders beteende samt vilka krav och önskemål kunder har på tjänsten. Det har nämligen visat sig vara mer lönsamt att behålla existerande kunder i tjänsten än hela tiden värva nya, och det är därför viktigt att se till att en befintlig kund inte avslutar sin prenumeration. Ett sätt att hantera detta är genom att använda statistisk analys och maskininlärningsmetoder för att identifiera mönster och beteenden i data. I denna uppsats används både logistisk regression och random forest med syfte att både prediktera och förklara uppsägning av tjänsten i ett tidigt stadie av en kunds prenumeration. Modellerna testas tillsammans med variabelselektionsmetoderna Elastic Net, RFE och PCA, samt tillsammans med översamplingsmetoden SMOTE. Resultatet blev att random forest tillsammans med RFE bäst predikterade uppsägning av tjänsten med 0.2427 i måttet precision och 0.7699 i måttet recall. Ett annat viktigt resultat är att den förklarande modellen ges av logistisk regression tillsammans med Elastic Net, där signifikanta estimat av regressionskoefficienterna ökar förklaringsgraden för beteenden och mönster relaterade till kunders uppsägning av tjänsten. Därmed ges användbara insikter ur ett företagsperspektiv.

APA, Harvard, Vancouver, ISO, and other styles

36

Sjöblom, Feliks. "Effects of COVID-19 on temporal urban diversity : A quantitative study using mobile phone data as a proxy for human mobility patterns." Thesis, Uppsala universitet, Kulturgeografiska institutionen, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-439997.

Full text

Abstract:

The present paper examines possible changes in temporal urban diversity caused by the COVID-19 pandemic in Stockholm and Uppsala metropolitan areas. In addition to general changes in diversity, potential differences of diversity levels at locations with varying socioeconomic characteristics are examined. The diversity levels are calculated based on mobile phone data and defined by the inflow and distribution of individuals to locations. The time frame involves eight study dates and extends from January to April 2020. The paper reaches the following conclusions. (1) Diversity levels display a general decline during the pandemic, with one exception - Easter Holidays. (2) Individuals residing in areas with high proportions of highly educated individuals or visible minorities experience a decrease in diversity whereas the opposite is true for areas with high proportions of low-income earners or senior citizens (3) The increase in diversity in the two last mentioned areas, which are located in remote parts of the metropolitan area, coincide with decreasing levels of diversity in the central parts of the metropolitan area. It is possible that changes in diversity levels in these areas can be explained by changes in general behavioural trends, e.g. incentives to avoid crowded city center areas.

APA, Harvard, Vancouver, ISO, and other styles

37

Peco, Amina. "Misskötta studielån : Hur mycket förväntas de kosta?" Thesis, Linnéuniversitetet, Institutionen för nationalekonomi och statistik (NS), 2016. http://urn.kb.se/resolve?urn=urn:nbn:se:lnu:diva-59675.

Full text

Abstract:

När propositionen för ett reformerat studiestödssystem lades 1999 poängterades det att studiestödssystemet skulle bära sina egna kostnader. Trots det skrivs stora belopp av. Både Riksrevisionen och Riksgälden har visat att CSN inte använder vedertagna metoder vid beräkningen av det som förväntas gå förlorat på grund av misskötta betalningar. Uppsatsens syfte har varit att skatta vad misskötta betalningar väntas kosta staten i form av framtida avskrivningar samt beräkna vad det skulle innebära för individen att istället bära kostnaden. Som en del i det arbetet har även faktorer som påverkar sannolikheten för misskötta betalningar av studielån identifierats. Resultaten av denna uppsats har bland annat visat att sannolikheten för misskötta betalningar är lägre för individer med eftergymnasial utbildning, hög skuld och låg ålder. Statens kreditförluster på studielån för till exempel individer som blev återbetalningsskyldiga under 2012 förväntas bli mellan 100 och 338 miljoner kronor. Om denna kostnad istället skulle bäras av årskullen innebär det en kostnadsökning på 2,2-7,8 procent för en individ med genomsnittlig skuld.

APA, Harvard, Vancouver, ISO, and other styles

38

Högström, Fredrik. "Socialt kapital och politiskt deltagande." Thesis, Stockholms universitet, Sociologiska institutionen, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-77267.

Full text

Abstract:

Syftet med uppsatsen är att undersöka om betydelsen av socialt kapital skiljer sig åt mellan olika former av politiskt deltagande. Med olika former av deltagande avses dels att rösta, vilket här benämns passivt deltagande, och andra mer aktiva former såsom att demonstrera eller kontakta en politiker. Socialt kapital definieras i termer av nätverk och tillit. Den teoretiska utgångspunkten är att tillgång till nätverk bland annat ökar sannolikheten att bli tillfrågad om att delta i aktiviteter, medan tillgång till tillit tycks öka en individs benägenhet att offra av sin egen tid för det gemensammas bästa. Datamaterialet som används är den svenska delen av European Social Survey från 2002. Logistisk regressionsanalys visar att tillgång till formellt nätverk är förknippad med en högre sannolikhet för både aktivt och passivt politiskt deltagande, medan tillgång till informellt nätverk inte är relaterat till politiskt deltagande. Vidare är hög tillit till rättsväsendet förenat med en mindre benägenhet till aktivt deltagande, medan hög tillit till politiker är positivt relaterat till aktivt deltagande. För passivt deltagande är hög tillit till riksdagen förknippad med en större sannolikhet till deltagande. Som uppslag till fortsatt forskning diskuteras bland annat varför nätverk tycks påverka deltagande, och hur tillit kan verka i relation till nätverk. Även vikten av att separera olika delar av det sociala kapitalet och studera vilken effekt var och en av dessa har förs fram.

APA, Harvard, Vancouver, ISO, and other styles

39

Westin, Emil, and Christoffer Eriksson. "Tycker vi likadant? : Skillnaden mellan kommunpolitikers och väljares inställning till flyktingfrågan 2012 i Sverige." Thesis, Uppsala universitet, Statistiska institutionen, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-353085.

Full text

Abstract:

Den här uppsatsen är en deskriptiv tvärsnittsstudie som analyserar kommunalpolitiker och väljare 2012 i Sverige. Syftet var att undersöka om det fanns en skillnad mellan kommunpolitiker och väljare i deras inställning till förslaget om att ta emot färre flyktingar i Sverige. Vi har även estimerat hur mycket av skillnaden som kan förklaras utav bristande social representation. För att estimera detta har vi använt kumulativ ordinal regression där vi konstruerade olika modeller utifrån antagandet om proportionella odds. Slutsatsen är att det rådde en påtaglig skillnad mellan kommunpolitiker och väljare, där väljare tenderade att tycka att förslaget var bättre än politikerna. Bristande social representation kan förklara skillnaden mellan politiker och väljare endast marginellt. Vi undersökte även hur det skiljde sig mellan kommunpolitiker och dess sympatisörer i partier som även fanns representerade i riksdagen. Slutsatserna av analysen är att samma mönster finns inom alla partier förutom Sverigedemokraterna, som tvärtom har kommunpolitiker som tycker förslaget är bättre än deras väljare. Storleken på skillnaden varierar mellan olika partier och dess väljare.

APA, Harvard, Vancouver, ISO, and other styles

40

Fritjofsson, Hugo. "Social klass – Ett begrepp i behov av revidering? : Är idén om ’arbetslogik’ samt utbildningskrav fruktsamma för att skapa ett yrkesbaserat klasschema?" Thesis, Stockholms universitet, Sociologiska institutionen, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-194095.

Full text

Abstract:

Denna uppsats söker validera ett yrkesbaserat klasschemas förmåga att predicera skillnader iarbetsvillkor och utbildningskrav för anställda i Sverige enligt föreskrivna kriterier.Kriterierna för indelningen av klasschemat är baserade på begreppet arbetslogik – ettsamlingsnamn för olika arbetsvillkor, samt kompetenskrav. Uppsatsen undersöker huruvidapositioner i klasschemat kan särskiljas med hjälp av dessa kriterier med utgångspunkt i ettriksrepresentativt urval, 2010 års Levnadsnivåundersökningen. Fyra logistiskaregressionsmodeller används för att pröva riktningen och styrkan sambandet mellanklasschemat, och variabler relaterade till arbetsvillkor och kompetens, signifikanstester utgårfrån p-tester. Resultatet är i linje med de förväntade samband som beskrivs i litteraturen.Skillnader i auktoritetsrelationer och arbetsplatsens utformning enligt arbetslogik får stöd.Utbildningskrav utgör en signifikant skillnad mellan priviligierade och icke-priviligieradeyrken.

APA, Harvard, Vancouver, ISO, and other styles

41

Kornfeld, Sarah. "Predicting Default Probability in Credit Risk using Machine Learning Algorithms." Thesis, KTH, Matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-275656.

Full text

Abstract:

This thesis has explored the field of internally developed models for measuring the probability of default (PD) in credit risk. As regulators put restrictions on modelling practices and inhibit the advance of risk measurement, the fields of data science and machine learning are advancing. The tradeoff between stricter regulation on internally developed models and the advancement of data analytics was investigated by comparing model performance of the benchmark method Logistic Regression for estimating PD with the machine learning methods Decision Trees, Random Forest, Gradient Boosting and Artificial Neural Networks (ANN). The data was supplied by SEB and contained 45 variables and 24 635 samples. As the machine learning techniques become increasingly complex to favour enhanced performance, it is often at the expense of the interpretability of the model. An exploratory analysis was therefore made with the objective of measuring variable importance in the machine learning techniques. The findings from the exploratory analysis will be compared to the results from benchmark methods that exist for measuring variable importance. The results of this study shows that logistic regression outperformed the machine learning techniques based on the model performance measure AUC with a score of 0.906. The findings from the exploratory analysis did increase the interpretability of the machine learning techniques and were validated by the results from the benchmark methods.
Denna uppsats har undersökt internt utvecklade modeller för att estimera sannolikheten för utebliven betalning (PD) inom kreditrisk. Samtidigt som nya regelverk sätter restriktioner på metoder för modellering av kreditrisk och i viss mån hämmar utvecklingen av riskmätning, utvecklas samtidigt mer avancerade metoder inom maskinlärning för riskmätning. Således har avvägningen mellan strängare regelverk av internt utvecklade modeller och framsteg i dataanalys undersökts genom jämförelse av modellprestanda för referens metoden logistisk regression för uppskattning av PD med maskininlärningsteknikerna beslutsträd, Random Forest, Gradient Boosting och artificiella neurala nätverk (ANN). Dataunderlaget kommer från SEB och består utav 45 variabler och 24 635 observationer. När maskininlärningsteknikerna blir mer komplexa för att gynna förbättrad prestanda är det ofta på bekostnad av modellens tolkbarhet. En undersökande analys gjordes därför med målet att mäta förklarningsvariablers betydelse i maskininlärningsteknikerna. Resultaten från den undersökande analysen kommer att jämföras med resultat från etablerade metoder som mäter variabelsignifikans. Resultatet av studien visar att den logistiska regressionen presterade bättre än maskininlärningsteknikerna baserat på prestandamåttet AUC som mätte 0.906. Resultatet from den undersökande analysen för förklarningsvariablers betydelse ökade tolkbarheten för maskininlärningsteknikerna. Resultatet blev även validerat med utkomsten av de etablerade metoderna för att mäta variabelsignifikans.

APA, Harvard, Vancouver, ISO, and other styles

42

Bäck, Eneroth Moa. "An analysis of customer retention using data mining." Thesis, KTH, Skolan för elektroteknik och datavetenskap (EECS), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-235709.

Full text

Abstract:

This thesis aimed to answer the question whether the use of third-party applications, in addition to the original product, have an impact on customer retention at a digital rights management company. The research originated in the null hypothesis that there is no relationship between the dependent variable customer retention and the independent variable usage of third-party applications. To evaluate whether the hypothesis can be rejected or not, the relationship between the two variables was analyzed using logistic regression. The result showed that there was a positive impact, for the chosen set of included variables. Consequently, the conclusion was that there could be a potential positive correlation between the two variables and the null hypothesis could, therefore, be rejected.
Detta examensarbete hade som målsättning att svara på frågan huruvida användandet av tredje-parts-applikationer, utöver användandet av originalprodukten, har en inverkan på kundlojalitet hos ett företag som arbetar med att hantera digitala rättigheter. Studien utgick ifrån nollhypotesen att det inte finns en relationen mellan den beroende variabeln kundlojalitet och den oberoende variabeln användandet av tredje-parts-applikationer. För att kunna utvärdera huruvida hypotesen kan förkastas eller inte, analyseras relationen mellan detvå variablerna med hjälp av logistisk regression. Resultatet visade att att det fanns en positiv inverkan för valt dataset. Följaktligen var slutsatsen att det potentiellt skulle kunna finnas en positiv korrelation mellan de två variablerna och nollhypotesen kunde därför förkastas.

APA, Harvard, Vancouver, ISO, and other styles

43

SUNDQVIST, ALYCIA. "A company’s ability Not to default on a loan : Does the location have an impact?" Thesis, KTH, Skolan för industriell teknik och management (ITM), 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-239901.

Full text

Abstract:

This thesis aims to answer the question if the type of region or category of a municipality in which a company is located in, impacts the company’s ability not to default on a loan. Previous literature is used to find which determinants have an impact on a company’s survival from five levels: Macro, Industry, Regional, Company and Individual entrepreneur. The data used is in collaboration with a financial company offering small businesses credit products. They have contributed with loan data. A statistical analysis has been done and the method used is a logistic regression, where the dependent variable is if the company is defaulting on their loan or not. The conclusions that can be drawn are that in correlation with the previous findings the age of the firm, employees, and capital had a positive relationship to a company’s probability of not defaulting. Furthermore, the regional factors does have an impact on a company’s ability not to default on a loan. The commuting regions have a positive relationship to the probability of a company’s ability not to default on a loan.
Denna masteruppsats syftar till att svara på frågan om typen av region eller kategori av kommun ett företag är belägen i, påverkar företagets förmåga att inte återbetala ett lån. Tidigare forskning används för att finna vilka faktorer som påverkar företagets överlevnad i fem nivåer: Makro, Industri, Regional, Företag och Individnivå. Den data som används kommer från ett finansiellt företag som erbjuder småföretag kreditprodukter och har därmed bidragit med lånedata. En statistisk analys har gjorts och den använda metoden är en logistisk regression, där den beroende variabeln är om bolaget har kunnat återbetala på sitt lån eller ej. Slutsatserna som kan dras är att i linje med tidigare forskning där företagets ålder, antal anställda och kapital haft ett positivt inverkan på ett företags sannolikhet att kunna återbetala ett lån. Dessutom har de regionala faktorerna påverkan på företags förmåga att kunna återbetala ett lån där företag i pendlingsregionerna har större återbetalningsförmåga.

APA, Harvard, Vancouver, ISO, and other styles

44

Palmquist, Jacob. "How to identify downturns within an office submarke : A quantitative time series analysis of Stockholm CBD." Thesis, KTH, Fastigheter och byggande, 2018. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-230936.

Full text

Abstract:

The last couple of years there has been a significant increase in demand of attractive office locations in Stockholm consequently leading to all-time low office prime yields within the Central Business District (CBD), indicating warning signals regarding an overheated submarket. As the real estate market is crucial for the economy as a whole, it is essential to improve the understanding and predictability of future real estate cycles. This study produced three different logistic regression models with the purpose of identifying downturns in the office market of Stockholm CBD. The most successful model were able to predict 74 % of the actual downturns occurring throughout 114 observed quarters between Q3 1989 and Q4 2017. The dependent downturn variable consist of prime yield explained by variables on a national basis combined with submarket specific variables. Another produced model contained variables regarding confidence and expectations of tenants in Stockholm. However that model was unsatisfactory, leading to this study’s suggestion of further research on fluctuations of demand related to the current characteristics of Stockholm CBD.
Under de senaste åren har det skett en betydande ökning av efterfrågan på attraktiva kontorslokaler i Stockholm vilket resulterat i rekordlåga direktavkastningskrav inom Stockholm Central Business District (CBD), vilket indikerar på varningssignaler avseende en överhettad delmarknad. Eftersom fastighetsmarknaden är avgörande för ekonomin som helhet är det viktigt att förbättra förståelsen och förutsägbarheten för framtida fastighetscykler. Denna studie producerade tre olika logistiska regressionsmodeller med syfte att identifiera nedgångar i kontorsmarknaden inom Stockholm CBD. Den mest framgångsrika modellen kunde förutse 74 % av de faktiska nedgångarna som inträffade under 114 observerade kvartal mellan Q3 1989 och Q4 2017. Den beroende nedgångsvariabeln består av prime yield som förklaras av variabler på nationell basis i kombination med delmarknadsspecifika variabler. En annan producerad modell innehöll variabler avseende förtroende och förväntningar hos hyresgäster i Stockholm. Denna modell var dock otillfredsställande, vilket ledde till att denna studie föreslog ytterligare forskning om fluktuationer i efterfrågan relaterade till de nuvarande egenskaperna hos Stockholms centralbank

APA, Harvard, Vancouver, ISO, and other styles

45

Singh, Gurpreet. "Statistical Modeling of Dynamic Risk in Security Systems." Thesis, KTH, Matematisk statistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-273599.

Full text

Abstract:

Big data has been used regularly in finance and business to build forecasting models. It is, however, a relatively new concept in the security industry. This study predicts technology related alarm codes that will sound in the coming 7 days at location $L$ by observing the past 7 days. Logistic regression and neural networks are applied to solve this problem. Due to the problem being of a multi-labeled nature logistic regression is applied in combination with binary relevance and classifier chains. The models are trained on data that has been labeled with two separate methods, the first method labels the data by only observing location $L$. The second considers $L$ and $L$'s surroundings. As the problem is multi-labeled the labels are likely to be unbalanced, thus a resampling technique, SMOTE, and random over-sampling is applied to increase the frequency of the minority labels. Recall, precision, and F1-score are calculated to evaluate the models. The results show that the second labeling method performs better for all models and that the classifier chains and binary relevance model performed similarly. Resampling the data with the SMOTE technique increases the macro average F1-scores for the binary relevance and classifier chains models, however, the neural networks performance decreases. The SMOTE resampling technique also performs better than random over-sampling. The neural networks model outperforms the other two models on all methods and achieves the highest F1-score.
Big data har använts regelbundet inom ekonomi för att bygga prognosmodeller, det är dock ett relativt nytt koncept inom säkerhetsbranschen. Denna studie förutsäger vilka larmkoder som kommer att låta under de kommande 7 dagarna på plats $L$ genom att observera de senaste 7 dagarna. Logistisk regression och neurala nätverk används för att lösa detta problem. Eftersom att problemet är av en multi-label natur tillämpas logistisk regression i kombination med binary relevance och classifier chains. Modellerna tränas på data som har annoterats med två separata metoder. Den första metoden annoterar datan genom att endast observera plats $L$ och den andra metoden betraktar $L$ och $L$:s omgivning. Eftersom problemet är multi-labeled kommer annoteringen sannolikt att vara obalanserad och därför används resamplings metoden, SMOTE, och random over-sampling för att öka frekvensen av minority labels. Recall, precision och F1-score mättes för att utvärdera modellerna. Resultaten visar att den andra annoterings metoden presterade bättre för alla modeller och att classifier chains och binary relevance presterade likartat. Binary relevance och classifier chains modellerna som tränades på datan som använts sig av resamplings metoden SMOTE gav ett högre macro average F1-score, dock sjönk prestationen för neurala nätverk. Resamplings metoden SMOTE presterade även bättre än random over-sampling. Neurala nätverksmodellen överträffade de andra två modellerna på alla metoder och uppnådde högsta F1-score.

APA, Harvard, Vancouver, ISO, and other styles

46

Rynell, Daniel. "Sambandet mellan fysisk aktivitet och psykiskt välbefinnande i ett urval av den svenska befolkningen: resultat från levnadsnivåundersökningen 2000." Thesis, Stockholms universitet, 2011. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-58689.

Full text

Abstract:

Psykisk ohälsa är ett stort problem för individen bland annat eftersom det kan leda till sjukfrånvaro. Den psykiska ohälsan har även negativa konsekvenser på företagsnivå och samhällsnivå, på grund av de höga kostnaderna och den minskade produktionen på arbetsplatsen (Baumann, Muijen & Gaebel, 2010). Preventiva åtgärder mot psykisk ohälsa är en framgångsrik metod (WHO, 2004) och en förebyggande åtgärd som är av betydelse för psykisk hälsa är fysisk aktivitet (Hellenius & Kallings, 2010). Det finns flera studier som visar att det finns ett samband mellan fysisk aktivitet och psykiskt välbefinnande (Stephens,1988; Camacho, Roberts, Lazarus, Kaplan & Cohen, 1991). Dessa studier är dock baserade på internationellt material. Föreliggande studie undersöker detta samband på ett representativt urval av den svenska befolkningen. Studiens frågeställningar är därmed: Finns det ett samband mellan fysisk aktivitet och psykiskt välbefinnande? Och Förklaras sambandet av andra faktorer som är betydelsefulla för psykiskt välbefinnande såsom social klass, kön, ålder och hälsobeteenden? Datamaterialet i studien utgörs av Levnadsnivåundersökningen från år 2000. Resultatet i studien är i linje med tidigare studier. Personer med högre fysisk aktivitet tenderar att ha ett bättre psykiskt välbefinnande. Sambandet förklaras inte av andra faktorer som är av betydelse för psykiskt välbefinnande. En förklaring till den fysiska aktivitetens påverkan på det psykiska välbefinnandet är av fysiologisk karaktär, där utsöndringen av endorfiner leder till bättre upplevd psykiskt välmående (Stephens, 1988). En viktig faktor till sambandet är att personer som motionerar tenderar att ha mer fritid och därmed upplever att de hinner ägna mer tid åt fysisk aktivitet. Utförande av en fysisk aktivitet brukar även innebära att personen för en stund kan glömma de problem som individen har. Detta samband förklaras inte av andra faktorer utan studien visar att sambandet gäller oberoende av social klass, kön, ålder och hälsobeteenden.

APA, Harvard, Vancouver, ISO, and other styles

47

Fjällström, Peter. "Prediktion av vårdrelaterade sjukdomar i Västerbotten." Thesis, Umeå universitet, Institutionen för matematik och matematisk statistik, 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-141550.

Full text

Abstract:

Vårdrelaterade infektioner, VRI, är ett av de största hoten mot patientsäkerheten i hälso- och sjukvården. Inte bara i Sverige utan också i resten av världen. I den här uppsatsen så har vi analyserat data från punktprevalensmätningar för VRI, PPMVRI, som utförts i Västerbotten mellan åren 2008-2015. Utifrån det givna datat har vi skapat modeller med både logistisk regression, LR, och linjär diskriminant analys, LDA. Vi jämför sedan de två metodernas förmåga att prediktera VRI med avseende på specificitet, enskilda modeller konstruerades både för hela Västerbotten men också för enskilda sjukhus och avdelningar. Vidare så undersöker vi om information kring patienters komorbiditet, alltså förekomsten av andra sjukdomar förutom den primära, kan öka metodernas prestanda. Av våra två metoder var det LR som presterade bäst med en specificitet på 32.79 % och LDA hade en specificitet på 31.20 %. För båda metoderna så visade det sig att modellen för Västerbotten presterade bättre än modellerna för enskilda avdelningar och sjukhus. Vi kom också fram till att information om patienters komorbiditet kan hjälpa till att öka specificiteten, men vi hade för få observationer (90 st med VRI och 90 st utan VRI) för att kunna ge ett definitivt svar. En överlevnadsanalys utfördes för att bekräfta tidigare resultat om att VRI-patienter har en signifikant högre 90-dagars dödlighet, vårt resultat stämde väl överens med tidigare studier. Sammanfattningsvis visade vi på att statistiska metoder kan användas för att prediktera och analysera vilka patienter som ligger i riskzonen för att drabbas av VRI, samt att det skulle behövas ytterligare studier för att undersöka huruvida information om patienters komorbiditet skulle kunna hjälpa oss att ytterligare förbättra den prediktiva förmågan hos dessa metoder.

APA, Harvard, Vancouver, ISO, and other styles

48

Faraj, Dina. "Using Machine Learning for Predictive Maintenance in Modern Ground-Based Radar Systems." Thesis, KTH, Matematisk statistik, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-299634.

Full text

Abstract:

Military systems are often part of critical operations where unplanned downtime should be avoided at all costs. Using modern machine learning algorithms it could be possible to predict when, where, and at what time a fault is likely to occur which enables time for ordering replacement parts and scheduling maintenance. This thesis is a proof of concept study for anomaly detection in monitoring data, i.e., sensor data from a ground based radar system as an initial experiment to showcase predictive maintenance. The data in this thesis was generated by a Giraffe 4A during normal operation, i.e., no anomalous data with known failures was provided. The problem setting is originally an unsupervised machine learning problem since the data is unlabeled. Speculative binary labels are introduced (start-up state and steady state) to approximate a classification accuracy. The system is functioning correctly in both phases but the monitoring data looks differently. By showing that the two phases can be distinguished, it is possible to assume that anomalous data during break down can be detected as well. Three different machine learning classifiers, i.e., two unsupervised classifiers, K-means clustering and isolation forest and one supervised classifier, logistic regression are evaluated on their ability to detect the start-up phase each time the system is turned on. The classifiers are evaluated graphically and based on their accuracy score. All three classifiers recognize a start up phase for at least four out of seven subsystems. By only analyzing their accuracy score it appears that logistic regression outperforms the other models. The collected results manifests the possibility to distinguish between start-up and steady state both in a supervised and unsupervised setting. To select the most suitable classifier, further experiments on larger data sets are necessary.
Militära system är ofta en del av kritiska operationer där oplanerade driftstopp bör undvikas till varje pris. Med hjälp av moderna maskininlärningsalgoritmer kan det vara möjligt att förutsäga när och var ett fel kommer att inträffa. Detta möjliggör tid för beställning av reservdelar och schemaläggning av underhåll. Denna uppsats är en konceptstudie för detektion av anomalier i övervakningsdata från ett markbaserat radarsystem som ett initialt experiment för att studera prediktivt underhåll. Datat som används i detta arbete kommer från en Saab Giraffe 4A radar under normal operativ drift, dvs. ingen avvikande data med kända brister tillhandahölls. Problemställningen är ursprungligen ett oövervakat maskininlärningsproblem eftersom datat saknar etiketter. Spekulativa binära etiketter introduceras (uppstart och stabil fas) för att uppskatta klassificeringsnoggrannhet. Systemet fungerar korrekt i båda faserna men övervakningsdatat ser annorlunda ut. Genom att visa att de två faserna kan urskiljas, kan man anta att avvikande data också går att detektera när fel uppstår. Tre olika klassificeringsmetoder dvs. två oövervakade maskininlärningmodeller, K-means klustring och isolation forest samt en övervakad modell, logistisk regression utvärderas utifrån deras förmåga att upptäcka uppstartfasen varje gång systemet slås på. Metoderna utvärderas grafiskt och baserat på deras träffsäkerhet. Alla tre metoderna känner igen en startfas för minst fyra av sju delsystem. Genom att endast analysera deras noggrannhetspoäng, överträffar logistisk regression de andra modellerna. De insamlade resultaten demonstrerar möjligheten att skilja mellan uppstartfas och stabil fas, både i en övervakad och oövervakad miljö. För att välja den bästa metoden är det nödvändigt med ytterligare experiment på större datamängder.

APA, Harvard, Vancouver, ISO, and other styles

49

Adolfsson, Chandra, and Alexandra Håkansson. "En studie av sambandet mellan kvarstående bias och kostnad vid selektiv granskning i undersökningen Kortperiodisk Sysselsättningsstatistik : Analys av parameterval i verktyget Selekt." Thesis, Örebro University, Swedish Business School at Örebro University, 2009. http://urn.kb.se/resolve?urn=urn:nbn:se:oru:diva-9585.

Full text

Abstract:

Det har pågått ett intensivt utvecklingsarbete på Statistiska Centralbyrån (SCB) under de senaste åren i syfte att standardisera och effektivisera statistikproduktionsprocessen. I detta utvecklingsarbete har fokus främst riktats mot processerna insamling och granskning. Ett flertal studier har visat att det finns potential att reducera granskningens omfattning samtidigt som den övergripande kvaliteten i undersökningarna bibehålls. För att uppnå detta krävs att nya arbetssätt, metoder och verktyg utvecklas och implementeras.

Den traditionella ansatsen på SCB har varit att i granskningsprocessen försöka hitta och rätta alla databearbetnings- och mätfel. Ingen skillnad har gjorts mellan stora och små fel eller om felen har någon effekt på statistiken eller inte. Detta är en ineffektiv ansats där stora resurser åtgår till att rätta fel som inte påverkar den statistiska redovisningen nämnvärt. I mer moderna ansatser betonas vikten av att hitta betydelsefulla fel som har stor påverkan på parameterskattningarna och att fel som inte ger någon påverkan bör lämnas som de är eller åtgärdas via imputering. Detta, att inte granska allt, kallas för selektiv granskning.

SCB har beslutat att införa metoden selektiv granskning med poängfunktioner. Metoden fordrar att poängberäkningar görs, dessa utförs i verktyget Selekt. Verktyget ingår i den framtida verktygslådan för granskning som är under utveckling vid SCB och är uppbyggt av ett stort antal parametrar. För att uppnå så effektiv granskning som möjligt måste de mest lämpliga parametervärdena sökas för att sedan implementeras i Selekt.

I denna studie har ett datamaterial från undersökningen Kortperiodisk Sysselsättningsstatistik, privat sektor (KSP) använts för att studera sambanden mellan statistikens kvalitet och valet av parametrar i Selekt. Valet av datamaterial motiveras främst av att Selekt ska implementeras i KSP under år 2010. De parametrar som har behandlats i studien kallas för KAPPA, TAU och LAMBDA samt variablerna RPB_20 och Kostnad.

Logistisk regression har använts för att undersöka vilken påverkan parametrarna har på den bias (kallad RPB) som införs i skattningarna vid selektiv granskning. En ansats valdes där sambandet mellan responsvariabeln RPB_20 och förklaringsvariablerna KAPPA, TAU och Kostnad studerades separat för olika värden på LAMBDA.

Vid resultatframställningen indikerades tidigt att valet av värde på LAMBDA inte verkade ha någon nämnvärd betydelse för modellen och i de fortsatta analyserna stärktes denna misstanke och kom att omfatta även KAPPA och TAU. Det var redan från början känt att Kostnad är en viktig variabel att ta hänsyn till och för att undersöka detta närmare konstruerades en modell bestående av ett fjärdegradspolynom med enbart variabeln Kostnad. Modellen lyckades fånga upp huvuddragen av variationen i RPB_20.

Det går inte att dra generella slutsatser från den studie som här har genomförts. Resultaten visar dock att en modell utan KAPPA, TAU och LAMBDA fungerar för att beskriva variationen i RPB_20. Valet av värden på KAPPA, TAU och LAMBDA i Selekt är av mindre betydelse. I implementeringsarbetet av Selekt i KSP rekommenderas därför att, förutom RPB, fokusera på variabeln Kostnad för att hitta den mest lämpliga kombinationen av parameterinställningar.

APA, Harvard, Vancouver, ISO, and other styles

50

Strandendahl, Louise, and Jarl Emilie Löfgren. "Psykisk hälsa som klassmarkör : En kvantitativ studie av socioekonomisk klassposition och schizofreni." Thesis, Stockholms universitet, Sociologiska institutionen, 2015. http://urn.kb.se/resolve?urn=urn:nbn:se:su:diva-112074.

Full text

Abstract:

Syftet med föreliggande kvantitativa studie är att undersöka sambandet mellan socioekonomisk klassposition i vuxenlivet och risken att vårdas för schizofreni. Sambandet mellan klassposition och hälsa kan ta sig uttryck i två riktningar - något som avhandlas i kausalitetsteorin och selektionsteorin. Kausalitetsteorin utgår från att en individs klassposition påverkar ens framtida hälsa, där en lägre klassposition riskerar att leda till sämre hälsa. I kontrast till detta utgår selektionsteorin från att en individs hälsa påverkar klasspositionen, där ohälsa tenderar att leda till en lägre klassposition. Dessa teorier utgör föreliggande studies teoretiska utgångspunkt. Datamaterialet som används är “Stockholm Birth Cohort” (SBC), vilket är resultatet av en sannolikhetsmatchning mellan två avidentifierade material. Materialet består av longitudinell kohortdata som sträcker sig från år 1953 till år 2008. Analysmetoden i föreliggande studie är multipel logistisk regressionsanalys vilket är lämpligt då utfallsvariabeln har gjorts binär. Resultatet som nås är att det existerar ett signifikant samband mellan socioekonomisk klassposition i vuxenlivet och risken att vårdas för schizofreni, även när sambandet kontrollerats för föräldrarnas socioekonomiska klassposition, psykiska hälsa, utbildning, inkomst, alkoholmissbruk samt familjetyp och kohortmedlemmens kön. Då denna infallsvinkel är relativt outforskad är detta resultat därför ett relevant bidrag till forskningsfältet. Vidare har försök gjorts att undersöka riktningen på detta samband och utifrån genomförda tester verkar det som att både kausalitets- och selektionsteorin har ett förklaringsvärde beroende på ifall klassposition mäts utifrån föräldrarnas eller individens klassposition. Rimligtvis är socioekonomisk klassposition och schizofreni ömsesidigt sammanlänkande över individens livsförlopp.

APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic 'Logistisk regression'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles