Dissertations / Theses: 'Cost-sensitive classification'

1

Dachraoui, Asma. "Cost-Sensitive Early classification of Time Series." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLA002/document.

Full text

Abstract:

Dans de nombreux domaines dans lesquels les mesures ou les données sont disponibles séquentiellement, il est important de savoir décider le plus tôt possible, même si c’est à partir d’informations encore incomplètes. C’est le cas par exemple en milieu hospitalier où l’apprentissage de règles de décision peut se faire à partir de cas complètement documentés, mais où, devant un nouveau patient, il peut être crucial de prendre une dé- cision très rapidement. Dans ce type de contextes, un compromis doit être optimisé entre la possibilité d’arriver à une meilleure décision en attendant des mesures supplé- mentaires, et le coût croissant associé à chaque nouvelle mesure. Nous considérons dans cette thèse un nouveau cadre général de classification précoce de séries temporelles où le coût d’attente avant de prendre une décision est explicitement pris en compte lors de l’optimisation du compromis entre la qualité et la précocité de prédictions. Nous proposons donc un critère formel qui exprime ce compromis, ainsi que deux approches différentes pour le résoudre. Ces approches sont intéressantes et apportent deux propriétés désirables pour décider en ligne : (i) elles estiment en ligne l’instant optimal dans le futur où une minimisation du critère peut être prévue. Elles vont donc au-delà des approches classiques qui décident d’une façon myope, à chaque instant, d’émettre une prédiction ou d’attendre plus d’information, (ii) ces approches sont adaptatives car elles prennent en compte les propriétés de la série temporelle en entrée pour estimer l’instant optimal pour la classifier. Des expériences extensives sur des données contrôlées et sur des données réelles montrent l’intérêt de ces approches pour fournir des prédictions précoces, fiables, adaptatives et non myopes, ce qui est indispensable dans de nombreuses applications
Early classification of time series is becoming increasingly a valuable task for assisting in decision making process in many application domains. In this setting, information can be gained by waiting for more evidences to arrive, thus helping to make better decisions that incur lower misclassification costs, but, meanwhile, the cost associated with delaying the decision generally increases, rendering the decision less attractive. Making early predictions provided that are accurate requires then to solve an optimization problem combining two types of competing costs. This thesis introduces a new general framework for time series early classification problem. Unlike classical approaches that implicitly assume that misclassification errors are cost equally and the cost of delaying the decision is constant over time, we cast the the problem as a costsensitive online decision making problem when delaying the decision is costly. We then propose a new formal criterion, along with two approaches that estimate the optimal decision time for a new incoming yet incomplete time series. In particular, they capture the evolutions of typical complete time series in the training set thanks to a segmentation technique that forms meaningful groups, and leverage these complete information to estimate the costs for all future time steps where data points still missing. These approaches are interesting in two ways: (i) they estimate, online, the earliest time in the future where a minimization of the criterion can be expected. They thus go beyond the classical approaches that myopically decide at each time step whether to make a decision or to postpone the call one more time step, and (ii) they are adaptive, in that the properties of the incoming time series are taken into account to decide when is the optimal time to output a prediction. Results of extensive experiments on synthetic and real data sets show that both approaches successfully meet the behaviors expected from early classification systems