Dissertations / Theses: 'Analyse statistique de classement'

1

Ouni, Zaïd. "Statistique pour l’anticipation des niveaux de sécurité secondaire des générations de véhicules." Thesis, Paris 10, 2016. http://www.theses.fr/2016PA100099/document.

Full text

Abstract:

La sécurité routière est une priorité mondiale, européenne et française. Parce que les véhicules légers (ou simplement “les véhicules”) sont évidemment l’un des acteurs principaux de l’activité routière, l'amélioration de la sécurité routière passe nécessairement par l’analyse de leurs caractéristiques accidentologiques. Si les nouveaux véhicules sont développés en bureau d’étude et validés en laboratoire, c’est la réalité accidentologique qui permet de vraiment cerner comment ils se comportent en matière de sécurité secondaire, c’est-à-dire quelle sécurité ils offrent à leurs occupants lors d’un accident. C’est pourquoi les constructeurs souhaitent procéder au classement des générations de véhicules en fonction de leurs niveaux de sécurité secondaire réelle. Nous abordons cette thématique en exploitant les données nationales d’accidents corporels de la route appelées BAAC (Bulletin d’Analyse d’Accident Corporel de la Circulation). En complément de celles-ci, les données de parc automobile permettent d’associer une classe générationelle (CG) à chaque véhicule. Nous élaborons deux méthodes de classement de CGs en termes de sécurité secondaire. La première produit des classements contextuels, c’est-à-dire des classements de CGs plongées dans des contextes d’accident. La seconde produit des classements globaux, c’est-`a-dire des classements de CGs déterminés par rapport à une distribution de contextes d’accident. Pour le classement contextuel, nous procédons par “scoring” : nous cherchons une fonction de score qui associe un nombre réel à toute combinaison de CG et de contexte d’accident ; plus ce nombre est petit, plus la CG est sûre dans le contexte d’accident donné. La fonction de score optimale est estimée par “ensemble learning”, sous la forme d’une combinaison convexe optimale de fonctions de score produites par une librairie d’algorithmes de classement par scoring. Une inégalité oracle illustre les performances du méta-algorithme ainsi obtenu. Le classement global est également basé sur le principe de “scoring” : nous cherchons une fonction de score qui associe à toute CG un nombre réel ; plus ce nombre est petit, plus la CG est jugée sûre globalement. Des arguments causaux permettent d’adapter le méta-algorithme évoqué ci-dessus en s’affranchissant du contexte d’accident. Les résultats des deux méthodes de classement sont conformes aux attentes des experts
Road safety is a world, European and French priority. Because light vehicles (or simply“vehicles”) are obviously one of the main actors of road activity, the improvement of roadsafety necessarily requires analyzing their characteristics in terms of traffic road accident(or simply “accident”). If the new vehicles are developed in engineering department and validated in laboratory, it is the reality of real-life accidents that ultimately characterizesthem in terms of secondary safety, ie, that demonstrates which level of security they offer to their occupants in case of an accident. This is why car makers want to rank generations of vehicles according to their real-life levels of safety. We address this problem by exploiting a French data set of accidents called BAAC (Bulletin d’Analyse d’Accident Corporel de la Circulation). In addition, fleet data are used to associate a generational class (GC) to each vehicle. We elaborate two methods of ranking of GCs in terms of secondary safety. The first one yields contextual rankings, ie, rankings of GCs in specified contexts of accident. The second one yields global rankings, ie, rankings of GCs determined relative to a distribution of contexts of accident. For the contextual ranking, we proceed by “scoring”: we look for a score function that associates a real number to any combination of GC and a context of accident; the smaller is this number, the safer is the GC in the given context. The optimal score function is estimated by “ensemble learning”, under the form of an optimal convex combination of scoring functions produced by a library of ranking algorithms by scoring. An oracle inequality illustrates the performance of the obtained meta-algorithm. The global ranking is also based on “scoring”: we look for a scoring function that associates any GC with a real number; the smaller is this number, the safer is the GC. Causal arguments are used to adapt the above meta-algorithm by averaging out the context. The results of the two ranking procedures are in line with the experts’ expectations