Dissertations / Theses: 'Modelos de regresión generalizados'

1

Tarsicio, De Zan Arturo. "Principios de metodología de superficie de respuesta para modelos logísticos." Doctoral thesis, Universitat Politècnica de Catalunya, 2006. http://hdl.handle.net/10803/6518.

Full text

Abstract:

En esta tesis doctoral abordamos algunos principios para estudiar la Metodología de Superficie de Respuesta (que abreviaremos en adelante como MSR) para datos que siguen distribuciones binarias (Bernoulli y binomial), y que se ajustan mediante Modelos Lineales Generalizados (que abreviaremos como MLG). El punto de partida elegido ha sido el enfoque clásico de la MSR, es decir, en el contexto de modelos lineales y normales y, en particular, a partir del trabajo seminal de Box y Wilson (1951).Nuestra pregunta de investigación alrededor de la cual hemos elaborado este trabajo gira alrededor del siguiente planteamiento: "¿cómo podría proceder el experimentador cuando la naturaleza de su proceso no sigue los supuestos clásicos de normalidad y linealidad?". Enlazando esta cuestión con el estado actual del arte en materia de la MSR, una segunda pregunta fue: "¿Cómo podría ser un proceso secuencial de aprendizaje del funcionamiento de un sistema en los que intervengan respuestas de naturaleza binaria en el que se persiga un objetivo determinado?". Para poder investigar con mayor profundidad esta pregunta, y mediante un sustento metodológico lo suficientemente sólido, nos apoyamos en los MLG. Estos modelos -a partir de su primera presentación y formulación en el trabajo de Nelder y Wedderburn (1972)- son la herramienta que elegimos para encontrar una metodología de aplicación sistemática, que nos permita buscar modelos adecuados que puedan ajustar respuestas de naturaleza binaria. Consideramos como estrategia particular aquella en la que se encontraría el experimentador cuando dispone de un número fijo de observaciones a realizar de las variables de un sistema, que traducimos con el nombre de "estrategia de presupuesto fijo". Así, el objetivo será poder cuantificar de alguna forma la ganancia de información que alcanzamos a conocer del proceso luego de haber utilizado todo el presupuesto disponible. En todos los casos nuestro plan es el de utilizar familias de estrategias de diseños factoriales a dos niveles, secuencialmente encadenados. Nuestro estudio comienza definiendo una familia de estrategias de exploración de un proceso representado por una superficie de respuesta teórica binaria, en la que hemos identificado tres variables: un valor llamado w, acotado entre 0 y 1, el cual es utilizado para definir el primer centro de experimentación. Luego, se considera una segunda variable, que será el valor que tenga el rango de variación de los factores, L, y finalmente, cuando se ensayen nuevas alternativas de puntos de diseño, habrá un valor S, que llamaremos "salto", que representará la longitud que separa un centro de diseño del siguiente. De esta manera, diremos que una estrategia de diseño queda caracterizada por los valores L, S y w. Partiendo así de una superficie de respuesta que sea la que mejor se considera que se aproxima a un proceso real, el objetivo será el de encontrar a través de simulaciones los niveles de w, L y S que alcancen los mejores valores posibles bajo dos criterios de selección de diseños: (a) una basada en el determinante de la Matriz de Información de Fisher (que hemos llamado "criterio de la cantidad de información"), y (b) el otro, basado en el valor de la superficie teórica evaluado en las mejores condiciones que se obtengan del modelo ajustado (que hemos llamado "criterio de proximidad al máximo"). A tal efecto, hemos utilizado programas escritos en el lenguaje R (www.r-project.orq), un entorno de programación potente y flexible,La completa revisión bibliográfica de ambos temas (MSR y MLG), junto con el diseño de herramientas informáticas "ad-hoc", ofrecen un enfoque novedoso y origina! que puede servir como punto de partida para continuar buscando el enlace entre estas dos metodologías y su aplicación en problemas prácticos sobre la base de criterios objetivos que puedan soportar la toma de decisiones.
In this PhD thesis we approached some principles that relate to the study the Response Surface Methodology (abbreviated as RSM) for binary responses (Bernoulli and binomial distributions), modellable through the scope of Generalized Linear Models (abbreviated as GLM}. Our starting point is the classic approach of the RSM, in the context of linear normal models and, particularly, from the seminal work on the subject, by the article of Box and Wilson (1951). Our first research question from which we started ellaborating this work was around of the following statement: "How could experimenters deal with this problem when the nature of the process does not follow the classical assumptions of normality and linearity?". Connecting this question with the present state-of-the-art in RSM, the second question that we address is: "How could one design a sequential strategy to learn about the operation of a system with binary response, when certain objectives are persecuted?". In order to explore these questions deeper by means of a methodological support, we leaned towards the GLM approach. These models -presented and formulated primarily in the work of Nelder and Wedderburn (1972)- are the tool that we have chosen in order to find a systematic applied methodology, that aims for suitable models that can be fitted to binary response.We consider as a particular strategy, the one in which the experimenter has a fixed number of observations to be made, in what we labeled as "strategy of fixed budget". Thus, the objective will be to quantify the information gain once we have used all the budget available. In both cases, our plan is to carry out 2-level factorial and sequential designs. Our approach starts with a definition of a family of design strategies for exploration of a process that is being represented by a certain response surface. These strategies are characterized though three variables: w, bounded between 0 and 1, used to define the first experimentation center point. Once that is determined, a second variable is considered: L, or the range of variation of the factors. Finally, when several experimental conditions were considered, the variable S, identifies the jump length that connects one center point of experimentation with the following one, Having defined the scope this way, we can say that a design strategy may be characterized by means of a three-variable picture: L, S and w. Once the experimenter defined what kind of response surface is the best one to approach the real process, the goal will be to find the levels of L, S and w that maximizes the value of two alternative criteria: the first one is based on the determinant of the Fisher's Information Matrix, and it captures (he amount of information gathered by the design, and the second one is the value taken by the theoretical surface on the maximum of the fitted surface. In order to this scope, we have written some programs in R language (www.r-proiect.org), a powerful and flexible environment of programming and doing statistics.A complete bibliographical review of both topics (RSM and GLM), as well as the design of "ad-hoc" specific software, try to offer a new and an original point of view to study this problem, which maybe useful as a starting point for continuing the research in these areas and the link between these two methodologies. It is of special interest the exploration of new practical applications to real problems based on some objective criteria that can support the process of decision making.