Seminario de Estadística


2013-05-24
Alejandro Murúa. Departamento de Matemática y Estadística, Universidad de Montreal, Canadá
El modelo de biclustering penalizado de cuadrados escoceses
Sala 1 - Facultad de Matemáticas - 12:00 Hrs.
Abstract:
Abstract:

En la literatura se han propuesto muy pocos modelos estadísticos de biclustering. La mayor parte de la investigación se ha centrado en algoritmos para encontrar biclusters. Los modelos subyacentes no han recibido mucha atención. Por lo tanto muy poco se sabe acerca de la idoneidad y las limitaciones de los modelos y la eficiencia de los algoritmos. En este trabajo investigamos los modelos estadísticos reales detrás de los algoritmos. Esto nos permite generalizar la mayor parte de las técnicas de biclustering, justificar y muchas veces mejorar, los algoritmos utilizados para encontrar los biclusters. Resulta que la mayor parte de las técnicas conocidas tienen un sabor bayesiano oculto. Por lo tanto, proponemos un marco bayesiano para modelar biclustering. También proponemos una medida de complejidad del biclustering (superposición) a través de un modelo a cuadros escoceses penalizado, y presentamos un criterio DIC modificado para elegir el número apropiado de biclusters, un problema que aún no ha sido tratado adecuadamente. Mostramos algunas aplicaciones de estas ideas a los datos de expresión genética. Este es un trabajo conjunto con Thierry Chekouo (MD Anderson Research Center).


"
2013-05-03
Ricardo Bórquez. Pontificia Universidad Católica de Chile
Inference on Financial Bubbles
Sala 1 - 12:00 Hrs. Facultad de Matemáticas
Abstract:
Abstract

Testing for rational bubbles in financial asset prices has proven to be difficult. A cite quote from Gürkaynak (J. Econ. Surveys, 2008) states: “For each paper that finds evidence of bubbles, there is another one that fits the data equally well without allowing for a bubble”. In the context of the simple stock price model it has been suggested that a rational bubble cannot be distinguished from the fundamental price. We show that this assertion is true not only for the stock price model but for any fundamental price that is determined by arbitrage arguments. In particular, bubbles defined as processes with explosive conditional mean -which is standard in the financial literature- are identified only on a set of null probability. More in general, because identification of ratio
2013-04-26
Vanda Inácio de Carvalho. Pontificia Universidad Católica de Chile
Functional area under the curve regression: a metabolic syndrome case study
Sala 1 - Facultad de Matemáticas - 12:00 Hrs.
Abstract:
Abstract
The statistical evaluation of diagnostic tests and screening procedures is of great importance in public health and medical research. New diagnostic and screening procedures must be rigorously evaluated in order to determine their abilities to discriminate between diseased and nondiseased states. Characterization of factors affecting test performance is a crucial step in the evaluation process. It is important to understand the covariate influence to determine the optimal and suboptimal populations to perform such tests on. We develop nonparametric regression methods for the area under the receiver operating characteristic curve, a well-accepted summary measure of diagnostic test accuracy, for the case where the covariate influe
2013-04-12
Miguel de Carvalho. Pontificia Universidad Católica de Chile
Bayesian P-spline mixture modeling of extreme forest temperatures
Sala 1 - Facultad de Matemáticas - 12:00 Hrs
Abstract:

2013-04-05
9:00hrs.
Emilio Porcu. Pontificia Universidad Católica de Chile
Compactly supported correlation functions in multivariate Geostatistics
Sala 1 - 12:00 Hrs. Facultad de Matemáticas _PUC
Abstract:
We propose a new family of matrix--valued covariance functions being compactly supported over balls of R^d with given radii. We show the mathematical construction and then illustrate the statistical features as well as the computational gains obtained for estimating the spatial dependence through maximum likelihood techniques.
2013-04-05
Moreno Bevilacqua
Estimating covariance models in large spatio-temporal data: the covariance quasi tapering method
Sala 1 - 12:00 Facultad de Matemáticas
Abstract:
Abstract:
In the last years there has been a growing interest in proposing methods for estimating covariance functions for geostatistical spatio temporal data. Among these, maximum likelihood estimates have nice features when we deal with a Gaussian model. However maximum likelihood becomes impractical when the number of observations is very large in time or in space. We present the method of the covariance quasi tapering as an alternative of the maximum likelihood estimation and we describe the statistical and computational properties of the method.

2012-12-14
Peter Mueller. Department of Mathematics, The University of Texas At Austin
A Nonparametric Bayesian Model for Local Clustering
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas -12:00 Hrs.
Abstract:

Abstract:
We propose a nonparametric Bayesian local clustering (NoB-LoC) approach for heterogeneous data. Using genomics data as an example, the NoB-LoC clusters genes into gene sets and simultaneously creates multiple partitions of samples, one for each gene set. In other words, the sample partitions are nested within the gene sets. Inference is guided by a joint probability model on all random elements. Biologically, the model formalizes the notion that biological samples cluster differently with respect to different genetic processes, and that each process is related to only a small subset of genes. These local features are importantly
different from global clustering approaches such as hierarchical clustering, which create one partition of samples that applies for all genes in the data set. Furthermore, the NoB-LoC includes a special cluster of genes that do not give rise to any meaningful partition of samples. These genes could be irrelevant to the disease conditions under investigation. Similarly, for a given gene set, the NoB-LoC includes a subset of samples that do not co-cluster with other samples. The samples in this special cluster could, for example, be those whose disease subtype is not characterized by the particular gene set.

Keywords: DIRICHLET PROCESS, GENE SET, MASS CYTOMETRY, P´OLYA URN,PROTEIN EXPRESSION, RPPA, RANDOM PARTITIONS

"
2012-11-30
Alejandro Jara. Pontificia Universidad Católica de Chile
The Polya Tree Sampler: Toward Efficient and Automatic Independent Metropolis-Hastings Proposals
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00 hrs
Abstract:
Abstract:

We present a simple, efficient, and computationally cheap sampling method for exploring an unnormalized multivariate density, such as a posterior density, called the Polya tree sampler. The algorithm constructs an independent proposal based on an approximation of the target density which is built from a set of (initial) support points and the predictive density of a finite multivariate Polya tree. In an initial warming-up phase, the support points are iteratively relocated to regions of higher support under the target distribution to minimize the distance between the target distribution and the Polya tree predictive distribution. In the sampling phase, samples from the final approximating mixture
2012-11-16
Alessandra Guglielmi. Department of Mathematics, Politecnico Di Milano
A density-based´´ algorithm for cluster analysis using species sampling Gaussian mixture models"
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas 12:00 a 13:00 Hrs.
Abstract:
In this talk I will present a new model for cluster analysis in a Bayesian nonparametric framework. It combines two ingredients, species sampling mixture models of Gaussian distributions on one hand, and a deterministic clustering procedure (DBSCAN) on the other. Here, two observations from the underlying species sampling mixture model share the same cluster if the distance between the densities corresponding to their latent parameters is smaller than a threshold. We complete this definition in order to define an equivalence relationship among data labels. The resulting new random partition is coarser than the one induced by the species sampling mixture. Of course, since this procedure depen
2012-11-16
Alessandra Guglielmi. Department of Mathematics, Politecnico Di Milano
A density-based´´ algorithm for cluster analysis using species sampling Gaussian mixture models"
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas 12:00 a 13:00 Hrs.
Abstract:
In this talk I will present a new model for cluster analysis in a Bayesian nonparametric framework. It combines two ingredients, species sampling mixture models of Gaussian distributions on one hand, and a deterministic clustering procedure (DBSCAN) on the other. Here, two observations from the underlying species sampling mixture model share the same cluster if the distance between the densities corresponding to their latent parameters is smaller than a threshold. We complete this definition in order to define an equivalence relationship among data labels. The resulting new random partition is coarser than the one induced by the species sampling mixture. Of course, since this procedure depen
2012-10-26
Sébastien Van Bellegem. Core, Université Catholique de Louvain
High dimensional portfolio optimization by wavelet thresholding
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas 12:00 Hrs.
Abstract:
The static mean-variance portfolio optimization takes the form of a quadratic programming problem under a linear constraint and uses the mean return vector and the cross-covariance matrix of an N-dimensional stationary process as inputs. Due to the fact that the process cannot be observed directly the mean return vector and the covariance matrix need to be replaced by estimates. In high-dimensional settings, e.g. when the number of assets is large relative to the sample size, the empirical covariance matrix is badly
conditioned. Inversion of the covariance matrix is therefore unstable and portfolio optimization behaves poorly. In this talk we argue that, under realistic assumptions, wavelet bases are well suited to concentrate the information of the covariance matrix on a small number of coefficients. In other words, wavelets achieve some decorrelation of the stationary process. We exploit this property and introduce a new thresholding rule of the empirical covariance matrix in the wavelet domain, based on a generalization of Tree Structured Wavelet (TSW) denoising. In contrast to standard wavelet thresholding approaches, this denoising do not
operate on each wavelet coefficient at a time but on groups of coefficients. We show that this method ensures the denoised empirical matrix to be a valid covariance matrix. The consistency of the denoising procedure is established and we derive an optimal thresholding rule. Simulation studies show the good performance of the final optimizer compared to benchmarks and optimizers
based on other regularization methods (such as e.g. Tikhonov).

This is a joint work with Daniel Koch (Catholic University of Louvain).
Keywords: High-dimensional data, Portfolio optimization, Unbalanced Haar wavelets, Regularization, Empirical covariance matrix

"
2012-10-05
9:00hrs.
Ronny Vallejos. Universidad Tecnica Federico Santa María
A Proposal for Reducing the Sample Size in Spatial Statistics
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00 Hrs.
Abstract:

A common practice in applied statistics is to determine the sample size n under independence. When the available data have an obvious correlation structure, the problem is how to determine the decrease of sample size as a function of correlation. This problem is relevant when a pilot study has been carried out in a certain region and it is of interest to study a regionalized variable in the same area. Recently, some attention has been devoted in the literature to the determination of geographical sample sizes (Griffth, 2005, 2008). In this talk a review of existing proposals for the reduction in sample size is presented. Then, a formula for computing the effective sample size (ESS) as a function of a correlation matrix R is introduced. We do an exploration for patterned correlation matrices, which arise for well known models in spatial statistics. Theoretical results supporting our proposal will be provided. In addition, the case in which the locations are random will be described. In particular, if two points are uniformly distributed on an r-dimensional sphere, the efective sample size is increasing in dimension. Extensions and open problems will be also outlined."

2012-09-21
Garritt Page. Pontificia Universidad Católica de Chile
Bayes Statistical Analyses for Particle Sieving Studies
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00 Hrs.
2012-09-07
Luis Sarro. Departamento Inteligencia Artifical Etsi
Statistical challenges of the Gaia astrometric space mission
AUDITORIO NINOSLAV BRALIC - FACULTAD DE MATEMATICAS - 12:00 Hrs.
Abstract:
Gaia is an ESA astrometric space mission that will provide astrometry and astrophysical parameters of up to one billion sources, including stars, asteroids, galaxies and quasars.

In this talk I will give an overall description of the Gaia mission, its design, instruments and capabilities, with an emphasis in the astrostatistical challenges that the catalog production involves. I will concentrate in the workpackages we are currently leading or contributing to in the areas of stellar variability and characterisation of ultra-cool dwarf stars.

Finally, I will briefly sketch the work done in the context of the Gaia-ESO survey, and related to statistics and machine learning.
2012-08-24
Carlos Araújo. Pontificia Universidad Católica de Chile
EL MENSAJE EDUCATIVO EN ESTADÍSTICA BÁSICA: QUÉ TRANSMITIR QUÉ NO TRANSMITIR Y QUIENES DEBEN TRANSMITIRLO
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas
Abstract:
La mayor parte de los temas que se presentarán en esta exposición se refieren a los artículos A01 hasta A07, que se presentan en el sitio http://www.mat.puc.cl/articulo268.html

Se comienza por constatar, en el A01, la incultura estadística que se observa en los países de América Latina a todo nivel (profesionales, políticos, investigadores y público general) la cual obviamente tiene su origen en el escaso avance de la Educación Estadística en esta región. Siendo la Estadística una disciplina de servicio, su avance está íntimamente ligado a la percepción que tienen de ella sus potenciales usuarios.

Por lo anterior, el mejoramiento de la enseñanza impartida en los cursos introductorios de Estadística (cursos de Estadística Básica) juega un importante rol estratégico para mejorar la pobre y confusa percepción que tienen de esta disciplina, sus potenciales usuarios.

Casi todas las contribuciones en materia de enseñanza de la Estadística están destinadas al cómo (uso de nuevas técnicas didácticas etc.) o bien al porqué (selección de métodos de interés para particulares educandos) o bien al cuándo (prerrequisitos para presentar algunos métodos estadísticos) enseñar Estadística, pero muy poco tiempo se ha destinado al qué conceptos básicos se deben o no se deben transmitir en la enseñanza de esta disciplina.

Esta presentación está destinada exclusivamente al último aspecto indicado. De otra forma se corre el riesgo de perfeccionar la docencia de conceptos erróneos.

En primer término debemos aceptar que resulta imposible enseñar Estadística sin transmitir una visión de sus objetivos o propósitos. Por lo tanto la condición básica para mejorar la enseñanza de la Estadística resulta ser una visión clara y consensuada de los propósitos de esta disciplina por parte de quienes asumen la responsabilidad de enseñarla.

En el artículo A02 se muestra la gran diversidad de definiciones de estadística en textos y sitios web que conlleva a diferentes y a veces contradictorias maneras de enseñar Estadística.

Seguidamente en A03 se presenta una definición de los propósitos de la Estadística que es completa (en el sentido de que incluye a todas las demás “definiciones”) y única (en el sentido de que sólo la Estadística tiene tales propósitos).

A base de esta definición, se presentan en A04 a A07 distintas recomendaciones sobre la Enseñanza de conceptos básicos en Estadística Descriptiva (o Análisis de Datos) y en Inferencia Estadística.

También surge de la definición presentada en el Seminario, que la Estadística no es una rama de la Matemática y en consecuencia el conocimiento de métodos matemáticos no asegura necesariamente una buena enseñanza de la Estadística, a cualquier nivel. Por tal motivo la enseñanza de esta disciplina debería estar a cargo de los estadísticos y donde esto no sea posible, el docente de Estadística además de un conocimiento razonable de los métodos matemáticos implícitos en los temas estadísticos que debe abordar, debería mostrar como principal requisito alguna familiaridad con la formulación de inferencias inductivas basadas en datos"
2012-08-10
Marco Batarce. Departamento de Ingeniería de Transporte y Logística, PUC
Urban Travel Demand Model with Endogenous Congestion
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00 Hrs.
Abstract:
We formulate and estimate a structural model for travel demand in which users have heterogeneous preferences and make their transport decisions considering network congestion. A key component in the model is that users have incomplete information about the preferences of other users in the network, and they behave strategically when making transportation choices on mode and number of trips. Under this setting, the congestion level is endogenously determined in the equilibrium of the game played by users. For the estimation, we use the first order conditions of the users´ utility maximization problem to derive the likelihood function. For inference, we apply a two-step semiparametric method. Using data from Santiago, Chile, we show that the esti
2012-06-01
Julián M. Ortiz. Ph.d. Director Laboratorio Alges, Advanced Mining Technology Center (Amtc) – Universidad de Chile
Simulación geoestadística utilizando estadísticas de patrones
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00 Hrs.
Abstract:
Abstract:
La geoestadística busca caracterizar fenómenos en Ciencias de la Tierra, a través de variables que cambian su comportamiento en el espacio. Estas variables regionalizadas, se modelan mediante variables aleatorias en cada posición del dominio, constituyendo una función aleatoria, que considera las inter-relaciones entre las variables aleatorias.

La geoestadística está tendiendo a utilizar herramientas estructurales más complejas que el variograma o la covarianza espacial, basando la inferencia de las distribuciones condicionales de las variables aleatorias, en inferencia a partir de patrones. Han surgido en consecuencia, varias técnicas de simulación geoestadístic
2011-11-18
Felipe Osorio. Universidad Técnica Federico Santa María
Selección automática del parámetro de penalización en suavizamiento spline
Sala 2 (Víctor Ochsenius) - 12:00 a 13:00 Hrs.
Abstract:
Un aspecto clave en suavizamiento spline es la selección del parámetro de penalización. En efecto, ha sido bien documentado que la presencia de outliers y/o observaciones extremas puede tener un fuerte impacto sobre el suavizamiento spline. Algunos estudios han estado enfocados en la selección robusta del parámetro de suavizamiento mediante proponer extensiones del método de validación cruzada generalizada. Con el objetivo de llevar a cabo la selección automática del parámetro de penalización se propone considerar la penalidad introducida en suavizamiento spline como un efecto aleatorio. La metodología propuesta permite la acomodación de observaciones atípicas mediante llevar a cabo la estimación de parámetros utilizando un algoritmo EM anidado considerando distribuciones con colas más pesadas que la normal. Se desarrolla algunos ejemplos con el objetivo de ilustrar la técnica. El enfoque propuesto puede ser visto como una alternativa a los procedimientos tipo validación cruzada.

Palabras clave: Algoritmo EM anidado; Outliers; Validación cruzada.

2011-11-11
Julián Ortiz. Universidad de Chile.
Simulación geoestadística utilizando estadísticas de patrones
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00 Hrs.
Abstract:
La geoestadística busca caracterizar fenómenos en Ciencias de la Tierra, a través de variables que cambian su comportamiento en el espacio. Estas variables regionalizadas, se modelan mediante variables aleatorias en cada posición del dominio, constituyendo una función aleatoria, que considera las inter-relaciones entre las variables aleatorias.
La geoestadística está tendiendo a utilizar herramientas estructurales más complejas que el variograma o la covarianza espacial, basando la inferencia de las distribuciones condicionales de las variables aleatorias, en inferencia a partir de patrones. Han surgido en consecuencia, varias técnicas de simulación geoestadística basadas en patrones, que permiten una mejor caracterización de la distribución espacial de atributos g
2011-11-04
Fabrizio Ruggeri. Cnr Imati, Milano, Italia
Modelling bugs introduction during software testing
Sala 2 (Víctor Ochsenius) - Facultad de Matemáticas - 12:00
Abstract:
In a context of software reliability, two models are presented to describe the case of reliability decay, due to the introduction of new bugs. Since the introduction of bugs is an unobservable process, latent variables are considered to take this process in account. The two models are based, respectively, on a hidden Markov model and a self-exciting point process with latent variables. Refik Soyer (George Washington University) and Antonio Pievatolo (CNR IMATI) are the co-authors of the work.