Ciclo de Palestras – Primeiro Semestre de 2009

As palestras são realizadas na sala C-116 do Centro Tecnológico as 15:30 h, a menos que ocorra aviso em contrário.

Our article is concerned with adaptive sampling schemes for Bayesian inference that update the proposal densities using previous iterates. We introduce a copula based proposal density which is made more efficient by combining it with antithetic variable sampling. We compare the copula based proposal to an adaptive proposal density based on a multivariate mixture of normals and an adaptive random walk Metropolis proposal. We also introduce a refinement of the random walk proposal which performs better for multimodal target distributions. We compare the sampling schemes using challenging but realistic models and priors applied to real data examples. The results show that for the examples studied, the adaptive independent Metropolis-Hastings proposals are much more efficient than the adaptive random walk proposals and that in general the copula based proposal has the best acceptance rates and lowest inefficiencies.

This is joint work with Robert Kohn, Paolo Giordani and Xiuyan Mun.

Motivated by the problem of predicting annual wet chemical deposition in the eastern United States, this paper develops a framework for joint modeling of point and grid referenced spatio-temporal data in this context. The proposed hierarchical model is able to provide accurate spatial interpolation and temporal aggregation by combining information from observed point referenced monitoring data and gridded output from a numerical simulation model known as the Community Multi-scale Air Quality (CMAQ) model. The technique avoids the change of support problem which arises in other hierarchical models for data fusion settings to combine point and grid referenced data. The hierarchical space-time model is fitted to weekly wet sulfate and nitrate deposition data over the eastern United States. The model is validated with set-aside data from a number of monitoring sites. Predictive Bayesian methods are developed and illustrated for inference on aggregated summaries such as quarterly and annual deposition maps.

This is joint work with Sujit K. SAHU and David M. HOLLAND.

This work proposes a supervised classification approach for the differential diagnosis of Raynaud’s phenomenon on the basis of functional infrared imaging data. The classification of data from healthy subjects and from patients suffering for primary and secondary Raynaud’s Phenomenon was first attempted by means of linear discriminant analysis (LDA). Since direct application of LDA on raw data does not lead to satisfactory results, we shall show that a substantial improvement of the classification can be achieved by addressing the problem of feature extraction by means of functional variables and shape measures. The results of the proposed methodology are shown and discussed for a data set of 29 subjects.

This is joint work with Simone Di Zio.

Evolução das linguagens faladas
Paulo M. C. Oliveira (UFF)
As línguas faladas pelo homem evoluem, uma dando origem a outras novas. Linguistas são capazes de medir a distância entre duas línguas atuais. Quanto maior for tal distância, mais remota no tempo estará a língua passada ancestral comum às duas atuais. Assim, as idades das línguas atuais e ancestrais podem ser inferidas, e famílias de línguas são definidas, apenas com o conhecimento das línguas atuais. É um trabalho de reconstrução histórica do passado, da frente para trás, como fazem os geneticistas e biólogos.
Construimos um modelo computacional de árvore muito simples, em que cada língua sofre constantemente mutações e às vezes se bifurca em duas. Num determinado instante da evolução dessa árvore, podemos medir distâncias entre pares de línguas, e daí inferir idades e definir famílias, da frente para trás como os linguistas. Na simulação, porém, podemos fazer o que os linguistas não podem: seguir toda a história das bifurcações, de trás para frente, e comparar o resultado real com o inferido.
Os dados reais disponíveis são o número de falantes de cada língua atual, e as línguas pertencentes a cada família. Com tais dados, construimos a distribuição de línguas de acordo com o tamanho das populações falantes, bem como a distribuição de famílias de acordo com seu tamanho (número de línguas pertencentes à mesma família). Os resultados de nossas simulações reproduzem perfeitamente a realidade. Um resultado interessante é que a taxa de mutação é a mesma para todas as línguas, independente das populações de falantes, indicando ser essa evolução uma característica do ser humano e não da sociedade.

Sistemas determinísticos – uma perspectiva estocástica
Marcelo Viana (IMPA)
A evolução de grande parte dos fenômenos naturais é descrita por modelos matemáticos determinísticos, tais como equações diferenciais, iteração de transformações ou equaçoes diferenciais parciais de evolução.
No entanto, diversos avanços realizados no século XX levaram à descoberta de que a compreensão e previsão do comportamento assintótico de tais fenômenos frequentemente exige uma abordagem de natureza estocástica.
Faremos uma apresentação auto-contida das principais idéias que constituem esta teoria e de alguns resultados recentes.

Exceptional rainfall events occurred during mid-December 1999 produced floods and landslides along the north central coast of Venezuela with over 10,000 fatalities reported and economic looses estimated at over 1.8 million (Lyon, 2003). Similar events occurred also in February, 1951 and February 2005. Wieczorek et al. (2001) also reported that many of these severe events documented in the region have occurred during the period November-February. Common features of the combined anomalies in the Equatorial Pacific and the North Tropical Atlantic sea surface temperature (SST) were found for most of the extreme rainfall events. The aim of the analysis is to detect potential changes in mean daily precipitation and monthly daily maxima during the November-February months. Dependencies of extremes and mean daily values on the oceanic features are analyzed using time varying models. To explore changes in mean daily rainfall dependence on the SST anomalies, a normal distribution for the cubic root of mean daily rainfall with a temporal component defined through a Dynamic Linear model (DLM) or state space representation was used. On another hand, a non-stationary Generalized Extreme Value (GEV) model with a time-varying dependence of the location parameter on the oceanic anomalies, was used to evaluate monthly daily maxima changes with time. A more clear signal of change is observed for the extreme values than for the mean values, which agrees with the potential rainfall changes projected under climate change.

This is joint work with Gabriel Huerta (University of New Mexico) and Bruno Sansó (University of California at Santa Cruz)

Um dos grandes problemas enfrentados por Sistemas de Informação de Saúde é a ocorrência de subnotificações de nascimentos e óbitos (e doenças), que ainda hoje em algumas regiões do país, como a Norte e a Nordeste, são preocupantes. Outro fator limitativo é a existência de um número razoável de nascimentos que somente são registrados em anos posteriores (registro atrasado de nascimento). Estes problemas trazem como conseqüência,

imprecisões nas estimativas, diminuindo/ou aumentando, sobremaneira, as taxas de mortalidade (ou incidência de doenças), não porque a área tenha realmente menor/ou maior risco, e sim pelo fato dos óbitos e/ou nascimentos
(ou doenças) não serem registrados na sua totalidade. Acrescida a esta problemática, depara-se, em vários municípios brasileiros, com elevado número de óbitos por causas desconhecidas ou mal-definidas, as quais passam a ocupar lugar de destaque dentre as principais causas de morte, não refletindo a realidade dos padrões de mortalidade desses municípios. Assim, este seminário tem como objetivo apresentar uma alternativa para inferir sobre os números de casos (nascimentos, óbitos ou doenças) em uma determinada população, a partir de uma amostra com dados incompletos. Nesse intuito, e com este propósito, será apresentado de forma suscinta o algoritmo EM, (“Expectation Maximization”) bastante citado na literatura bayesiana contemporânea. Uma forma particular deste algoritmo é obtida quando a distribuição de referência pode ser expressa como casos especiais pertencente à família exponencial generalizada. Após simular a população, será coletada uma amostra, no qual será obtida uma estimativa do verdadeiro número de casos ou ocorrências, em seguida, será empregado um método de reamostragem Bootstrap, com a finalidade de medir a variabilidade e o erro Monte Carlo e, a partir deste, criar intervalos de credibilidade para o parâmetro de interesse, implementando todas as simulações com o software estatístico R.

Geostatistics of extremes
Anthony Davison (Lausanne)
Climatic change is forecast to change the frequency and sizes of extreme events such as major storms, heatwaves and the like, and the effects on human mortality, health and infrastructure are starting to become of major concern to public health authorities, engineers, and other planners. Predicting the possible impacts of such events necessarily entails extrapolation outside the range of the available data, and the usual basis for this is the statistics of extremes and its underlying probability models. Analysis of extreme events for single series of data is now well-established and used in a variety of disciplines, from hydrology through metallurgy to finance and insurance, but the corresponding theory for events in space is underdeveloped. After some motivating material, this talk will describe the basic probabilistic theory of extremes, and then will outline how it may be extended to the spatial context, before turning to more statistical matters such as fitting of appropriate models to data and their use for prediction of future events.

Bayesian model-based clustering procedures and application to gene expression profiles
Peter J. Green (Bristol)
We present a general framework for Bayesian model-based clustering, in which subset labels are exchangeable, and items are also exchangeable, possibly up to covariate effects. It is rich enough to encompass a variety of existing procedures, including some recently discussed methodologies involving stochastic search or hierarchical clustering, but more importantly allows the formulation of clustering procedures that are optimal with respect to a specified loss function. Our focus is on loss functions based on pairwise coincidences, that is, whether pairs of items are clustered into the same subset or not.
We go on to discuss a Bayesian mixture model that allows us to express a gene expression profile across different experimental conditions as a linear combination of covariates characterising those conditions, plus error. In a standard Bayesian nonparametric formulation, the regression coefficients of the linear combination and the error precisions would jointly follow a Dirichlet process (DP). In this set-up the clusters generated by the process are a priori exchangeable. However in the gene expression context, it commonly occurs that some genes are not influenced by the covariates, but fall into a `background’ class. This calls for an extension to the DP model generating a background cluster that is not exchangeable with the others.
This is joint work with Dr John Lau, now at University of Western Australia.