Atividades de Pesquisa
A Estatística e a Probabilidade, nas últimas décadas, desenvolveram-se de forma muito acelerada, quer pelo desenvolvimento teórico quer pelos novos avanços tecnológicos e facilidades computacionais. Algumas áreas de aplicação colocaram vários desafios para os métodos estatísticos e probabilísticos, como por exemplo, Processamento de Imagem, Biotecnologia, Estatísticas oficiais, Reconhecimento de Padrões, Confiabilidade, Estatística forense ou Criminologia, Física de partículas, Física quântica, Teoria da Informação, Atuária e Economia. Neste mesmo período, a modelagem e análise probabilística complexa e a filosofia e o método Bayesiano adquiriram um status especial e penetraram em praticamente todas as áreas do conhecimento incluindo algumas onde as aplicações de Estatística e Probabilidade pareciam remotas.
Em nosso programa na UFRJ desenvolvemos pesquisas em temas contemporâneos em vários ramos da estatística e da probabilidade, incluindo: Análise de Dados Espaço-temporais, Análise de Sobrevivência e Confiabilidade, Estatística Espacial, Percolação, Teoremas Limite para Sistemas de Partículas e Teoria dos Valores Extremos com aplicações em: atuária, ciências ambientais, epidemiologia, hidrologia, finanças, física-matemática. Na Estatística, muitos de nossos pesquisadores usam a metodologia Bayesiana como uma filosofia e também como ferramenta para resolver problemas do estado da arte nas mais diferentes área da Estatística. Na Probabilidade temos um grupo atuando destacadamente em Processos Estocásticos e com aplicações em distintos campos.
Nossas principais áreas de pesquisa estão listadas abaixo.
Linhas de Pesquisa PPGE – Estatística:
Econometria e Atuária
A Econometria caracteriza-se por um conjunto de métodos desenvolvidos para a análise estatística de modelos econômicos. Estes podem ser modelos tipo cross-section ou modelos de séries temporais. Nas últimas décadas, especial ênfase tem sido dada à modelagem de problemas em finanças visando descrever evolução de preços ou retornos para auxiliar a tomada de decisão na elaboração de portfólios, precificação de opções, entre outros objetivos.
A Atuária é campo da Matemática que estuda fenômenos de risco sob incerteza. Alguns temas relacionam-se com a teoria da ruína e com a tarifação de seguros. Desenvolvimento de métodos estatísticos para esses modelos é demanda de grande relevância.
Os principais temas nesta linha atualmente são:
● modelos heteroscedásticos de regressão baseados em misturas de normais
● modelos para funções de produção estocástica com múltiplo output
● teoria do risco e da ruína: modelos para determinação de reservas
● técnicas de graduação para elaboração de evoluções de tábuas de sobrevivência
Estatística Espacial e Modelos Espaço-Temporais
Esta é a área da Estatística que modela fenômenos descritos por múltiplas variáveis em diferentes localidades ao longo do tempo. Estes modelos prestam-se principalmente a fazer interpolação (espacial) e previsão (temporal). Por exemplo, em ciências ambientais, deseja-se estimar os níveis de poluentes num local não medido (interpolação espacial), determinar a localização de uma rede de estações de monitoramento ou mesmo prever a evolução do processo de poluição.
Assume-se, em geral, que o processo espacial sob estudo é homogêneo. Nas aplicações com frequência essa hipótese é questionável. Outra suposição comum em processos espaço-temporais é que a covariância do processo é separável. Essa hipótese é igualmente restritiva e ditada por questões de tratabilidade da análise.
Os principais temas nesta linha atualmente são:
- modelos não-estacionários para dados espaciais
- estimação da taxa de intensidade em processos pontuais
- estruturas de covariância espaço-temporais não-separáveis
- dimensionamento ótimo de redes de monitoramento
- confundimento espacial
- modelagem de redes Bayesianas
Modelos Hierárquicos e Dinâmicos
Esta é a área da estatística que analisa dados através de modelos estruturados em diferentes níveis, de forma a caracterizar adequadamente a multiplicidade de componentes envolvidos. Exemplos incluem modelos de componentes latentes e modelos dinâmicos. A última classe envolve modelos para dados uni ou multivariados indexados no tempo. Os modelos dinâmicos ou em espaço de estados tiveram acelerado desenvolvimentos nas últimas décadas e são hoje técnicas indispensáveis para o estatístico moderno, quer aplicado ou teórico.
Os principais temas nesta linha atualmente são:
● modelos dinâmicos não lineares e não normais: inferência e aspectos
computacionais
● modelos dinâmicos hierárquicos e multivariados, incluindo aplicações
● modelos econométricos dinâmicos com base em microfundamentos
● modelos de variáveis latentes ou fatores
● modelos de teoria de resposta ao ítem
Análise de Sobrevivência e Confiabilidade
Um ramo da estatística que atua com a morte em organismos biológicos, falhas em componentes ou sistemas industriais ou tempo de duração de eventos econômicos. Envolve a modelagem de dados relacionados ao tempo de ocorrência de algum evento de interesse. Questões típicas da área são:
Qual proporção de uma população sobrevive a um dado tempo?
Entre os sobreviventes, qual seria a taxa de morte ou falha?
Poderíamos ter causas múltiplas de falhas?
Quais características particulares ou covariáveis, na linguagem estatística, levam a taxas maiores ou menores de sobrevivência?
Os procedimentos de análise de sobrevivência e confiabilidade podem ser aplicados às mais variadas áreas do conhecimento.
Os principais temas nesta linha atualmente são:
● uso de técnicas não-paramétricas para estimação da taxa de falha
● análise de modelos com fragilidades
● modelos com taxas de falhas não-proporcionais
Amostragem de População Finita
Nesta linha de pesquisa desenvolvem-se aspectos metodológicos de estimação de modelos paramétricos na presença de amostragem complexa. Uma das aplicações relevantes relacionadas a este tema de pesquisa é em estimação em pequenos domínios.
A dificuldade na obtenção de estimativas para pequenos domínios é o pequeno tamanho de amostra e portanto a necessidade de emprestar informações entre os domínios por meio de modelos de superpopulação apropriados.
Os principais temas nesta linha atualmente são:
● modelos para dados de contagem em pequenos domínios
● modelos para planos amostrais informativos
● análise de dados com excesso de zeros em pequenos domínios
● modelos espaço-temporais para predição de populações
● tratamento de não resposta informativa
● estimadores Bayesianos
Modelagem de dados de alta dimensão
Esta linha de pesquisa desenvolve metodologias estatísticas para a análise de conjuntos de dados com número de variáveis muito superior ao de observações. O foco atual reside em modelos multivariados baseados em fatores latentes, que reduzem a dimensionalidade, capturam dependências complexas e possibilitam inferência Bayesiana rigorosa preservando a viabilidade computacional. As aplicações contemplam genômica, finanças, ciências sociais computacionais e outros domínios que exigem tratamento de dados em larga escala.
Esta linha de pesquisa investiga modelos probabilísticos para processos pontuais espaciais e espaço-temporais, com ênfase em inferência Bayesiana completa para quantificação de incerteza e incorporação de conhecimento prévio. As abordagens exata e com aproximação para realizar a inferência são contempladas. Os estudos abrangem modelagem de funções de intensidade não homogêneas, estruturas hierárquicas para dependência complexa, extensões para lidar com dados parcialmente observados e/ou observados com vício, modelagem conjunta de múltiplos processos pontuais, algoritmos computacionais escaláveis (MCMC e afins) e avaliação preditiva em aplicações como epidemiologia, sismologia e mercados financeiros.
Inferência causal e modelos gráficos
Esta linha de pesquisa desenvolve modelos gráficos probabilísticos — em especial redes Bayesianas — capazes de representar dependências temporais, não-estacionariedade e relações causais. A estrutura do grafo e as distribuições locais são inferidas de forma plenamente Bayesiana, garantindo quantificação de incerteza e suporte robusto à decisão em sistemas complexos de grande escala.
Os principais temas nesta linha atualmente são:
● Topologia e otimização de redes Bayesianas – elicitação de especialistas, busca de estrutura e inferência Bayesiana completa.
● Inferência causal “path-specific” – identificação de efeitos causais ao longo de trajetórias específicas dentro do grafo.
● Modelos gráficos de decisão via multi-regressão quantílica – avaliação preditiva de riscos e apoio à escolha sob incerteza.
● Modelos gráficos dinâmicos e segurança alimentar – avanços teóricos e aplicação a séries temporais de abastecimento.
Robustez
Modelos estatísticos que fornecem resultados consistentes e confiáveis mesmo quando os dados contêm valores atípicos, extremos ou influências incomuns. Métodos estatísticos robustos são projetados para lidar melhor com dados que não seguem estritamente as suposições tradicionais, como a normalidade. Essa abordagem visa mitigar os efeitos adversos de observações incomuns, garantindo que as conclusões estatísticas sejam mais resilientes e aplicáveis em uma variedade de cenários. A robustez estatística busca manter a validade e precisão das análises mesmo em presença de dados atípicos.
Aprendizado de máquina e inteligência artificial
Modelos de aprendizagem de máquina e inteligência artificial descrevem relações entre variáveis de forma não-paramétrica através de funções que apresentam elevado grau de flexibilidade. Estes modelos costumam ser aplicados em contextos de sinal/ruído em que o sinal é altamente complexo, porém forte, como por exemplo em classificação de imagens naturais, detecção de objetos, aprendizagem por reforço, processamento de linguagem natural, entre outros. Dado o alto grau de complexidade do sinal nessa classe de problemas, torna-se necessária a análise de grandes bases de dados. Neste contexto, o treinamento de modelos de aprendizagem de máquina e inteligência artificial envolve rotinas de otimização eficientes capazes de processar subconjuntos da base de dados de forma rápida, comumente utilizando-se de processamento em paralelo.
Os principais temas nesta linha atualmente são:
● Modelos de redes neurais para regressão e classificação
● Regularização em modelos de aprendizagem de máquina
● Aprendizagem de máquina aplicada a problemas de visão computacional e processamento de sinais
Música e Matemática
Em linhas gerais, nesta área busca-se compreender aspectos musicais através de modelos matemáticos, probabilísticos e/ou estatísticos, sendo a recíproca — entendimento de modelos matemáticos através de elementos musicais — também viável.
Por exemplo, a partir da gravação de uma música, como podemos separar os instrumentos ou inferir sua progressão de acordes? Como remover ruídos de sinais
musicais obtidos de mídias fisicamente degradadas? Modelagens através de cadeias de Markov são acuradas para descrever aspectos musicais (harmonia, melodia, textura, dentre outros) em determinada peça ou obra de um compositor?
Historicamente, música e matemática somente passaram a ser vistas como disciplinas distantes nos últimos dois séculos. Tal reaproximação é importante para
aspectos de preservação e compreensão cultural e cognitiva, e também para permitir que ambas as áreas voltem a trocar ideias e intuições entre si.
Os principais temas nesta linha atualmente são:
● processamento estatístico de sinais musicais
● recuperação de informações musicais via técnicas de aprendizagem de
máquina
● métodos Bayesianos em restauração de áudio
● Modelos matemáticos e probabilísticos em análise e composição musical
Linhas de Pesquisa PPGE – Probabilidade
Teoremas limite para processos estocásticos
Teoremas limite clássicos, como a Lei dos Grandes Números e o Teorema do Limite Central para variáveis aleatórias independentes e identicamente distribuídas, já revelam como a escolha apropriada de escalas resulta em comportamentos assintóticos distintos de funcionais de processos estocásticos. A compreensão de diferentes regimes de convergência em função de uma escolha apropriada de escalas espaço-temporais é fundamental em modelos de ciências como física, biologia e química, no que tange a explicar a conexão entre o comportamento microscópico e o comportamento macroscópico de um sistema. Inclui-se nestes casos sistemas parametrizáveis onde pequenas variações nos parâmetros podem resultar em regimes de convergência distintos resultando em
fenômenos de transição de fase. Assim, faz-se necessário o desenvolvimento e aplicação de técnicas voltadas ao estudo de convergência de sistemas estocásticos complexos que visam não apenas estabelecer a existência do limite, mas também determinar a velocidade de convergência e a estabilidade do limite em função de variações do modelo.
Os principais temas nesta linha atualmente são:
● Propriedades Espaço-Temporais do Ponto Fixo da Classe de Universalidade KPZ
● Independência Assintótica via o Método de Malliavin-Stein
● Modelos de reação-difusão e equações diferenciais parciais estocásticas: limites em
escala e metaestabilidade
Modelagem Estocástica da atividade neuronal
Os neurônios representam e transmitem informação ao emitir pulsos elétricos de curta duração, chamados de disparos. Uma sequência de disparos é chamada de trem de disparos. Os registros da atividade neuronal revelam variabilidade do padrão de disparos em diferentes ensaios realizados sob as mesmas condições, assim como atividade irregular espontânea (sem presença de estímulo). Dessa forma, o tratamento rigoroso de fenômenos neuronais exige um quadro conceitual probabilístico. Questões centrais são: Que informação está codificada nos padrões de disparos? Qual é o código usado pelos neurônios para transmitir essa informação? Como outros neurônios decodificam o sinal? Como observadores externos, podemos ler o código e entender a mensagem presente nos padrões dos trens de disparos? Esta área de pesquisa tem como objetivo desenvolver modelos estocásticos e métodos estatísticos rigorosos e computacionalmente eficientes para dados de trens de disparos, visando responder tais questões centrais. Além disso, busca-se compreender as limitações de cada modelo e método proposto.
O principal tema nesta linha atualmente pode ser definido como:
● Inferência estatística de dinâmicas neuronais estocásticas
Percolação
O modelo matemático mais simples para percolação foi proposto por Broadbent e Hammersley em 1957 e deu origem a um ativo campo de pesquisa. Trata-se do conhecido modelo de percolação de Bernoulli, em que elos ou vértices em um dado grafo são considerados abertos ou fechados de acordo com uma medida produto de Bernoulli. Entre outros, um motivo para o interesse deste modelo reside no fato de apresentar uma transição de fase, com questões extremamente ricas e desafiadoras, muitas ainda em aberto, mesmo quando fáceis de formular. Modificando-se a medida produto acima para outra classe (Fortuin-Kasteleyn) tem-se uma relação estreita entre percolação e sistemas de spins, como o modelo de Ising e o modelo de Potts, modelos básicos da mecânica estatística. Questões importantes só examinadas recentemente dizem respeito ao comportamento próximo ao ponto crítico ou na criticalidade. Outros modelos envolvem dependência de longo alcance, ou ainda o tratamento de grafos muito diferentes, inclusive grafos aleatórios, como e.g. os motivados por redes sociais. O estudo
das propriedades percolativas e da geometria destes grafos apresenta desafios matemáticos interessantes.
Os principais temas nesta linha atualmente são:
● Processos de Contato Generalizados
● Percolação em ambiente não homogêneo
Passeios aleatórios fornecem um modelo simples para descrever processos de difusão de matéria em um dado meio-ambiente. Geralmente o meio é modelado como um grafo, e um passeio aleatório no grafo é uma sequência (aleatória) de vértices do grafo gerada da seguinte forma: dado um vértice inicial, escolha um vizinho aleatoriamente e mova-se para este vizinho; então escolha aleatoriamente um vizinho deste vértice, e mova-se para ele e assim por diante. Passeios aleatórios têm sido estudados em grafos infinitos, como reticulados, e questões típicas dizem respeito a recorrência ou transiência ligadas à possibilidade de retornar ao estado inicial e com que frequência. Em grafos finitos os aspectos estudados são mais quantitativos e têm relevância para muitas aplicações,
incluindo estimativas da velocidade de convergência ao equilíbrio.? Ademais, como os meios são altamente irregulares, devido a defeitos, impurezas, etc. , o ambiente é modelado como um objeto aleatório. As probabilidades de visitar vizinhos de um determinado vértice sendo escolhidas aleatoriamente de acordo com uma certa distribuição de probabilidade que depende do ambiente. O ambiente aleatório pode ser estático ou dinâmico, busca-se entender quando o passeio é transiente/recorrente em função do ambiente. Passeios aleatórios em ambientes aleatórios exibem uma forte dependência entre as trajetórias do
passeio e o ambiente, entretanto o ambiente nesses modelos é independente do passeio. Modelos recentes de passeio aleatório têm se concentrado em estudar situações em que o ambiente é um processo dinâmico conduzido pelo próprio passeio, por exemplo, passeios aleatórios reforçados e, mais recentemente, modelos em que o passeio aleatório constrói o grafo enquanto se movimenta.
Os principais temas nesta linha atualmente são:
● Dinâmica de operadores de transição e suas aplicações
● Passeios aleatórios não markovianos
● Cadeias de Markov auto-mudáveis
Sistemas estocásticos com componentes em interação
Consideram-se sistemas estocásticos que assumem valores em um espaço de configurações que podem ser descritas a partir de um conjunto finito ou enumerável S de posições (objetos ou indivíduos) e um conjunto de estados A de forma que a cada posição em S é atribuído um estado em A. Quando a evolução do sistema é descrita por mecanismos aleatórios que trocam o valor da configuração em subconjuntos de S com base no valor da configuração em outros subconjuntos de S (interação entre estados de posições distintas), temos os chamados sistemas com componentes em interação. O estudo de propriedades desses sistemas surgiu na década de 70 com os modelos de sistemas de partículas e difusões em interação. Desde então se tornou uma das áreas mais férteis
dentro da teoria de processos estocásticos com problemas matemáticos desafiadores e aplicações fundamentais ao desenvolvimento teórico de modelos em ciências como física e biologia. Alguns dos modelos nesta área estão entre os mais estudados na literatura recente em processos estocásticos como o processo de exclusão, dinâmicas estocásticas de spins, processos de contato e variações.
Os principais temas nesta linha atualmente são:
● Convergência de sistemas de passeios aleatórios
● Metaestabilidade para o contacto bidimensional com dois tipos de partículas e
prioridades