👽 Projeto Sassamaru
Documentação Técnica do Modelo Estatístico
Documento Técnico do Modelo Estatístico do Simulador de Campeonato Brasileiro
Introdução
Este documento descreve a arquitetura, a fundamentação estatística e a implementação do modelo híbrido desenvolvido para previsão de resultados de partidas do Campeonato Brasileiro de Futebol. O modelo combina a metodologia Elo para avaliação dinâmica de forças dos times com a modelagem de distribuição de gols baseada na distribuição de Poisson, criando um sistema que integra informações históricas e probabilísticas para estimar resultados futuros.
1. Fundamentação Estatística do Modelo
1.1 Modelo Elo Dinâmico para Força dos Times
O sistema Elo é uma metodologia consagrada para avaliação de força relativa entre competidores, originalmente usada em xadrez, mas amplamente aplicada em esportes. No contexto do futebol:
- Cada time inicia com uma pontuação inicial padrão (exemplo: 1500 pontos)
- Após cada partida, os ratings dos dois times são atualizados com base no resultado e na expectativa prévia
- A fórmula principal utiliza um fator de ajuste
Ke a diferença entre resultado esperado e real para corrigir os ratings - É aplicada uma vantagem para o time mandante, para refletir o benefício estatístico de jogar em casa
- Margem de gols influencia o fator
K, ponderando resultados mais expressivos
Este cálculo gera um histórico dinâmico que representa a força competitiva atualizada de cada time.
1.2 Modelo Poisson para Distribuição de Gols
A previsão dos gols segue a distribuição de Poisson, que é adequada para modelar eventos discretos raros em intervalos fixos, como gols em uma partida:
- Calcula-se a força ofensiva e defensiva relativa de cada time com base em dados históricos
- Estima-se a média esperada de gols para mandante e visitante considerando essas forças e a média geral da liga
- Utiliza-se a distribuição de Poisson para calcular a probabilidade de ocorrer um determinado número de gols para cada time
- Combinando as probabilidades independentes de gols de mandante e visitante, obtém-se a matriz de probabilidades dos possíveis placares
- A partir da matriz, computa-se a probabilidade de vitória do mandante, empate e vitória do visitante
1.3 Modelo Híbrido (Ensemble)
O modelo final combina o Elo e o Poisson:
- Ajusta a expectativa de gols esperados pelo modelo Poisson com base na diferença de ratings Elo, ponderada por um fator de influência
- Dessa forma, a força relativa dinâmica do Elo modifica diretamente as médias esperadas de gols
- Mantém a vantagem de jogar em casa dentro da avaliação
- Calcula as probabilidades finais de resultado (vitória, empate, derrota) a partir das distribuições ajustadas
2. Arquitetura do Sistema
2.1 Componentes Principais
- Carregamento e Preprocessamento dos Dados: Lê o arquivo CSV contendo dados históricos do campeonato. Realiza limpeza básica e transformação de tipos.
- Cálculo das Forças e Ratings: Calcula forças ofensivas e defensivas para o modelo Poisson, vantagens de casa, e executa o cálculo dinâmico do rating Elo histórico.
- Simulador Paralelo: Utiliza multiprocessamento para executar simulações de partidas com diferentes jogos e múltiplas repetições, aumentando desempenho.
- Interface Gráfica: Aplicação em Tkinter que permite inserir jogos, iniciar simulações, visualizar progresso e exibir resultados e rankings de Elo e xG.
- Geração de Relatórios: Após simulações, gera arquivo Markdown (.md) sumarizando probabilidades, gols esperados e palpites para cada jogo.
2.2 Fluxo da Aplicação
- Usuário inicia o app, que carrega o CSV e calcula o Elo dinâmico, forças e médias da liga
- Usuário insere até 10 jogos (mandante e visitante) e escolhe número de simulações (ex: 10 mil)
- O app paraleliza a execução das simulações utilizando o modelo híbrido para cada partida
- Progresso da simulação é mostrado na interface
- Ao final, arquivo Markdown com resumo estatístico é salvo e exibido para o usuário
- O usuário pode também visualizar os rankings de Elo e xG gerados a partir dos dados carregados
3. Implementação Técnica
3.1 Linguagem e Bibliotecas
- Python 3.13+ — linguagem principal
- Pandas — manipulação e análise de dados tabulares
- NumPy — cálculo eficiente de matrizes e probabilidades
- Tkinter — interface gráfica desktop
- Multiprocessing — paralelização para acelerar simulações
- CSV — leitura e escrita do banco de dados histórico
3.2 Estrutura do Código
Funções específicas para:
- Cálculo do Elo dinâmico (
atualizar_ratings_elo) - Cálculo das forças ofensivas e defensivas (
calcular_forcas_poisson) - Cálculo da distribuição de Poisson e previsão híbrida (
prever_partida_hibrido) - Execução paralela das simulações (
rodar_simulacao_paralela) - Interface gráfica (classe
SimuladorApp) com widgets para entrada, botões, barra de progresso e visualização - Adição de novos resultados no CSV para atualização dos dados
3.3 Otimizações
- Cache das previsões para evitar recomputações
- Paralelização das simulações para uso efetivo dos núcleos da CPU
- Limitação máxima de gols para cálculo rápido da distribuição Poisson
- Atualização dinâmica dos ratings Elo a partir dos dados reais para manter modelo alinhado com desempenho histórico
4. Conclusão
Este modelo estatístico híbrido implementa um método robusto para previsão de resultados do Campeonato Brasileiro, combinando análise histórica e probabilística avançada. A arquitetura modular e a interface gráfica amigável permitem fácil uso, enquanto as técnicas de paralelização garantem performance adequada para grandes volumes de simulações.
Este sistema pode ser expandido para incorporar outros fatores (lesões, transferências, clima) e melhorar a precisão das previsões, além de servir como base para sistemas de análise esportiva e apostas inteligentes.
APX A: Definição Formal do Modelo Estatístico
O que é um Modelo?
Um modelo é uma representação matemática, estatística ou computacional que busca descrever, explicar ou prever o comportamento de um sistema ou fenômeno real. No contexto da ciência de dados e estatística, modelos usam dados históricos para estimar relações entre variáveis e gerar previsões probabilísticas fundamentadas.
O Modelo Estatístico Implementado
O código desenvolvido constitui um modelo estatístico preditivo para partidas de futebol, cuja finalidade é estimar os resultados futuros com base em dados históricos de partidas já disputadas.
Ele combina dois métodos consagrados:
- Sistema Elo Dinâmico: Avalia a força relativa dos times ao longo do tempo, ajustando a pontuação (rating) de cada clube conforme o histórico de resultados. Considera a vantagem de jogar em casa e a margem de gols para refinar a avaliação.
- Modelo Poisson para Gols: Estima a probabilidade de cada time marcar um certo número de gols usando a distribuição de Poisson, adequada para eventos discretos e independentes. Leva em conta forças ofensivas e defensivas relativas, bem como médias gerais de gols no campeonato.
Natureza do Modelo
- É um modelo probabilístico, pois fornece distribuições de probabilidade para placares e resultados, não apenas previsões determinísticas
- É dinâmico, pois os ratings Elo são recalculados conforme novos dados são adicionados, refletindo a evolução da performance dos times
- É um modelo híbrido (ensemble), integrando informações de força relativa (Elo) e padrões de gols (Poisson) para melhorar a acurácia preditiva
Aplicação do Modelo
- Entrada: Dados históricos de partidas (placares, times, local da partida)
- Processamento: Cálculo dos ratings Elo, forças ofensivas/defensivas, vantagem de casa e simulação das partidas usando distribuição de Poisson ajustada pelo Elo
- Saída: Probabilidades de vitória, empate e derrota para cada jogo, gols esperados, e palpites de resultado mais provável
Importância e Uso
Este modelo permite análises quantitativas robustas, suporte a decisões (como apostas ou análises esportivas) e acompanhamento evolutivo do desempenho das equipes ao longo do tempo, oferecendo uma ferramenta computacional rigorosa baseada em fundamentos estatísticos sólidos.