metodologia
como o xP-serve é calculado e o que significa
o que é xP-serve
xP-serve (expected serve points won) é a percentagem de pontos ganhos no saque que um jogador deveria obter com base nas suas características históricas, na superfície e na qualidade do adversário. Não é uma previsão do resultado do jogo — é uma linha de base de eficiência ao saque, calibrada por mais de 20 anos de dados ATP/WTA.
modelo preditivo
Usamos Ridge Regression (regularização L2) treinado sobre características estatísticas derivadas dos últimos 12 meses de cada jogador antes da partida. O modelo prediz a percentagem de pontos ganhos ao saque (svpt won %). A separação treino/validação é temporal — dados até X são treino, dados de Y em diante são validação, sem look-ahead. Métricas actuais (ridge_v0.2): MAE ≈ 6,36 pp · R² ≈ 0,289.
features utilizadas
Características de saque: % 1º saque, pts ganhos no 1º saque, pts ganhos no 2º saque, aces/jogo, DFs/jogo. Características de devolução: % pts ganhos na devolução, BP convertidos. Contexto: superfície (hard/clay/grass), ronda, ranking relativo do adversário, nº de partidas nos últimos 12 meses. Features ausentes são imputadas por proximidade (proxy); o campo xp_proxy_count indica quantas foram imputadas.
interpretando o delta
Delta (Δ) = xP real − xP predito. Δ positivo: o jogador performou acima da expectativa nessa partida. Δ negativo: ficou abaixo. O Δ acumulado ao longo de vários jogos é o indicador principal do leaderboard — jogadores com Δ médio elevado são consistentemente melhores no saque do que os modelos esperam.
decisões editoriais
Confiança alta: ≤ 2 features imputadas, ≥ 8 partidas na superfície nos últimos 12 meses. Confiança média: 3–5 features imputadas ou 4–7 partidas na superfície. Confiança baixa: > 5 features imputadas ou < 4 partidas. Não publicamos xP quando dados são insuficientes para qualquer estimativa significativa. As linhas de base de confiança são revistas a cada versão do modelo.
fontes de dados
Dados históricos ATP e WTA via Jeff Sackmann (tennis-atp / tennis-wta, licença CC BY-NC-SA 4.0). Cobertura: ATP desde 1968, WTA desde 1968, com dados granulares de serve/return a partir de ~2000. Fixtures pré-jogo via Matchstat API. Odds de mercado via tennis-data.co.uk. Ingestão semanal automatizada, com refresh pontual em dias de torneio.
versioning
ridge_v0.2 (Junho 2025): modelo base com features de saque + retorno + superfície. Próximas versões planeadas: incorporar Elo de saque, momentum de forma (últimas 5 partidas), ajuste por ronda (Grand Slam vs Challenger). Cada versão é identificada nos registos para permitir comparação retrospectiva.