Le GEO Influence Score : Methodologie, composantes, et comment mesurer l’absorption (Zhang et al., 2026)

Le GEO Influence Score : Méthodologie, composantes, et comment mesurer l’absorption (Zhang et al., 2026)

Le GEO Influence Score est la première métrique reproductible qui quantifie la profondeur d’absorption d’une page citée dans une réponse IA. Proposé par Zhang, He & Yao (arXiv:2604.25707, 2026) comme proxy observationnel construit, il combine 5 composantes mesurables (ref_count, first_position_ratio, paragraph_coverage_ratio, TF-IDF cosine, n-gram overlap) en un score 0-1 pondéré. Validé sur 18 151 pages fetchées et 23 745 enregistrements de features. Ci-dessous : la formule complète, l’interprétation de chaque composante, les règles de modélisation à respecter, et le playbook pour implémenter le score dans votre propre stack GEO.

TL;DR : Le GEO Influence Score = 0.20·min(ref_count/3, 1) + 0.15·(1 – first_position_ratio) + 0.20·paragraph_coverage_ratio + 0.25·TF-IDF cosine + 0.20·(bigram + trigram overlap)/2. Score 0-1, interprétation : 0.27+ ChatGPT-like (haute absorption), 0.06-0.10 Perplexity-like (faible absorption). Règle critique : ne JAMAIS utiliser les composantes comme variables explicatives indépendantes dans des régressions où le score est variable dépendante (erreur de spécification).

Scan CapstonAI gratuit →    Hub Recherche GEO

La formule complète

Influence_i = 0.20 · min(ref_count_i / 3, 1) + 0.15 · (1 – first_position_ratio_i) + 0.20 · paragraph_coverage_ratio_i + 0.25 · TF-IDF_cosine_i + 0.20 · (bigram_overlap_i + trigram_overlap_i) / 2

Composante Poids Définition Range
min(ref_count / 3, 1) 0.20 Nombre de fois où la citation apparaît dans la réponse, capé à 3 occurrences 0 à 1
1 – first_position_ratio 0.15 Position relative de la première occurrence (plus tôt = plus de poids) 0 à 1
paragraph_coverage_ratio 0.20 Fraction des paragraphes de la réponse qui référencent la citation 0 à 1
TF-IDF cosine 0.25 Similarité TF-IDF entre le contenu de la page citée et la réponse générée 0 à 1
(bigram + trigram overlap) / 2 0.20 Chevauchement moyen de 2-grams et 3-grams entre la page et la réponse 0 à 1

Source : Zhang, He & Yao, 2026, équation (2), §5.2. Tous les composants sont normalisés 0-1, donc le score final est aussi 0-1.

Interprétation des benchmarks cohort

Plateforme Mean influence (fetched) Median influence Profil archétypal
ChatGPT 0.2713 0.2611 Citation-sparse, absorption-heavy. Utilise peu de sources mais les utilise intensément.
Google AI Overview / Gemini 0.0584 0.0515 Broad selection, faible absorption. Attache beaucoup de sources, chacune marginalement utilisée.
Perplexity 0.0646 0.0333 Citation-rich, absorption-faible. Maximise la diversité au coût de la profondeur.

Benchmark interprétation pratique : score 0.20+ sur ChatGPT = page foundational (utilisée pour structurer la réponse). Score 0.10-0.20 = page evidence (apporte des faits clés). Score 0.05-0.10 = page supporting (référencée mais marginale). Score sous 0.05 = page peripheral (citée pour le show, peu d’impact).

Le playbook en 7 étapes pour implémenter le score dans votre stack

  1. Étape 1 : Capturer la réponse complète + toutes les citations. Pour chaque prompt de votre panel, capturer le texte intégral de la réponse + la liste ordonnée des citations avec URL. C’est le minimum input pour calculer le score.
  2. Étape 2 : Fetcher le contenu des pages citées. Récupérer le HTML, nettoyer (supprimer nav, footer, scripts), extraire le contenu principal. Zhang et al. rapportent 76.44% fetch success rate — certaines pages sont protégées (cloudflare, paywalls).
  3. Étape 3 : Calculer les 5 composantes par citation.
    • ref_count : compter les occurrences de la citation dans le markup de la réponse (souvent footnotes [1], [2]…).
    • first_position_ratio : position de la première occurrence / longueur totale de la réponse.
    • paragraph_coverage_ratio : nombre de paragraphes contenant la citation / total paragraphes.
    • TF-IDF cosine : vectoriser la page (TF-IDF) et la réponse, calculer la similarité cosine.
    • bigram + trigram overlap : tokenize, extraire 2-grams et 3-grams, calculer Jaccard ou ratio chevauchement.
  4. Étape 4 : Appliquer la formule pondérée. Implémentation Python typique : 30-50 lignes de code. Sortie : score 0-1 par paire (prompt, citation, plateforme).
  5. Étape 5 : Aggreger par page, domaine, type de domaine. Moyenner par URL canonique. Puis par domaine (capston.ai). Puis par type (encyclopedia, news_media, commercial). Comparer aux benchmarks Zhang et al.
  6. Étape 6 : Tracker la distribution, pas seulement la moyenne. La median et les quartiles sont plus informatifs que la moyenne. Une page peut avoir mean 0.10 mais P75 = 0.30 (très utile dans certains contextes, ignorée dans d’autres). Reporter min/P25/median/P75/max.
  7. Étape 7 : Valider la stabilité dans le temps. Re-runner le même panel à 7-14 jours. Les scores varient avec la stochasticité des outputs LLM. Pour des claims robustes, faire 3-5 runs et moyenner.

Règles critiques de modélisation

Zhang et al. insistent sur des règles strictes pour utiliser le score scientifiquement :

  • Outcome-component separation. Les variables utilisées dans la formule (ref_count, first_position_ratio, paragraph_coverage, TF-IDF, n-gram overlap) NE PEUVENT PAS être utilisées comme prédicteurs indépendants quand le score est variable dépendante. C’est une erreur de spécification (le score est défini par construction par ces variables).
  • Variables explicatives propres. Pour des régressions causales, utiliser : page structure (heading count, paragraph count, list density), evidence genre (contains code/numbers/definitions/comparisons), embedding similarity (séparées de TF-IDF), LLM relevance score, LLM quality score, domain type, source type, langue, plateforme.
  • Spécification recommandée. Logit(E[Influence_i]) = γ_0 + γ_platform + γ_domain_type + γ_structure · X + γ_genre · G + γ_semantic · Z + ε. Fractional logit ou beta regression. Clustered standard errors par prompt ET par domaine.
  • Pas de claims causaux sans intervention. Le dataset est observationnel. Un coefficient positif sur « contains numbers » ne prouve PAS que ajouter des chiffres causerait une augmentation de l’influence. Pour des claims causaux : randomized rewrites + repeated platform querying.

Common errors avec le GEO Influence Score

  • Comparer les scores entre plateformes sans normaliser. ChatGPT 0.27 et Perplexity 0.06 ne sont PAS directement comparables : reflètent en partie le nombre de citations par réponse. Comparer dans-plateforme, pas entre plateformes.
  • Réutiliser les composantes comme prédicteurs. Erreur de spécification ; produit des régressions trivialement parfaites et inutiles.
  • Ignorer la variance temporelle. Les scores varient run-to-run. Une page peut scorer 0.18 lundi, 0.24 mardi. Toujours moyenner plusieurs runs.
  • Surinterpréter les petites différences. Une différence de 0.02 sur le score est probablement dans le bruit. Pour des claims robustes : différence 0.05+ avec confidence intervals.
  • Confondre score moyen et page individuelle. Un domaine peut avoir mean 0.15 mais des pages individuelles allant de 0.02 à 0.45. Optimiser au niveau page.

FAQ — Le GEO Influence Score

Le score est-il calculable sans accès aux internals du LLM ?

Oui. Le score est entièrement basé sur des features observables : texte de la réponse, texte de la page citée, positions et fréquences. Aucun accès aux poids du modèle, à l’attention, ou aux logs internes n’est requis. C’est précisément ce qui en fait un proxy utile : reproductible par n’importe quelle équipe avec scraping + NLP basique.

Quelle est la marge d’erreur du score ?

Pas formellement quantifiée par Zhang et al. (qui annoncent éviter les fabricated p-values). Estimation pratique du cohort CapstonAI Q1 2026 : variance run-to-run typique ±0.03-0.05 sur le même panel. Différences inférieures à ce seuil sont du bruit. Pour des claims publiables, moyenner 3-5 runs.

Le score s’applique-t-il aux engines hors Big 3 ?

La formule s’applique à tout engine qui retourne (a) une réponse en texte, (b) une liste de citations avec URL, (c) un signal de position des citations. Cela inclut Claude (au-delà de l’API directe), Mistral Le Chat, Microsoft Copilot, Brave Search AI, DeepSeek. Les benchmarks numériques (0.27, 0.06, etc.) sont spécifiques aux 3 plateformes du dataset original ; à recalibrer par engine.

Outils et lectures liées

Prêt à mesurer le GEO Influence Score ?

Scan CapstonAI gratuit →

Dernière mise à jour : mai 2026. Source primaire : Zhang, K., He, X., & Yao, J. (2026). From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms. arXiv:2604.25707. https://arxiv.org/abs/2604.25707. Dataset public : github.com/yaojingang/geo-citation-lab