{"id":23839,"date":"2026-05-19T18:33:19","date_gmt":"2026-05-19T18:33:19","guid":{"rendered":"https:\/\/capston.ai\/geo-influence-score-methodology\/"},"modified":"2026-05-19T18:46:44","modified_gmt":"2026-05-19T18:46:44","slug":"geo-influence-score-methodology","status":"publish","type":"page","link":"https:\/\/capston.ai\/fr\/geo-influence-score-methodology\/","title":{"rendered":"Le GEO Influence Score : Methodologie, composantes, et comment mesurer l&rsquo;absorption (Zhang et al., 2026)"},"content":{"rendered":"<h2>Le GEO Influence Score : M\u00e9thodologie, composantes, et comment mesurer l\u2019absorption (Zhang et al., 2026)<\/h2>\n<p><strong>Le <a href=\"https:\/\/capston.ai\/fr\/mots-cles-emotionnels-geo\/\">GEO<\/a> Influence Score est la premi\u00e8re m\u00e9trique reproductible qui quantifie la profondeur d\u2019absorption d\u2019une page cit\u00e9e dans une r\u00e9ponse IA. Propos\u00e9 par Zhang, He & Yao (arXiv:2604.25707, 2026) comme proxy observationnel construit, il combine 5 composantes mesurables (ref_count, first_position_ratio, paragraph_coverage_ratio, TF-IDF cosine, n-gram overlap) en un score 0-1 pond\u00e9r\u00e9. Valid\u00e9 sur 18 151 pages fetch\u00e9es et 23 745 enregistrements de features. Ci-dessous : la formule compl\u00e8te, l\u2019interpr\u00e9tation de chaque composante, les r\u00e8gles de mod\u00e9lisation \u00e0 respecter, et le playbook pour impl\u00e9menter le score dans votre propre stack GEO.<\/strong><\/p>\n<p><strong>TL;DR :<\/strong> Le GEO Influence Score = 0.20\u00b7min(ref_count\/3, 1) + 0.15\u00b7(1 \u2013 first_position_ratio) + 0.20\u00b7paragraph_coverage_ratio + 0.25\u00b7TF-IDF cosine + 0.20\u00b7(bigram + trigram overlap)\/2. Score 0-1, interpr\u00e9tation : 0.27+ ChatGPT-like (haute absorption), 0.06-0.10 Perplexity-like (faible absorption). R\u00e8gle critique : ne JAMAIS utiliser les composantes comme variables explicatives ind\u00e9pendantes dans des r\u00e9gressions o\u00f9 le score est variable d\u00e9pendante (erreur de sp\u00e9cification).<\/p>\n<p><a href=\"https:\/\/capston.ai\/platform\/\" class=\"button\">Scan CapstonAI gratuit \u2192<\/a> \u00a0\u00a0 <a href=\"https:\/\/capston.ai\/geo-scientific-research-2026\/\">Hub Recherche GEO<\/a><\/p>\n<h2>La formule compl\u00e8te<\/h2>\n<p>Influence_i = 0.20 \u00b7 min(ref_count_i \/ 3, 1) + 0.15 \u00b7 (1 \u2013 first_position_ratio_i) + 0.20 \u00b7 paragraph_coverage_ratio_i + 0.25 \u00b7 TF-IDF_cosine_i + 0.20 \u00b7 (bigram_overlap_i + trigram_overlap_i) \/ 2<\/p>\n<table>\n<thead>\n<tr>\n<th>Composante<\/th>\n<th>Poids<\/th>\n<th>D\u00e9finition<\/th>\n<th>Range<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>min(ref_count \/ 3, 1)<\/td>\n<td>0.20<\/td>\n<td>Nombre de fois o\u00f9 la citation appara\u00eet dans la r\u00e9ponse, cap\u00e9 \u00e0 3 occurrences<\/td>\n<td>0 \u00e0 1<\/td>\n<\/tr>\n<tr>\n<td>1 \u2013 first_position_ratio<\/td>\n<td>0.15<\/td>\n<td>Position relative de la premi\u00e8re occurrence (plus t\u00f4t = plus de poids)<\/td>\n<td>0 \u00e0 1<\/td>\n<\/tr>\n<tr>\n<td>paragraph_coverage_ratio<\/td>\n<td>0.20<\/td>\n<td>Fraction des paragraphes de la r\u00e9ponse qui r\u00e9f\u00e9rencent la citation<\/td>\n<td>0 \u00e0 1<\/td>\n<\/tr>\n<tr>\n<td>TF-IDF cosine<\/td>\n<td>0.25<\/td>\n<td>Similarit\u00e9 TF-IDF entre le contenu de la page cit\u00e9e et la r\u00e9ponse g\u00e9n\u00e9r\u00e9e<\/td>\n<td>0 \u00e0 1<\/td>\n<\/tr>\n<tr>\n<td>(bigram + trigram overlap) \/ 2<\/td>\n<td>0.20<\/td>\n<td>Chevauchement moyen de 2-grams et 3-grams entre la page et la r\u00e9ponse<\/td>\n<td>0 \u00e0 1<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><em>Source : Zhang, He & Yao, 2026, \u00e9quation (2), \u00a75.2. Tous les composants sont normalis\u00e9s 0-1, donc le score final est aussi 0-1.<\/em><\/p>\n<h2>Interpr\u00e9tation des benchmarks cohort<\/h2>\n<table>\n<thead>\n<tr>\n<th>Plateforme<\/th>\n<th>Mean influence (fetched)<\/th>\n<th>Median influence<\/th>\n<th>Profil arch\u00e9typal<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>ChatGPT<\/td>\n<td>0.2713<\/td>\n<td>0.2611<\/td>\n<td>Citation-sparse, absorption-heavy. Utilise peu de sources mais les utilise intens\u00e9ment.<\/td>\n<\/tr>\n<tr>\n<td>Google <a href=\"https:\/\/capston.ai\/fr\/seo-multiplateforme-guide-complet-2025\/\">AI Overview<\/a> \/ Gemini<\/td>\n<td>0.0584<\/td>\n<td>0.0515<\/td>\n<td>Broad selection, faible absorption. Attache beaucoup de sources, chacune marginalement utilis\u00e9e.<\/td>\n<\/tr>\n<tr>\n<td><a href=\"https:\/\/capston.ai\/fr\/ai-overviews-serp-2025-impact\/\">Perplexity<\/a><\/td>\n<td>0.0646<\/td>\n<td>0.0333<\/td>\n<td>Citation-rich, absorption-faible. Maximise la diversit\u00e9 au co\u00fbt de la profondeur.<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Benchmark interpr\u00e9tation pratique : score 0.20+ sur ChatGPT = page foundational (utilis\u00e9e pour structurer la r\u00e9ponse). Score 0.10-0.20 = page evidence (apporte des faits cl\u00e9s). Score 0.05-0.10 = page supporting (r\u00e9f\u00e9renc\u00e9e mais marginale). Score sous 0.05 = page peripheral (cit\u00e9e pour le show, peu d\u2019impact).<\/p>\n<h2>Le playbook en 7 \u00e9tapes pour impl\u00e9menter le score dans votre stack<\/h2>\n<ol>\n<li><strong>\u00c9tape 1 : Capturer la r\u00e9ponse compl\u00e8te + toutes les citations.<\/strong> Pour chaque prompt de votre panel, capturer le texte int\u00e9gral de la r\u00e9ponse + la liste ordonn\u00e9e des citations avec URL. C\u2019est le minimum input pour calculer le score.<\/li>\n<li><strong>\u00c9tape 2 : Fetcher le contenu des pages cit\u00e9es.<\/strong> R\u00e9cup\u00e9rer le HTML, nettoyer (supprimer nav, footer, scripts), extraire le contenu principal. Zhang et al. rapportent 76.44% fetch success rate \u2014 certaines pages sont prot\u00e9g\u00e9es (cloudflare, paywalls).<\/li>\n<li><strong>\u00c9tape 3 : Calculer les 5 composantes par citation.<\/strong>\n<ul>\n<li><strong>ref_count<\/strong> : compter les occurrences de la citation dans le markup de la r\u00e9ponse (souvent footnotes [1], [2]\u2026).<\/li>\n<li><strong>first_position_ratio<\/strong> : position de la premi\u00e8re occurrence \/ longueur totale de la r\u00e9ponse.<\/li>\n<li><strong>paragraph_coverage_ratio<\/strong> : nombre de paragraphes contenant la citation \/ total paragraphes.<\/li>\n<li><strong>TF-IDF cosine<\/strong> : vectoriser la page (TF-IDF) et la r\u00e9ponse, calculer la similarit\u00e9 cosine.<\/li>\n<li><strong>bigram + trigram overlap<\/strong> : tokenize, extraire 2-grams et 3-grams, calculer Jaccard ou ratio chevauchement.<\/li>\n<\/ul>\n<\/li>\n<li><strong>\u00c9tape 4 : Appliquer la formule pond\u00e9r\u00e9e.<\/strong> Impl\u00e9mentation Python typique : 30-50 lignes de code. Sortie : score 0-1 par paire (prompt, citation, plateforme).<\/li>\n<li><strong>\u00c9tape 5 : Aggreger par page, domaine, type de domaine.<\/strong> Moyenner par URL canonique. Puis par domaine (capston.ai). Puis par type (encyclopedia, news_media, commercial). Comparer aux benchmarks Zhang et al.<\/li>\n<li><strong>\u00c9tape 6 : Tracker la distribution, pas seulement la moyenne.<\/strong> La median et les quartiles sont plus informatifs que la moyenne. Une page peut avoir mean 0.10 mais P75 = 0.30 (tr\u00e8s utile dans certains contextes, ignor\u00e9e dans d\u2019autres). Reporter min\/P25\/median\/P75\/max.<\/li>\n<li><strong>\u00c9tape 7 : Valider la stabilit\u00e9 dans le temps.<\/strong> Re-runner le m\u00eame panel \u00e0 7-14 jours. Les scores varient avec la stochasticit\u00e9 des outputs LLM. Pour des claims robustes, faire 3-5 runs et moyenner.<\/li>\n<\/ol>\n<h2>R\u00e8gles critiques de mod\u00e9lisation<\/h2>\n<p>Zhang et al. insistent sur des r\u00e8gles strictes pour utiliser le score scientifiquement :<\/p>\n<ul>\n<li><strong>Outcome-component separation.<\/strong> Les variables utilis\u00e9es dans la formule (ref_count, first_position_ratio, paragraph_coverage, TF-IDF, n-gram overlap) NE PEUVENT PAS \u00eatre utilis\u00e9es comme pr\u00e9dicteurs ind\u00e9pendants quand le score est variable d\u00e9pendante. C\u2019est une erreur de sp\u00e9cification (le score est d\u00e9fini par construction par ces variables).<\/li>\n<li><strong>Variables explicatives propres.<\/strong> Pour des r\u00e9gressions causales, utiliser : page structure (heading count, paragraph count, list density), evidence genre (contains code\/numbers\/definitions\/comparisons), embedding similarity (s\u00e9par\u00e9es de TF-IDF), LLM relevance score, LLM quality score, domain type, source type, langue, plateforme.<\/li>\n<li><strong>Sp\u00e9cification recommand\u00e9e.<\/strong> Logit(E[Influence_i]) = \u03b3_0 + \u03b3_platform + \u03b3_domain_type + \u03b3_structure \u00b7 X + \u03b3_genre \u00b7 G + \u03b3_semantic \u00b7 Z + \u03b5. Fractional logit ou beta regression. Clustered standard errors par prompt ET par domaine.<\/li>\n<li><strong>Pas de claims causaux sans intervention.<\/strong> Le dataset est observationnel. Un coefficient positif sur \u00ab\u00a0contains numbers\u00a0\u00bb ne prouve PAS que ajouter des chiffres causerait une augmentation de l\u2019influence. Pour des claims causaux : randomized rewrites + repeated platform querying.<\/li>\n<\/ul>\n<h2>Common errors avec le GEO Influence Score<\/h2>\n<ul>\n<li><strong>Comparer les scores entre plateformes sans normaliser.<\/strong> ChatGPT 0.27 et Perplexity 0.06 ne sont PAS directement comparables : refl\u00e8tent en partie le nombre de citations par r\u00e9ponse. Comparer dans-plateforme, pas entre plateformes.<\/li>\n<li><strong>R\u00e9utiliser les composantes comme pr\u00e9dicteurs.<\/strong> Erreur de sp\u00e9cification ; produit des r\u00e9gressions trivialement parfaites et inutiles.<\/li>\n<li><strong>Ignorer la variance temporelle.<\/strong> Les scores varient run-to-run. Une page peut scorer 0.18 lundi, 0.24 mardi. Toujours moyenner plusieurs runs.<\/li>\n<li><strong>Surinterpr\u00e9ter les petites diff\u00e9rences.<\/strong> Une diff\u00e9rence de 0.02 sur le score est probablement dans le bruit. Pour des claims robustes : diff\u00e9rence 0.05+ avec confidence intervals.<\/li>\n<li><strong>Confondre score moyen et page individuelle.<\/strong> Un domaine peut avoir mean 0.15 mais des pages individuelles allant de 0.02 \u00e0 0.45. Optimiser au niveau page.<\/li>\n<\/ul>\n<h2>FAQ \u2014 Le GEO Influence Score<\/h2>\n<h3>Le score est-il calculable sans acc\u00e8s aux internals du LLM ?<\/h3>\n<p>Oui. Le score est enti\u00e8rement bas\u00e9 sur des features observables : texte de la r\u00e9ponse, texte de la page cit\u00e9e, positions et fr\u00e9quences. Aucun acc\u00e8s aux poids du mod\u00e8le, \u00e0 l\u2019attention, ou aux logs internes n\u2019est requis. C\u2019est pr\u00e9cis\u00e9ment ce qui en fait un proxy utile : reproductible par n\u2019importe quelle \u00e9quipe avec scraping + NLP basique.<\/p>\n<h3>Quelle est la marge d\u2019erreur du score ?<\/h3>\n<p>Pas formellement quantifi\u00e9e par Zhang et al. (qui annoncent \u00e9viter les fabricated p-values). Estimation pratique du cohort CapstonAI Q1 2026 : variance run-to-run typique \u00b10.03-0.05 sur le m\u00eame panel. Diff\u00e9rences inf\u00e9rieures \u00e0 ce seuil sont du bruit. Pour des claims publiables, moyenner 3-5 runs.<\/p>\n<h3>Le score s\u2019applique-t-il aux engines hors Big 3 ?<\/h3>\n<p>La formule s\u2019applique \u00e0 tout engine qui retourne (a) une r\u00e9ponse en texte, (b) une liste de citations avec URL, (c) un signal de position des citations. Cela inclut Claude (au-del\u00e0 de l\u2019API directe), Mistral Le Chat, Microsoft Copilot, Brave Search AI, DeepSeek. Les benchmarks num\u00e9riques (0.27, 0.06, etc.) sont sp\u00e9cifiques aux 3 plateformes du dataset original ; \u00e0 recalibrer par engine.<\/p>\n<h2>Outils et lectures li\u00e9es<\/h2>\n<ul>\n<li><a href=\"https:\/\/capston.ai\/geo-scientific-research-2026\/\">GEO Scientific Research 2026 (hub silo)<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/fr\/citation-selection-vs-absorption\/\">Citation Selection vs Absorption : framework<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/fr\/evidence-container-hypothesis-geo\/\">L\u2019hypoth\u00e8se evidence-container<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/fr\/qa-format-does-not-improve-geo\/\">Le format Q&A n\u2019am\u00e9liore PAS le GEO<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/fr\/evidence-genres-ranked-for-ai-citation\/\">Genres de preuves class\u00e9s<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/ai-citation-tracking\/\">CapstonAI AI Citation Tracking<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/geo-kpi-framework\/\">GEO KPI Framework 2026<\/a><\/li>\n<li><a href=\"https:\/\/capston.ai\/geo-dashboard-setup\/\">GEO Dashboard Setup 2026<\/a><\/li>\n<\/ul>\n<h2>Pr\u00eat \u00e0 mesurer le GEO Influence Score ?<\/h2>\n<p><a href=\"https:\/\/capston.ai\/platform\/\" class=\"button\">Scan CapstonAI gratuit \u2192<\/a><\/p>\n<p><em>Derni\u00e8re mise \u00e0 jour : mai 2026. Source primaire : Zhang, K., He, X., & Yao, J. (2026). From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms. arXiv:2604.25707. <a href=\"https:\/\/arxiv.org\/abs\/2604.25707\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2604.25707<\/a>. Dataset public : <a href=\"https:\/\/github.com\/yaojingang\/geo-citation-lab\" target=\"_blank\" rel=\"noopener\">github.com\/yaojingang\/geo-citation-lab<\/a><\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le GEO Influence Score : M\u00e9thodologie, composantes, et comment mesurer l\u2019absorption (Zhang et al., 2026) Le GEO Influence Score est la premi\u00e8re m\u00e9trique reproductible qui quantifie la profondeur d\u2019absorption d\u2019une page cit\u00e9e dans une r\u00e9ponse IA. Propos\u00e9 par Zhang, He &#038; Yao (arXiv:2604.25707, 2026) comme proxy observationnel construit, il combine 5 composantes mesurables (ref_count, first_position_ratio, [&hellip;]<\/p>\n","protected":false},"author":30,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":"","rank_math_title":"","rank_math_description":"","rank_math_focus_keyword":""},"class_list":["post-23839","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages\/23839","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/users\/30"}],"replies":[{"embeddable":true,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/comments?post=23839"}],"version-history":[{"count":2,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages\/23839\/revisions"}],"predecessor-version":[{"id":23909,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages\/23839\/revisions\/23909"}],"wp:attachment":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/media?parent=23839"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}