{"id":23839,"date":"2026-05-19T18:33:19","date_gmt":"2026-05-19T18:33:19","guid":{"rendered":"https:\/\/capston.ai\/geo-influence-score-methodology\/"},"modified":"2026-06-03T07:53:24","modified_gmt":"2026-06-03T07:53:24","slug":"geo-influence-score-methodology","status":"publish","type":"page","link":"https:\/\/capston.ai\/fr\/geo-influence-score-methodology\/","title":{"rendered":"Le GEO Influence Score : Methodologie, composantes, et comment mesurer l&rsquo;absorption (Zhang et al., 2026)"},"content":{"rendered":"<h2>Le GEO Influence Score : M\u00e9thodologie, composantes, et comment mesurer l&rsquo;absorption (Zhang et al., 2026)<\/h2>\r\n<p><strong>Le GEO Influence Score est la premi\u00e8re m\u00e9trique reproductible qui quantifie la profondeur d&rsquo;absorption d&rsquo;une page cit\u00e9e dans une r\u00e9ponse IA. Propos\u00e9 par Zhang, He &amp; Yao (arXiv:2604.25707, 2026) comme proxy observationnel construit, il combine 5 composantes mesurables (ref_count, first_position_ratio, paragraph_coverage_ratio, TF-IDF cosine, n-gram overlap) en un score 0-1 pond\u00e9r\u00e9. Valid\u00e9 sur 18 151 pages fetch\u00e9es et 23 745 enregistrements de features. Ci-dessous : la formule compl\u00e8te, l&rsquo;interpr\u00e9tation de chaque composante, les r\u00e8gles de mod\u00e9lisation \u00e0 respecter, et le playbook pour impl\u00e9menter le score dans votre propre stack GEO.<\/strong><\/p>\r\n<p><strong>TL;DR :<\/strong> Le GEO Influence Score = 0.20\u00b7min(ref_count\/3, 1) + 0.15\u00b7(1 &#8211; first_position_ratio) + 0.20\u00b7paragraph_coverage_ratio + 0.25\u00b7TF-IDF cosine + 0.20\u00b7(bigram + trigram overlap)\/2. Score 0-1, interpr\u00e9tation : 0.27+ ChatGPT-like (haute absorption), 0.06-0.10 Perplexity-like (faible absorption). R\u00e8gle critique : ne JAMAIS utiliser les composantes comme variables explicatives ind\u00e9pendantes dans des r\u00e9gressions o\u00f9 le score est variable d\u00e9pendante (erreur de sp\u00e9cification).<\/p>\r\n<p><a href=\"https:\/\/capston.ai\/platform\/\" class=\"button\">Scan CapstonAI gratuit &rarr;<\/a> &nbsp;&nbsp; <a href=\"https:\/\/capston.ai\/geo-scientific-research-2026\/\">Hub Recherche GEO<\/a><\/p>\r\n\r\n<h2>La formule compl\u00e8te<\/h2>\r\n<p>Influence_i = 0.20 \u00b7 min(ref_count_i \/ 3, 1) + 0.15 \u00b7 (1 &#8211; first_position_ratio_i) + 0.20 \u00b7 paragraph_coverage_ratio_i + 0.25 \u00b7 TF-IDF_cosine_i + 0.20 \u00b7 (bigram_overlap_i + trigram_overlap_i) \/ 2<\/p>\r\n<table>\r\n<thead><tr><th>Composante<\/th><th>Poids<\/th><th>D\u00e9finition<\/th><th>Range<\/th><\/tr><\/thead>\r\n<tbody>\r\n<tr><td>min(ref_count \/ 3, 1)<\/td><td>0.20<\/td><td>Nombre de fois o\u00f9 la citation appara\u00eet dans la r\u00e9ponse, cap\u00e9 \u00e0 3 occurrences<\/td><td>0 \u00e0 1<\/td><\/tr>\r\n<tr><td>1 &#8211; first_position_ratio<\/td><td>0.15<\/td><td>Position relative de la premi\u00e8re occurrence (plus t\u00f4t = plus de poids)<\/td><td>0 \u00e0 1<\/td><\/tr>\r\n<tr><td>paragraph_coverage_ratio<\/td><td>0.20<\/td><td>Fraction des paragraphes de la r\u00e9ponse qui r\u00e9f\u00e9rencent la citation<\/td><td>0 \u00e0 1<\/td><\/tr>\r\n<tr><td>TF-IDF cosine<\/td><td>0.25<\/td><td>Similarit\u00e9 TF-IDF entre le contenu de la page cit\u00e9e et la r\u00e9ponse g\u00e9n\u00e9r\u00e9e<\/td><td>0 \u00e0 1<\/td><\/tr>\r\n<tr><td>(bigram + trigram overlap) \/ 2<\/td><td>0.20<\/td><td>Chevauchement moyen de 2-grams et 3-grams entre la page et la r\u00e9ponse<\/td><td>0 \u00e0 1<\/td><\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p><em>Source : Zhang, He &amp; Yao, 2026, \u00e9quation (2), \u00a75.2. Tous les composants sont normalis\u00e9s 0-1, donc le score final est aussi 0-1.<\/em><\/p>\r\n\r\n<h2>Interpr\u00e9tation des benchmarks cohort<\/h2>\r\n<table>\r\n<thead><tr><th>Plateforme<\/th><th>Mean influence (fetched)<\/th><th>Median influence<\/th><th>Profil arch\u00e9typal<\/th><\/tr><\/thead>\r\n<tbody>\r\n<tr><td>ChatGPT<\/td><td>0.2713<\/td><td>0.2611<\/td><td>Citation-sparse, absorption-heavy. Utilise peu de sources mais les utilise intens\u00e9ment.<\/td><\/tr>\r\n<tr><td>Google AI Overview \/ Gemini<\/td><td>0.0584<\/td><td>0.0515<\/td><td>Broad selection, faible absorption. Attache beaucoup de sources, chacune marginalement utilis\u00e9e.<\/td><\/tr>\r\n<tr><td><a href=\"https:\/\/capston.ai\/fr\/ai-overviews-serp-2025-impact\/\">Perplexity<\/a><\/td><td>0.0646<\/td><td>0.0333<\/td><td>Citation-rich, absorption-faible. Maximise la diversit\u00e9 au co\u00fbt de la profondeur.<\/td><\/tr>\r\n<\/tbody>\r\n<\/table>\r\n<p>Benchmark interpr\u00e9tation pratique : score 0.20+ sur ChatGPT = page foundational (utilis\u00e9e pour structurer la r\u00e9ponse). Score 0.10-0.20 = page evidence (apporte des faits cl\u00e9s). Score 0.05-0.10 = page supporting (r\u00e9f\u00e9renc\u00e9e mais marginale). Score sous 0.05 = page peripheral (cit\u00e9e pour le show, peu d&rsquo;impact).<\/p>\r\n\r\n<h2>Le playbook en 7 \u00e9tapes pour impl\u00e9menter le score dans votre stack<\/h2>\r\n<ol>\r\n<li><strong>\u00c9tape 1 : Capturer la r\u00e9ponse compl\u00e8te + toutes les citations.<\/strong> Pour chaque prompt de votre panel, capturer le texte int\u00e9gral de la r\u00e9ponse + la liste ordonn\u00e9e des citations avec URL. C&rsquo;est le minimum input pour calculer le score.<\/li>\r\n<li><strong>\u00c9tape 2 : Fetcher le contenu des pages cit\u00e9es.<\/strong> R\u00e9cup\u00e9rer le HTML, nettoyer (supprimer nav, footer, scripts), extraire le contenu principal. Zhang et al. rapportent 76.44% fetch success rate &mdash; certaines pages sont prot\u00e9g\u00e9es (cloudflare, paywalls).<\/li>\r\n<li><strong>\u00c9tape 3 : Calculer les 5 composantes par citation.<\/strong>\r\n  <ul>\r\n    <li><strong>ref_count<\/strong> : compter les occurrences de la citation dans le markup de la r\u00e9ponse (souvent footnotes [1], [2]&#8230;).<\/li>\r\n    <li><strong>first_position_ratio<\/strong> : position de la premi\u00e8re occurrence \/ longueur totale de la r\u00e9ponse.<\/li>\r\n    <li><strong>paragraph_coverage_ratio<\/strong> : nombre de paragraphes contenant la citation \/ total paragraphes.<\/li>\r\n    <li><strong>TF-IDF cosine<\/strong> : vectoriser la page (TF-IDF) et la r\u00e9ponse, calculer la similarit\u00e9 cosine.<\/li>\r\n    <li><strong>bigram + trigram overlap<\/strong> : tokenize, extraire 2-grams et 3-grams, calculer Jaccard ou ratio chevauchement.<\/li>\r\n  <\/ul>\r\n<\/li>\r\n<li><strong>\u00c9tape 4 : Appliquer la formule pond\u00e9r\u00e9e.<\/strong> Impl\u00e9mentation Python typique : 30-50 lignes de code. Sortie : score 0-1 par paire (prompt, citation, plateforme).<\/li>\r\n<li><strong>\u00c9tape 5 : Aggreger par page, domaine, type de domaine.<\/strong> Moyenner par URL canonique. Puis par domaine (capston.ai). Puis par type (encyclopedia, news_media, commercial). Comparer aux benchmarks Zhang et al.<\/li>\r\n<li><strong>\u00c9tape 6 : Tracker la distribution, pas seulement la moyenne.<\/strong> La median et les quartiles sont plus informatifs que la moyenne. Une page peut avoir mean 0.10 mais P75 = 0.30 (tr\u00e8s utile dans certains contextes, ignor\u00e9e dans d&rsquo;autres). Reporter min\/P25\/median\/P75\/max.<\/li>\r\n<li><strong>\u00c9tape 7 : Valider la stabilit\u00e9 dans le temps.<\/strong> Re-runner le m\u00eame panel \u00e0 7-14 jours. Les scores varient avec la stochasticit\u00e9 des outputs LLM. Pour des claims robustes, faire 3-5 runs et moyenner.<\/li>\r\n<\/ol>\r\n\r\n<h2>R\u00e8gles critiques de mod\u00e9lisation<\/h2>\r\n<p>Zhang et al. insistent sur des r\u00e8gles strictes pour utiliser le score scientifiquement :<\/p>\r\n<ul>\r\n<li><strong>Outcome-component separation.<\/strong> Les variables utilis\u00e9es dans la formule (ref_count, first_position_ratio, paragraph_coverage, TF-IDF, n-gram overlap) NE PEUVENT PAS \u00eatre utilis\u00e9es comme pr\u00e9dicteurs ind\u00e9pendants quand le score est variable d\u00e9pendante. C&rsquo;est une erreur de sp\u00e9cification (le score est d\u00e9fini par construction par ces variables).<\/li>\r\n<li><strong>Variables explicatives propres.<\/strong> Pour des r\u00e9gressions causales, utiliser : page structure (heading count, paragraph count, list density), evidence genre (contains code\/numbers\/definitions\/comparisons), embedding similarity (s\u00e9par\u00e9es de TF-IDF), LLM relevance score, LLM quality score, domain type, source type, langue, plateforme.<\/li>\r\n<li><strong>Sp\u00e9cification recommand\u00e9e.<\/strong> Logit(E[Influence_i]) = \u03b3_0 + \u03b3_platform + \u03b3_domain_type + \u03b3_structure \u00b7 X + \u03b3_genre \u00b7 G + \u03b3_semantic \u00b7 Z + \u03b5. Fractional logit ou beta regression. Clustered standard errors par prompt ET par domaine.<\/li>\r\n<li><strong>Pas de claims causaux sans intervention.<\/strong> Le dataset est observationnel. Un coefficient positif sur \u00ab\u00a0contains numbers\u00a0\u00bb ne prouve PAS que ajouter des chiffres causerait une augmentation de l&rsquo;influence. Pour des claims causaux : randomized rewrites + repeated platform querying.<\/li>\r\n<\/ul>\r\n\r\n<h2>Common errors avec le GEO Influence Score<\/h2>\r\n<ul>\r\n<li><strong>Comparer les scores entre plateformes sans normaliser.<\/strong> ChatGPT 0.27 et Perplexity 0.06 ne sont PAS directement comparables : refl\u00e8tent en partie le nombre de citations par r\u00e9ponse. Comparer dans-plateforme, pas entre plateformes.<\/li>\r\n<li><strong>R\u00e9utiliser les composantes comme pr\u00e9dicteurs.<\/strong> Erreur de sp\u00e9cification ; produit des r\u00e9gressions trivialement parfaites et inutiles.<\/li>\r\n<li><strong>Ignorer la variance temporelle.<\/strong> Les scores varient run-to-run. Une page peut scorer 0.18 lundi, 0.24 mardi. Toujours moyenner plusieurs runs.<\/li>\r\n<li><strong>Surinterpr\u00e9ter les petites diff\u00e9rences.<\/strong> Une diff\u00e9rence de 0.02 sur le score est probablement dans le bruit. Pour des claims robustes : diff\u00e9rence 0.05+ avec confidence intervals.<\/li>\r\n<li><strong>Confondre score moyen et page individuelle.<\/strong> Un domaine peut avoir mean 0.15 mais des pages individuelles allant de 0.02 \u00e0 0.45. Optimiser au niveau page.<\/li>\r\n<\/ul>\r\n\r\n<h2>FAQ &mdash; Le GEO Influence Score<\/h2>\r\n<h3>Le score est-il calculable sans acc\u00e8s aux internals du LLM ?<\/h3>\r\n<p>Oui. Le score est enti\u00e8rement bas\u00e9 sur des features observables : texte de la r\u00e9ponse, texte de la page cit\u00e9e, positions et fr\u00e9quences. Aucun acc\u00e8s aux poids du mod\u00e8le, \u00e0 l&rsquo;attention, ou aux logs internes n&rsquo;est requis. C&rsquo;est pr\u00e9cis\u00e9ment ce qui en fait un proxy utile : reproductible par n&rsquo;importe quelle \u00e9quipe avec scraping + NLP basique.<\/p>\r\n<h3>Quelle est la marge d&rsquo;erreur du score ?<\/h3>\r\n<p>Pas formellement quantifi\u00e9e par Zhang et al. (qui annoncent \u00e9viter les fabricated p-values). Estimation pratique du cohort CapstonAI Q1 2026 : variance run-to-run typique \u00b10.03-0.05 sur le m\u00eame panel. Diff\u00e9rences inf\u00e9rieures \u00e0 ce seuil sont du bruit. Pour des claims publiables, moyenner 3-5 runs.<\/p>\r\n<h3>Le score s&rsquo;applique-t-il aux engines hors Big 3 ?<\/h3>\r\n<p>La formule s&rsquo;applique \u00e0 tout engine qui retourne (a) une r\u00e9ponse en texte, (b) une liste de citations avec URL, (c) un signal de position des citations. Cela inclut Claude (au-del\u00e0 de l&rsquo;API directe), Mistral Le Chat, Microsoft Copilot, Brave Search AI, DeepSeek. Les benchmarks num\u00e9riques (0.27, 0.06, etc.) sont sp\u00e9cifiques aux 3 plateformes du dataset original ; \u00e0 recalibrer par engine.<\/p>\r\n\r\n<h2>Outils et lectures li\u00e9es<\/h2>\r\n<ul>\r\n<li><a href=\"https:\/\/capston.ai\/geo-scientific-research-2026\/\">GEO Scientific Research 2026 (hub silo)<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/fr\/citation-selection-vs-absorption\/\">Citation Selection vs Absorption : framework<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/fr\/evidence-container-hypothesis-geo\/\">L&rsquo;hypoth\u00e8se evidence-container<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/fr\/qa-format-does-not-improve-geo\/\">Le format Q&amp;A n&rsquo;am\u00e9liore PAS le GEO<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/fr\/evidence-genres-ranked-for-ai-citation\/\">Genres de preuves class\u00e9s<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/ai-citation-tracking\/\">CapstonAI AI Citation Tracking<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/geo-kpi-framework\/\">GEO KPI Framework 2026<\/a><\/li>\r\n<li><a href=\"https:\/\/capston.ai\/geo-dashboard-setup\/\">GEO Dashboard Setup 2026<\/a><\/li>\r\n<\/ul>\r\n\r\n<h2>Pr\u00eat \u00e0 mesurer le GEO Influence Score ?<\/h2>\r\n<p><a href=\"https:\/\/capston.ai\/platform\/\" class=\"button\">Scan CapstonAI gratuit &rarr;<\/a><\/p>\r\n<p><em>Derni\u00e8re mise \u00e0 jour : mai 2026. Source primaire : Zhang, K., He, X., &amp; Yao, J. (2026). From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms. arXiv:2604.25707. <a href=\"https:\/\/arxiv.org\/abs\/2604.25707\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2604.25707<\/a>. Dataset public : <a href=\"https:\/\/github.com\/yaojingang\/geo-citation-lab\" target=\"_blank\" rel=\"noopener\">github.com\/yaojingang\/geo-citation-lab<\/a><\/em><\/p>\r\n\r\n<div class=\"wp-block-group lm-cta-box is-layout-flow wp-block-group-is-layout-flow\"><h3 class=\"wp-block-heading\">Votre influence GEO se mesure \u2014 mais se traduit-elle en ROI d\u00e9fendable ?<\/h3><p class=\"wp-block-paragraph\">La m\u00e9thodologie Zhang et al. 2026 permet de calculer un Year-1 Net GEO ROI avec 3 composantes tra\u00e7ables. Le CFO ROI Calculator vous donne la formule + benchmarks Q1 2026 (B2B SaaS \u221231%, D2C \u221233%, Legal \u221231%) + tableau 3 sc\u00e9narios pr\u00eat pour Google Sheets.<\/p><p class=\"wp-block-paragraph\"><a href=\"https:\/\/capston.ai\/cfo-roi-calculator-geo\/\">\u2192 T\u00e9l\u00e9charger le CFO ROI Calculator (PDF + Google Sheets)<\/a><\/p><\/div>","protected":false},"excerpt":{"rendered":"<p>Le GEO Influence Score : M\u00e9thodologie, composantes, et comment mesurer l&rsquo;absorption (Zhang et al., 2026) Le GEO Influence Score est la premi\u00e8re m\u00e9trique reproductible qui quantifie la profondeur d&rsquo;absorption d&rsquo;une page cit\u00e9e dans une r\u00e9ponse IA. Propos\u00e9 par Zhang, He &amp; Yao (arXiv:2604.25707, 2026) comme proxy observationnel construit, il combine 5 composantes mesurables (ref_count, first_position_ratio, [&hellip;]<\/p>\n","protected":false},"author":30,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_acf_changed":false,"footnotes":"","rank_math_title":"GEO Influence Score : M\u00e9thodologie Et Mesure De L'Absorption","rank_math_description":"","rank_math_focus_keyword":""},"class_list":["post-23839","page","type-page","status-publish","hentry"],"acf":[],"_links":{"self":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages\/23839","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/users\/30"}],"replies":[{"embeddable":true,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/comments?post=23839"}],"version-history":[{"count":0,"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/pages\/23839\/revisions"}],"wp:attachment":[{"href":"https:\/\/capston.ai\/fr\/wp-json\/wp\/v2\/media?parent=23839"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}