Sélection vs Absorption des citations : les deux étapes du GEO

Couloir de resort premium aux portes rythmées convergeant vers une vue profonde, représentant les deux étapes sélection et absorption

Intro

La plupart des discussions sur l’optimisation pour moteurs génératifs (GEO) confondent deux événements très différents en un seul indicateur. « Est-ce que le moteur nous a cités ? » est traité comme une victoire binaire. Cela ne l’est pas.

Être retenu comme source par ChatGPT, Perplexity, Google AI Overviews ou Gemini est la première étape — la sélection de citation. Être réellement absorbé dans la réponse générée, avec les affirmations de la marque qui survivent à la paraphrase et qui arrivent sous les yeux de l’utilisateur, est une seconde étape distincte — l’absorption de citation. Une page peut être sélectionnée et à peine absorbée. Une page peut être fortement absorbée sans être visiblement citée. Les deux étapes doivent être optimisées, et elles activent des leviers différents.

Cette page expose le cadre, les preuves empiriques qui le sous-tendent, et la façon dont il s’articule à la mesure Capston Core. C’est la lecture préalable à tout travail de scoring de visibilité IA.

Auditez vos écarts de sélection et d’absorption


Pourquoi deux étapes, pas une

Un moteur génératif n’écrit pas ses réponses depuis votre page d’accueil. Il les écrit depuis un ensemble de travail.

Le pipeline de récupération extrait d’abord un vivier d’URL candidates : résultats de recherche, snippets indexés, embeddings en cache. De ce vivier, il sélectionne un sous-ensemble de sources jugées éligibles pour alimenter la réponse. Ensuite seulement, il absorbe du matériel issu de ces sources sélectionnées dans la réponse synthétisée — extraction d’affirmations, pondération, paraphrase, citation occasionnelle, intégration dans le texte présenté à l’utilisateur.

Sélection et absorption reposent sur des signaux différents. La sélection récompense l’autorité, la reconnaissance du domaine, la concordance de langue et la cohérence thématique. L’absorption récompense l’alignement sémantique avec le prompt, la densité de preuves, la lisibilité structurelle (titres propres, paragraphes serrés, listes scannables) et la présence de faits concrets que le modèle peut prélever sans réécrire.

Traiter le GEO comme un entonnoir unique masque le diagnostic. Une marque rarement sélectionnée a un problème d’autorité de source. Une marque sélectionnée mais rarement absorbée a un problème de forme de contenu. Les correctifs ne sont pas les mêmes.


Étape 1 : la sélection

La sélection répond à une question étroite : cette URL est-elle éligible pour alimenter la réponse ?

Les variables qui font bouger la sélection sont majoritairement hors page et structurelles.

  • Autorité de la source — note de domaine, présence dans des index de confiance, présence dans le corpus d’entraînement du moteur, références venant de publications que le moteur tient déjà pour fiables.
  • Reconnaissance — la marque et le domaine sont associés assez souvent pour que le moteur les traite comme une seule entité.
  • Concordance de langue et de locale — l’URL sert un contenu dans la langue et la région du prompt, avec hreflang aligné et canonical propre.
  • Contexte du domaine — le domaine entier est thématiquement cohérent. Une page excellente isolée sur un domaine sans rapport est sélectionnée moins souvent que la même page sur un domaine dont tout le graphe thématique la renforce.
  • Signaux de fraîcheur — dates de dernière modification, mentions entrantes récentes, mises à jour récentes sur la page.

Si la sélection est le goulot d’étranglement, le travail est éditorial et RP, cohérence d’entité sur la couche de preuves données, et resserrement du périmètre thématique du domaine. Écrire davantage de pages ne résout pas un problème de sélection.


Étape 2 : l’absorption

L’absorption répond à une autre question : une fois sélectionnée, quelle part de cette page finit réellement dans la réponse ?

Les variables ici sont sur la page, mais structurelles autrement.

  • Alignement sémantique — la page répond directement à l’intention du prompt, et pas à une intention voisine. Une page bâtie pour une seule intention absorbe mieux qu’une page qui en couvre trois.
  • Densité de preuves — chiffres concrets, dates, entités nommées, termes définis, citations. Les modèles prélèvent plus volontiers des faits que des adjectifs.
  • Lisibilité structurelle — paragraphes courts, H2 descriptifs, définitions serrées en haut de page, blocs FAQ qui reprennent les formulations courantes. Le moteur extrait depuis des segments qu’il peut isoler proprement.
  • Contenu modulaire — sections autonomes qui restent lisibles sorties de leur contexte. Un bloc de 200 mots qui survit à l’extraction vaut mieux qu’un essai de 1 200 mots qu’il faut lire d’un trait.
  • Survie de l’affirmation — la promesse spécifique de la marque est formulée de manière à survivre à la paraphrase sans perdre la marque. Une formulation générique se dissout dans un texte de réponse générique.

Si l’absorption est le goulot d’étranglement, le travail est sur la page : réécrire pour la densité de preuves, restructurer pour la lisibilité, s’assurer qu’une page cible exactement une intention. La méthodologie Capston Core détaille le protocole de réécriture.


Ce que disent les données empiriques

Le cadre en deux étapes n’est pas théorique. Zhang Kai, He Xinyue et Yao Jingang (2026) ont exécuté 602 prompts sur ChatGPT, Perplexity, Google AI Overview et Gemini, en capturant 21 143 citations et 23 745 caractéristiques au niveau citation. Ils observent une divergence nette entre étendue et profondeur de citation.

Trois constats comptent pour les marques.

D’abord, Perplexity cite en moyenne le plus de sources par prompt ; Google AI Overview cite aussi largement. ChatGPT cite moins de sources mais chaque page récupérée exerce une influence moyenne nettement plus élevée sur la réponse produite. Les plateformes ne suivent pas le même rapport sélection/absorption. Une marque optimisée uniquement pour l’étendue sous-performera sur le moteur qui concentre l’influence.

Ensuite, l’étendue de sélection ne prédit pas la profondeur d’absorption. Une URL peut figurer dans la liste citée avec une influence négligeable sur le texte synthétisé. Compter les citations sans pondérer l’absorption surestime la visibilité.

Enfin, les caractéristiques qui prédisent la sélection et celles qui prédisent l’absorption ne se recouvrent que partiellement. Les signaux d’autorité dominent la sélection. Les signaux structurels et sémantiques dominent l’absorption. C’est un appui empirique pour traiter le GEO comme deux problèmes d’optimisation couplés mais distincts.

Pour une marque premium, la conséquence opérationnelle est directe : mesurer « est-ce qu’on a été cités ? » ne suffit pas. La couche de mesure doit séparer le taux de sélection, le poids d’absorption, et la concentration par moteur.


Comment cela s’inscrit dans Capston Core

La mesure Capston Core rapporte la sélection et l’absorption comme deux dimensions distinctes, pas un compteur de citations unique.

  • Taux de sélection — part des prompts du jeu verrouillé où le domaine de la marque apparaît dans la liste des sources citées, par moteur.
  • Poids d’absorption — part du texte de réponse synthétisée qui peut être tracée jusqu’aux sources propres de la marque, par moteur.
  • Indice de concentration — à quel point la réponse s’appuie sur la ou les deux meilleures sources, ce qui détermine si la stratégie par moteur doit viser l’étendue ou la profondeur.
  • Diagnostic d’écart — pour chaque prompt faible, l’échec est-il en sélection ou en absorption ? L’action recommandée diffère.

Le travail de sélection alimente la couche de preuves données et le programme d’entités. Le travail d’absorption alimente les réécritures de pages définies par la méthodologie Capston Core et scorées dans le scoring de visibilité IA.

→ Retour à Capston Core


FAQ

Sélection ou absorption : qu’est-ce qui compte le plus ?
Ni l’un ni l’autre isolément. Une marque jamais sélectionnée ne peut pas être absorbée. Une marque sélectionnée mais jamais absorbée reste invisible dans la réponse vue par l’utilisateur. Capston Core mesure les deux et oriente le travail vers l’étape qui contraint le résultat.

Pourquoi ChatGPT et Perplexity scorent-ils si différemment dans la recherche ?
L’étude Zhang et al. (602 prompts, 21 143 citations) montre que Perplexity cite largement tandis que ChatGPT cite moins de sources avec une influence plus forte par source. Les rapports sélection/absorption diffèrent, donc une marque a besoin d’un plan spécifique par moteur, pas d’un playbook GEO unique.

Une page peut-elle avoir une forte absorption sans citation visible ?
Oui. Les moteurs utilisent parfois une source pour alimenter une réponse sans la faire apparaître dans la liste de citations visibles, notamment quand le contenu a été absorbé dans des corpus d’entraînement ou des embeddings mis en cache. La mesure d’absorption regarde le texte de la réponse, pas seulement le badge de citation.

À quelle fréquence retester sélection et absorption ?
Trimestriellement en cadence de base, mensuellement pour les comptes à fort enjeu. Les mises à jour de modèles déplacent régulièrement le rapport sélection/absorption sur le même jeu de prompts, sans aucun changement côté marque.


Référence

Zhang, K., He, X., & Yao, J. (2026). From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms. arXiv:2604.25707v2. Étude empirique portant sur 602 prompts, 21 143 citations et 23 745 caractéristiques au niveau citation, à travers ChatGPT, Perplexity, Google AI Overview et Gemini.


Bloc CTA final

Identifiez si votre goulot d’étranglement est la sélection ou l’absorption.

Auditer sélection et absorption
Lire la méthodologie de mesure