Aller au contenu

Serveur MCP de data.gouv : ce qui change pour l’accès aux données publiques, et ce qui reste à faire

·2388 mots·12 mins

data.gouv.fr et MCP : de quoi parle-t-on ?
#

data.gouv.fr est la plateforme française des données publiques ouvertes. Elle centralise des milliers de jeux de données (statistiques, environnement, transport, économie, etc.) et permet de les rechercher, télécharger et réutiliser. Jusqu’ici, exploiter ces données supposait de naviguer sur le site, de formuler une recherche, de parcourir les résultats puis de télécharger et traiter les fichiers localement.

Pour les profils les plus techniques, il était aussi possible d’interagir avec data.gouv.fr via des web API. Ces API permettaient d’obtenir automatiquement des listes de jeux de données ainsi que des liens de téléchargement. C’est ce que nous faisons par exemple chez Euros for Docs, en téléchargeant régulièrement les annuaires des entreprises, associations et professionnels de santé de manière automatique.

Depuis février 2026, une expérimentation ouvre une nouvelle façon de travailler avec ces données. data.gouv.fr propose un serveur MCP (Model Context Protocol) qui permet aux assistants conversationnels (Claude, ChatGPT, Cursor, etc.) d’interroger directement le catalogue et certains jeux de données, sans quitter la conversation.

Le Model Context Protocol (MCP) est une norme ouverte, lancée par Anthropic fin 2024 puis pilotée par la Linux Foundation. Elle décrit une façon commune de connecter un assistant conversationnel à des sources de données ou à des services en ligne. Concrètement, un serveur MCP est un programme qui met à disposition une liste d’actions bien définies, comme « rechercher des jeux de données », « ouvrir la fiche d’un dataset » ou « interroger des lignes dans un fichier tabulaire ». L’assistant (Claude, ChatGPT, Cursor, etc.) peut découvrir ces actions, les choisir et les enchaîner pour répondre à la question posée en langage naturel. Contrairement aux interfaces techniques classiques, où il faut écrire du code pour appeler tel ou tel service, le MCP permet à l’assistant de décider lui‑même quelles actions utiliser et dans quel ordre. Il fait ainsi le lien entre la conversation et des données externes, ici le catalogue et les jeux de données de data.gouv.fr.

Le serveur MCP de data.gouv.fr est ouvert à tous et utilisable en lecture seule. On peut rechercher et consulter des jeux de données, mais pas les modifier ni en publier de nouveaux. Une fois le serveur connecté à son assistant, on pose des questions en langage naturel. Par exemple : « Quels jeux de données existent sur les prix de l’immobilier ? », « Montre‑moi les données de population pour Paris » ou « Donne‑moi un aperçu des dix premières lignes de ce fichier ». L’assistant interroge alors le catalogue data.gouv.fr, propose des jeux de données ou des ressources pertinents et peut, selon les cas, prévisualiser des extraits de données directement dans la conversation.

Dans la suite de l’article, nous allons regarder ce que cela donne concrètement sur un cas d’usage santé, puis analyser les limites et les pistes d’amélioration.

Le cas Transparence Santé
#

En tant que tech lead sur le projet Euros for Docs, je voulais comprendre comment des utilisateurs de LLM pourraient interagir avec les données de transparence des liens d’intérêts dans le secteur de la santé. Après m’être connecté au serveur MCP, j’ai commencé par poser à mon agent la question suivante.

❯ Quelles sont les données disponibles sur les risques de conflit d'intérêt dans la santé ?

L’agent enchaîne alors plusieurs appels vers les API de data.gouv.fr. Ayant beaucoup contribué au projet Éclaireur Public, qui s’appuie aussi sur le moteur de recherche de data.gouv.fr pour trouver des jeux de données, je reconnais rapidement le schéma. L’agent teste différents mots‑clés dans le moteur de recherche. Une première requête sur conflit+interet+sante ne renvoie aucun résultat. Une deuxième tentative sur transparence+sante+liens+interet n’est pas plus fructueuse. Finalement, une recherche plus simple sur transparence+sante renvoie des jeux de données pertinents.

On remarquera d’ailleurs que j’avais fais exprès de ne pas mettre le mot transparence dans ma question mais que l’agent a naturellement testé un synonyme.

Une requête spécifique sur la page dédiée à Transparence Santé (via l’API https://www.data.gouv.fr/api/1/datasets/transparence-sante-1/) permet ensuite à l’agent de récupérer les informations essentielles et de proposer une synthèse du jeu de données.

Voici les données disponibles sur data.gouv.fr concernant les risques de conflit d'intérêt dans la santé :

---
Transparence-Santé

Jeu de données principal : transparence-sante-1

Organisation : Ministère des Solidarités et de la Santé (certifié)

Description

Base de données publique qui recense les liens entre les entreprises du secteur sanitaire et les acteurs de la santé. Conformément aux articles L. 1453-1 et L. 1453-2 du code de la santé publique, les entreprises
produisant ou commercialisant des produits sanitaires ou cosmétiques doivent déclarer :

- Les conventions passées avec les professionnels de santé
- Les rémunérations versées
- Les avantages accordés (cadeaux, invitations, etc.)

Caractéristiques

┌─────────────┬───────────────────────────────────────────────────────────────────────────┐
│   Élément   │                                  Détail                                   │
├─────────────┼───────────────────────────────────────────────────────────────────────────┤
│ Volume      │ + de 10 millions de lignes                                                │
├─────────────┼───────────────────────────────────────────────────────────────────────────┤
│ Format      │ CSV                                                                       │
├─────────────┼───────────────────────────────────────────────────────────────────────────┤
│ Mise à jour │ Quotidienne                                                               │
├─────────────┼───────────────────────────────────────────────────────────────────────────┤
│ Licence     │ CC BY-NC-SA 4.0 (non commercial)                                          │
├─────────────┼───────────────────────────────────────────────────────────────────────────┤
│ Couverture  │ France entière                                                            │
├─────────────┼───────────────────────────────────────────────────────────────────────────┤
│ Source      │ Déclarations semestrielles des entreprises via transparence.sante.gouv.fr │
└─────────────┴───────────────────────────────────────────────────────────────────────────┘

Tags associés

avantage, convention, médecin, médicament, professionnels de santé, transparence

---
C'est le principal jeu de données disponible sur data.gouv.fr pour ce sujet. Il s'agit de l'équivalent français du Sunshine Act américain, conçu pour prévenir les conflits d'intérêt entre l'industrie
pharmaceutique/cosmétique et les professionnels de santé. Les données permettent de vérifier si un médecin ou un établissement a reçu des avantages de la part d'entreprises du secteur.

Alors qu’Euros for Docs est bien identifié dans le domaine de la santé pour proposer une base de données enrichie à partir de Transparence Santé, l’agent ne le mentionne pas du tout. Cela s’explique par la manière dont le serveur MCP voit les données. Sur data.gouv.fr, Euros for Docs n’apparaît que comme une réutilisation du jeu de données Transparence Santé. Les fichiers enrichis ne sont accessibles qu’à travers un lien dans la description de cette réutilisation. Dans la réponse de l’API, les réutilisations ne sont pas exposées. Le serveur MCP et l’agent n’ont donc tout simplement pas de moyen direct de découvrir Euros for Docs.

Dans la suite de l’analyse, l’agent va donc travailler uniquement à partir des données brutes de Transparence Santé, sans bénéficier des enrichissements réalisés par Euros for Docs. Cela pose la question de la qualité effective des résultats produits par un agent branché sur ce serveur MCP.

Quel accès aux données de Transparence Santé ?
#

On peut explorer les possibilités d’analyse des données de Transparence Santé qui sont exposées par le serveur MCP, et ce même si nous n’avons pas accès aux données enrichies d’Euros for Docs.

Pour ce deuxième test, je pose la question suivante à l’agent :

Donne moi le montant recu par ASSOCIATION CLINIQUE ET THÉRAPEUTIQUE INFANTILE DU VAL DE MARNE
en fonction de l'entreprise distributrice.

Cette association est représentative des problèmes de qualité de données que l’on rencontre dans Transparence Santé. Elle apparaît dans les déclarations sous de nombreuses variantes. Une étude de cas d’Euros for Docs lui a d’ailleurs été dédiée.

Dans un premier temps, l’agent tente d’interroger directement l’API Transparence Santé, mais échoue à cause d’une URL incorrecte. Il envisage alors de télécharger le fichier CSV complet pour l’analyser localement. Le fichier pesant environ 460 Mo, cette solution est abandonnée, et l’agent revient à l’API Transparence Santé avec une URL corrigée.

Après un appel général pour comprendre le schéma de l’API, l’agent lance une nouvelle requête en demandant explicitement les déclarations dont le champ d’identité du bénéficiaire correspond exactement au nom de l’association que nous avons indiqué.

https://www.transparence.sante.gouv.fr/api/explore/v2.1/catalog/datasets/declarations/records?where=identite%20like%20%22CLINIQUE%20ET%20THERAPEUTIQUE%20INFANTILE%22&limit=100&select=raison_sociale%2Cmontant%2Clien_interet%2Cdate%2Cidentite

Après analyse des résultats de cette API, l’agent me propose la synthèse suivante.

Les 21 enregistrements sont bien tous récupérés. Voici le récapitulatif complet :

---
Montants reçus par l'ASSOCIATION CLINIQUE ET THÉRAPEUTIQUE INFANTILE DU VAL DE MARNE (ACTI)

Par entreprise

┌─────────────────────────────┬───────────────┬────────────────────┐
│         Entreprise          │ Montant total │ Nb de déclarations │
├─────────────────────────────┼───────────────┼────────────────────┤
│ LABORATOIRE GLAXOSMITHKLINE │ 314 637 €     │ 8                  │
├─────────────────────────────┼───────────────┼────────────────────┤
│ MSD FRANCE                  │ 332 018 €     │ 12                 │
├─────────────────────────────┼───────────────┼────────────────────┤
│ MEDICAL AXES                │ Non chiffré   │ 1                  │
├─────────────────────────────┼───────────────┼────────────────────┤
│ TOTAL                       │ ~646 655 €    │ 21                 │
└─────────────────────────────┴───────────────┴────────────────────┘

Détail par type de lien et entreprise

LABORATOIRE GLAXOSMITHKLINE :

┌──────────────┬──────────┬────────────┐
│     Type     │ Montant  │    Date    │
├──────────────┼──────────┼────────────┤
│ Convention   │ 20 000 € │ 2020-12-04 │
├──────────────┼──────────┼────────────┤
│ Convention   │ 30 000 € │ 2020-12-04 │
├──────────────┼──────────┼────────────┤
│ Convention   │ 20 000 € │ 2022-01-10 │
├──────────────┼──────────┼────────────┤
│ Convention   │ 30 000 € │ 2022-01-10 │
├──────────────┼──────────┼────────────┤
│ Rémunération │ 24 000 € │ 2022-01-25 │
├──────────────┼──────────┼────────────┤
│ Rémunération │ 36 000 € │ 2022-01-25 │
├──────────────┼──────────┼────────────┤
│ Convention   │ 60 037 € │ 2022-06-01 │
├──────────────┼──────────┼────────────┤
│ Convention   │ 43 000 € │ 2022-10-04 │
├──────────────┼──────────┼────────────┤
│ Rémunération │ 51 600 € │ 2022-11-29 │
└──────────────┴──────────┴────────────┘

MSD FRANCE :

┌──────────────┬──────────┬────────────┐
│     Type     │ Montant  │    Date    │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 30 018 € │ 2024-09-04 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 50 000 € │ 2024-09-04 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 30 000 € │ 2024-09-04 │
├──────────────┼──────────┼────────────┤
│ Convention   │ 72 000 € │ 2025-01-10 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 20 000 € │ 2025-02-10 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 15 000 € │ 2025-06-25 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 15 000 € │ 2025-06-25 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 50 000 € │ 2025-07-01 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 15 000 € │ 2025-08-04 │
├──────────────┼──────────┼────────────┤
│ Avantage     │ 15 000 € │ 2025-08-04 │
├──────────────┼──────────┼────────────┤
│ Rémunération │ 20 000 € │ 2025-09-10 │
└──────────────┴──────────┴────────────┘

MEDICAL AXES :

┌────────────┬──────────────┬────────────┐
│    Type    │   Montant    │    Date    │
├────────────┼──────────────┼────────────┤
│ Convention │ Non spécifié │ 2019-11-13 │
└────────────┴──────────────┴────────────┘

---
Observations :
- Les liens avec GlaxoSmithKline sont concentrés sur 2020-2022, principalement sous forme de conventions et rémunérations
- Les liens avec MSD France sont plus récents (2024-2025) et composés majoritairement d'avantages
- Le montant total déclaré avoisine les 650 000 € sur la période couverte

Quelle qualité en pratique ?
#

À ce stade, la réponse de l’agent est cohérente avec les données qu’il a récupérées. Mais si l’on compare ces chiffres avec ceux récupérés à la main sur Transparence Santé et Euros for Docs comme dans l’étude de cas ACTIV, les écarts sont très importants. Il est à noter que les résultats évoluant au fil des déclarations, les chiffres présentés dans cet article seront surement déjà obsolètes au moment de la lecture.

La principale source de différence vient de l’utilisation du nom exact de l’association pour filtrer les déclarations. En pratique, les entreprises ne renseignent pas toujours cette association avec ce nom exact. Elles peuvent par exemple omettre une partie du nom, utiliser un sigle, faire une faute de frappe ou inverser certains termes. Pour limiter ces problèmes, Euros for Docs recommande d’utiliser le SIREN pour identifier les bénéficiaires personnes morales.

Un utilisateur ou une utilisatrice sans bagage technique n’a pas forcément ce réflexe. En revanche, un agent pourrait l’avoir si les API étaient mieux documentées, ou si les jeux de données fournissaient des exemples de bonnes pratiques. Pour tester cette idée, j’ai donc demandé explicitement à l’agent de commencer par retrouver le SIREN de l’association, puis de l’utiliser pour extraire les déclarations pertinentes.

À travers une recherche internet et un appel à l’API recherche-entreprises.api.gouv.fr, exposée via le serveur MCP de data.gouv.fr, l’agent retrouve bien le numéro SIREN de l’association, 380061887. En se basant sur ce SIREN, il parvient ensuite à reconstituer exactement l’ensemble des déclarations que l’on obtient en effectuant une recherche manuelle dans l’interface de Transparence Santé.

# déclarations montant total
Recherche TS manuelle 172 20 651 326
Recherche EFD manuelle 208 17 834 911
Agent via MCP (nom exact) 21 646 655
Agent via MCP (guidé SIREN) 172 20 651 326

Ces résultats montrent deux choses importantes. D’abord, un agent LLM connecté au serveur MCP peut retrouver des résultats fiables, proches d’une recherche experte, à condition d’être suffisamment guidé. Ensuite, le MCP ne règle pas à lui seul les problèmes de qualité ou de modélisation des données. La manière dont les jeux de données sont décrits, structurés et documentés reste déterminante pour la qualité des réponses produites.

Quelles pistes d’amélioration ?
#

Une première piste serait d’intégrer plus directement les données d’Euros for Docs dans l’écosystème de data.gouv.fr. Par exemple, les jeux de données enrichis pourraient être mieux mis en avant, avec une description qui explique clairement leurs apports par rapport à Transparence Santé. Les agents auraient ainsi la possibilité de privilégier, lorsque c’est pertinent, ces jeux de données enrichis pour répondre aux questions des utilisateurs.

On se heurterait toutefois à une autre contrainte, déjà visible avec Transparence Santé. Les fichiers complets sont volumineux et difficiles à manipuler dans le contexte d’un agent LLM. De la même manière que pour Transparence Santé, il serait donc utile que les données d’Euros for Docs soient exposées via une API adaptée aux requêtes ciblées. Aujourd’hui, les utilisateurs humains sont redirigés vers notre Metabase pour explorer les données. À terme, les agents devraient pouvoir interagir eux aussi avec ce type d’interface analytique, via des points d’entrée pensés pour eux.

Enfin la solution la plus simple serait que Transparence Santé améliore sa qualité de données pour bénéficier des interfaces qui fonctionnent déjà très bien.

Conclusion
#

Le serveur MCP de data.gouv.fr marque une étape utile dans l’ouverture des données publiques aux usages conversationnels. Il permet à un assistant d’identifier des jeux de données, d’en résumer le contenu et, dans certains cas, d’interroger directement des données tabulaires. Des personnes peu familières avec les API ou les outils data peuvent ainsi commencer à poser des questions complexes et à explorer les données de transparence sans écrire une ligne de code.

Cette ouverture s’accompagne toutefois de limites, illustrées par le cas Transparence Santé. Dès que l’on touche à la qualité des données, à leur modélisation ou aux besoins d’enrichissement, les réponses de l’agent dépendent fortement de la façon dont les jeux de données sont décrits et exposés. Pour que ces outils servent réellement aux enquêtes sur les conflits d’intérêts, il faudra faire évoluer à la fois les jeux de données et les interfaces qui les exposent. Les producteurs de données ouvertes devront sans doute adapter leurs catalogues, leurs API et leurs descriptions pour qu’ils soient plus facilement utilisables par des agents, à l’image des entreprises qui commencent à se préoccuper de leur présence dans les résultats des assistants de recherche.

Christophe Goudet, PhD
Auteur
Christophe Goudet, PhD
Après un doctorat en physique des particules au CERN, j’ai consacré plus de 10 ans à explorer le monde de la data, alternant entre startups et grands groupes. Mon parcours m’a conduit à naviguer entre la santé, la finance et la logistique, me permettant de maîtriser l’ensemble de la chaîne de valeur des données. J’ai également partagé cette expertise en enseignant l’analyse de données à des étudiants de master. Enfin, je m’engage activement dans des projets open data, notamment en tant que contributeur à Data4Good.

Articles connexes