Aller au contenu

Le medium data : quels enjeux pour les petites structures?

·1241 mots·6 mins

Dans notre monde numérique, les données sont partout. Des grandes entreprises aux petites associations, chacun doit aujourd’hui composer avec cette nouvelle réalité. Mais comment les petites structures peuvent-elles tirer parti de cette abondance de données sans les ressources des géants du numérique ?

Un séminaire pour comprendre les enjeux de l’inflation des données
#

L’association Aristote a organisé le 11 février 2025 un séminaire intitulé Inflation des données numériques : que faire ? est-ce viable ?. Alors que la plupart des intervenants se concentraient sur les solutions Big Data, j’ai choisi d’aborder la problématique sous l’angle des petites structures.

EurosForDocs : une petite structure en missison
#

Pour illustrer cette approche, j’ai présenté le cas de l’association EurosForDocs. Celle-ci s’est donnée pour mission d’améliorer la transparence et réduire les risques de conflit d’intérêt dans le domaine de la santé.

Depuis le scandale du Médiator, les laboratoires pharmaceutiques doivent déclarer publiquement les sommes versées aux professionnels de santé. Ces informations sont disponibles en open data sur le site Transparence Santé. Cependant, la qualité et l’accessibilité des données ne permettent pas aux personnes sans compétences data de réellement les exploiter.

EurosForDocs intervient alors comme un intermédiaire : tous les matin les données sont récupérées, nettoyées, et mise à disposition sur sont site à travers des tableaux de bords. Une description plus détaillée de leur action est proposée dans cet autre article.

Une présentation des principaux impacts d’EurosForDocs

Un monde d’abondance pour les données
#

Aujourd’hui, l’accès aux données n’a jamais été aussi facile. Des plateformes gouvernementales telles data.gouv proposent plusieurs dizaines de milliers de jeux de données sur une très grande variété de domaines. Des institutions internationales telles que l’OMS et l’ONU mettent également à disposition du public des données sectorielles. Ces données officielles peuvent également être complémentées par des plateformes telles que Kaggle ou par de la récupération en direct sur certains sites internets.

De nombreuses plateformes proposent des données en accès libre

Cette abondance de données représente une opportunité sans précédent pour toutes les organisations, y compris les plus petites. Cependant, pour les exploiter efficacement, il faut surmonter plusieurs défis techniques et méthodologiques que nous allons explorer.

La complexité de la mise en relation des données
#

La véritable valeur des données émerge souvent de leur mise en relation, c’est-à-dire de la capacité à combiner différentes manières d’aborder le même sujet d’étude. Cependant, cette interconnexion soulève des défis majeurs. Chaque source de données suit ses propres conventions, ce qui peut compliquer leur utilisation conjointe.

Le cas d’EurosForDocs illustre parfaitement cette problématique. En théorie, tous les médecins disposent d’un numéro d’identification national (RPPS) et les laboratoires d’un numéro d’entreprise SIREN. Ces identifiants devraient faciliter la liaison entre différentes bases de données : le même médecin devrait apparaître partout avec le même identifiant. En pratique, les laboratoires qui déclarent des liens d’intérêt avec des médecins ne remplissent pas systématiquement le champ RPPS. Il devient alors complexe de déterminer si deux déclarations font référence à la même personne ou non.

Un des principaux apports d’EurosForDocs à la transparence dans la santé consiste justement à réattribuer un RPPS à une grande part des professionnels de santé mentionnés dans la base Transparence Santé. Grâce à un meilleur taux d’identification via RPPS, le nombre de doublons dans la base est significativement réduit. Au final, les analyses aboutissent à des chiffres beaucoup plus fiables.

La présence d’identifiants communs entre dataset facilite la mise en relation

Le défi des données non structurées
#

La complexité ne s’arrête pas là. Au-delà des problèmes d’interconnexion, certaines bases de données posent des défis supplémentaires car elles n’ont pas été conçues dans une optique d’analyse. C’est particulièrement le cas des bases contenant des données déclaratives libres, où les contributeurs peuvent saisir des informations sans contraintes strictes.

Dans la base Transparence Santé, cette problématique est flagrante. Les laboratoires doivent indiquer un motif pour chaque déclaration de lien d’intérêt, mais ce champ de saisie libre a généré des millions de formulations différentes pour des motifs similaires. Chaque entreprise renseigne ces informations selon sa propre logique, créant un véritable casse-tête pour l’analyse.

Face à cette hétérogénéité, EurosForDocs a développé une solution de normalisation. L’association regroupe tous ces motifs disparates en catégories cohérentes et compréhensibles, permettant enfin une analyse fiable des relations d’intérêt dans le secteur de la santé.

Les champs libres compliquent grandement les analyses

Une solution technologique adaptée
#

Face à ces défis, la technologie a évolué pour répondre aux besoins des petites structures, mais également pour réduire les coûts des moyennes entreprises. Historiquement, deux approches principales se sont développées pour traiter les données. La première, adaptée aux petits volumes (moins de quelques gigaoctets), permet de charger l’intégralité des données en mémoire et de les traiter directement sur un ordinateur standard. La seconde, le Big Data, découpe les données en petits morceaux pour les traiter sur différentes machines, permettant ainsi de gérer des volumes quasi illimités.

Cependant, le Big Data présente des inconvénients majeurs pour les petites structures. Il nécessite des compétences techniques spécialisées pour mettre en place l’infrastructure et un budget conséquent pour les calculs. Pour une association disposant de peu de bénévoles et de moyens financiers limités comme EurosForDocs, ces contraintes peuvent rapidement constituer un obstacle majeur à son activité.

Depuis quelques années, une troisième approche a émergé, spécialement conçue pour les volumes intermédiaires (jusqu’à quelques téraoctets). Cette solution repose sur un constat pragmatique : la plupart des organisations n’ont pas besoin de traiter des volumes de données astronomiques. Un disque dur commercial suffit généralement à stocker l’ensemble de leurs données.

La technologie DuckDB illustre parfaitement ce nouveau paradigme. Côté stockage, toutes les données sont regroupées dans un unique fichier compressé directement sur le disque dur. En arrière-plan, DuckDB gère automatiquement le découpage des données en morceaux suffisamment petits pour tenir dans la mémoire disponible. Ces fragments sont ensuite traités successivement par la machine pour produire le résultat final du calcul. Aucune configuration particulière n’est nécessaire pour bénéficier de ce fonctionnement optimisé. Cette technologie s’intègre parfaitement dans l’écosystème data existant : la manipulation des données se fait via le langage standard SQL et des outils d’intégration sont disponibles dans de nombreux langages de programmation (notamment Python).

Cette solution intermédiaire offre effectivement le meilleur des deux mondes : la simplicité d’utilisation des petits volumes et la capacité à traiter des données plus importantes que la mémoire disponible. Elle permet ainsi aux petites structures d’exploiter efficacement leurs données sans investissements majeurs en infrastructure ou en expertise technique. Chez EurosForDocs, l’adoption de DuckDB a permis de complexifier significativement les analyses, tout en continuant d’utiliser les serveurs OVH les plus modestes pour le traitement journalier et ainsi maîtriser les coûts d’infrastructure.

Des technologies adaptées à toute taille de données

Conclusion : la démocratisation de l’accès aux données
#

Notre époque se caractérise par une abondance inédite de données accessibles, mais cette richesse reste largement sous-exploitée par les petites structures face aux défis techniques complexes d’interconnexion, d’hétérogénéité des formats et de données non structurées. L’émergence du medium data, illustrée par des technologies comme DuckDB, change la donne en permettant de traiter des volumes significatifs sans la complexité du Big Data. Le cas d’EurosForDocs démontre concrètement cette démocratisation : en transformant des données gouvernementales brutes en analyses accessibles, l’association prouve qu’une petite structure peut créer un impact social majeur avec peu de moyens.

Cette démocratisation redessine le paysage de l’innovation sociale en permettant aux citoyens organisés de s’emparer des enjeux de transparence et de créer des outils au service de l’intérêt général. L’association Data For Good en est d’ailleurs un très bon exemple. À l’heure où l’information fiable devient cruciale pour notre démocratie, les petites structures disposent enfin des moyens techniques pour jouer un rôle déterminant dans ce défi collectif.

Christophe Goudet, PhD
Auteur
Christophe Goudet, PhD
Après un doctorat en physique des particules au CERN, j’ai consacré plus de 10 ans à explorer le monde de la data, alternant entre startups et grands groupes. Mon parcours m’a conduit à naviguer entre la santé, la finance et la logistique, me permettant de maîtriser l’ensemble de la chaîne de valeur des données. J’ai également partagé cette expertise en enseignant l’analyse de données à des étudiants de master. Enfin, je m’engage activement dans des projets open data, notamment en tant que contributeur à Data4Good.