Pourquoi le CHU de Bordeaux bâtit son propre entrepôt de données de santé

Comment tirer parti des millions de données qui existent sur les patients qu'il accueille chaque année ? Le CHU cherche à répondre à cette interrogation avec son projet d'entrepôt de données de santé. Le docteur Véronique Gilleron, médecin de santé publique, est responsable du département d'information médicale de territoire du groupement hospitalier de territoire "Alliance de Gironde" ainsi que de l'Unité de coordination et d'analyse de l'information médicale (UCAIM) au CHU de Bordeaux. Egalement membre de la commission spécialisée "système de santé et sécurité des patients" au sein du Haut Conseil de la santé publique, elle contextualise rapidement le sujet :

"Les bases de données ne sont pas une nouveauté mais dans les années 70, la data était purement administrative. Avec le Programme de médicalisation des systèmes d'information [rendu obligatoire en 1996, NDLR], nous avons vu le développement de plusieurs bases de données médicales, essentiellement constituées à partir des dossiers patients. Elles comprennent beaucoup d'informations, mais peu sont exploitables massivement."

Et c'est justement tout l'intérêt de l'entrepôt de données qu'est en train de construire le CHU de Bordeaux. Un véritable projet pluridisciplinaire piloté par le Pôle de santé publique, mis en œuvre en collaboration étroite avec la Direction du Système d'Information et chapeauté par un comité stratégique.

"L'entrepôt de données est un projet du CHU pour lui-même", résume Vianney Jouhet, médecin de santé publique, rattaché à l'unité d'informatique et d'archivistique médicale (IAM) du Service d'information médicale du CHU de Bordeaux. "Aujourd'hui, les données collectées à propos des patients que nous accueillons sont issues de nombreuses sources : résultats biologiques, radiologie, anatomopathologie... Elles sont enregistrées dans de nombreuses applications qui elles-mêmes forment notre système d'information, qui est donc un système complexe avec des données qui restent dans des silos. Ces applications ne sont pas non plus faites pour répondre aux requêtes que peuvent formuler les praticiens, rendant les temps de réponse parfois incompatibles avec une interrogation transversale. Nous avons donc cherché à extraire ces données de ces applications, les mettre en forme et les copier dans un seul endroit, un « entrepôt » qui est inclus dans le système d'information global, sécurisé par la Direction des systèmes d'information."

Un entrepôt pour plusieurs usages

Jusqu'à présent, la donnée générée était principalement utilisée pour piloter les établissements de santé via des systèmes décisionnels, permettant par exemple de recenser le nombre d'opérations de prothèse de hanche, le taux d'utilisation des blocs... et d'évaluer les pratiques. En revanche, lorsque les praticiens souhaitaient interroger ces données dans le cadre de leurs recherches, ils devaient soit passer par les "applications métiers" pas adaptées pour cela, soit interroger une équipe spécialisée qui se chargeait de bâtir une réponse "à façon". En copiant les données et en les structurant en un seul endroit, l'entrepôt va permettre aux médecins d'être plus autonomes... mais il leur faudra respecter un cadre très strict.

"Les applications de l'entrepôt sont de plusieurs ordres, poursuit le docteur Véronique Gilleron : améliorer les pratiques, la pertinence des soins, faire de la recherche... On peut ainsi imaginer pouvoir identifier des patients qui peuvent bénéficier d'un protocole de traitement innovant et qui n'ont pas été repérés par les méthodes classiques, permettre à des chercheurs de trouver des corrélations en éprouvant leurs hypothèses, mais l'entrepôt pourra aussi servir à évaluer la mise en œuvre des politiques de santé. Il sera aussi possible que des algorithmes émettent différents types de signaux, positifs comme négatifs."

Il est donc imaginable que les outils détectent l'hypothèse d'un souci avec un médicament, par exemple. En revanche, à ce stade et avant d'avoir évalué les bénéfices et les risques de façon rigoureuse, l'utilisation de ces outils dans le cadre du soin est exclue du dispositif. Au sein même de l'entrepôt, les données seront pseudonymisées.

Des données sur 1,6 million de patients

L'entrepôt de données est inscrit dans le projet d'établissement 2016 / 2020 du CHU de Bordeaux. "Aujourd'hui, tous les flux de données sont en place, les outils également. Les données de tous les patients venus au CHU depuis l'année 2010 figurent dans l'entrepôt. Soit 1,6 million de patients et plus d'un milliard d'informations, ces dernières pouvant prendre des formes très diverses telles qu'un compte-rendu d'hospitalisation ou un simple résultat de biologie", précise le docteur Vianney Jouhet. Techniquement, le sujet n'est pas simple :

"Beaucoup de données collectées sont en texte libre. Il nous faut donc utiliser des outils de traitement automatique du langage naturel pour en extraire les informations, très riches, qui sont contenues dans ces textes. Par ailleurs, l'entrepôt ne contient que des données cliniques, aucune image radio par exemple même s'il est possible de les relier. Nous avons fait le choix ne pas répliquer les images car ces données sont trop lourdes et sont dans des formats trop différents."

L'équipe du CHU prévoit "une gestion très rigoureuse des accès à l'entrepôt". Seules les personnes ayant une bonne raison de le faire pourront y accéder, et pour une raison précise. Un travail de mise en conformité a été entrepris par le Data Protection Officer du CHU de Bordeaux en lien avec la Commission nationale informatique et libertés (CNIL) pour ensuite, à partir de 2020, pouvoir ouvrir le contenu de l'entrepôt à des utilisateurs cliniciens. Le chantier est d'autant plus important que le Règlement européen sur la protection des données (RGPD) impose désormais de nouvelles règles, permettant aux patients de connaître l'inventaire des données qui le concernent, de les changer ou d'en retirer. Une architecture technique solide est donc nécessaire, impliquant par exemple que toutes les études qui ont fait apparaître les informations d'un patient soient listées et leur but consultable hors établissement, par le citoyen concerné.

Une traçabilité complète des accès et des requêtes sera donc mise en œuvre. Les traces seront analysées et vérifiées aléatoirement. Les utilisateurs de l'entrepôt ne pourront extraire aucune donnée et ne pourront récupérer que les résultats agrégés obtenus à l'issue de leurs requêtes.

"Pour l'instant, seuls les praticiens du CHU pourront utiliser l'entrepôt. Il n'est pas exclu qu'à terme des chercheurs extérieurs puissent y avoir un accès mais il faut définir comment, dans quel contexte... C'est le rôle du comité stratégique d'y réfléchir et le cadre doit être posé en amont, ajoute Vianney Jouhet. L'université de Bordeaux est d'ailleurs inclue dans le comité stratégique notamment car les méthodes développées pour mettre en œuvre cet entrepôt se construisent avec des équipes hospitalo-universitaire de santé publique ce qui constitue un environnement très favorable pour ces travaux pluridisciplinaires. La question se pose également avec les industriels et les startups à plus long terme mais dans tous les cas, ces acteurs n'accèderont pas directement aux données. Et nous ne ferons des données aucune utilisation commerciale."

Le comité stratégique qui chapeaute le projet est constitué de membres du CHU, de l'Université, de la Région Nouvelle-Aquitaine, de l'Agence régionale de santé, de représentants des usagers et des patients.

Le plus de données possibles pour éviter les biais

Concrètement, le CHU va mettre à disposition des outils pour accéder, explorer et manipuler les données contenues dans l'entrepôt. "Nous sommes dans un contexte où des outils existent déjà, nous allons donc les réutiliser tel que le logiciel open source I2B2 [Informatics for Integrating Biology and the Bedside, NDLR] développé à Harvard. Quant à nous, on vient rajouter des briques métiers, tout en cherchant à maîtriser la chaîne de bout en bout." Car l'une des préoccupations majeures du Pôle santé publique, c'est bien que potentiellement, "on peut faire dire n'importe quoi aux données. Il faut être très prudent quant aux conclusions obtenues. Beaucoup rêvent d'un système où l'intelligence artificielle soigne grâce aux données collectées : nous défendons quant à nous une approche très pragmatique fondée sur des cas d'usage", rassure le docteur Vianney Jouhet.

Spontanément, on peut penser à la fameuse "boîte noire" liée au machine learning, une des techniques d'intelligence artificielle : moulinant des brassées de données, les algorithmes aboutissent à des résultats que leurs concepteurs ne sont pas en mesure d'expliquer. Les résultats obtenus peuvent faire l'objet de biais, pas forcément visibles. Autant de pièges à dépasser. "Il faut un cadre expliquant d'où viennent les données, quelles sont les limites des algorithmes, quels sont les biais probables, ajoute Vianney Jouhet. Et surtout, il faut des médecins en bout de ligne pour analyser et donner un sens aux résultats obtenus."

Dans la bonne utilisation de la donnée, les enjeux ne sont pas que technologiques : l'adhésion du public est aussi absolument nécessaire.

"Garder la confiance des patients est primordial, décrypte Vianney Jouhet. Nous devons les informer parce que leurs données peuvent être réutilisées hors pratique de soin, lors de travaux dans le cadre de la recherche, et leur rappeler que nous ne poursuivons aucun intérêt commercial mais aussi parce que si on n'a pas une bonne représentativité de l'ensemble des patients, nous allons potentiellement créer des biais dans les données. Si un certain type de population refuse d'être présente dans cet entrepôt, les requêtes qui interrogeront les données remonteront des informations mécaniquement incomplètes pouvant aboutir à des résultats erronés ou non généralisables."

A ce jour, le livret d'accueil du CHU ainsi que de l'affichage informent les patients reçus sur ces questions de données de santé. Les praticiens sont également sensibilités au sujet.

Commentaires 3

glubon à écrit le 17/12/2019 à 14:11

Signaler

"...système d'information global, sécurisé par la Direction des systèmes d'information" Il faut juste espérer que la DSI bordelaise est meilleure que son homologue rouennaise...

Riouxp à écrit le 17/12/2019 à 9:20

C'est triste de voir que cela a pris plus d'une carrière hospitalière (celle de mon ami Roger Salamon) dévouée au traitement des données pour en arriver là, c'est à dire utiliser un logiciel américain pour essayer de sortir quelque chose de toutes ce...

bof à écrit le 16/12/2019 à 13:34

On sait comment ça va se terminer. Un jour le CHU aura besoin d'argent et ils vendront les bases de données plus ou moins anonymisées à des marchands de pillules. Et ca va arriver d'autant plus vite que le gouvernement va compter ces recettes pos...

Innovation

Pourquoi le CHU de Bordeaux bâtit son propre entrepôt de données de santé

Un entrepôt pour plusieurs usages

Des données sur 1,6 million de patients

Le plus de données possibles pour éviter les biais

Newsletter - Nouvelle Aquitaine