Nouvelles Du Monde

Recherche : qu’est-ce que les données synthétiques. Et pourquoi ils remplacent les vrais

Recherche : qu’est-ce que les données synthétiques.  Et pourquoi ils remplacent les vrais

2023-11-22 15:08:08

Imaginons demander à ChatGPT d’écrire un conte de fées dans lequel il y a une petite fille, une grand-mère, un loup et un chasseur, fournissant toutes les informations sur les personnages, les lieux et les époques que l’on retrouve dans Le Petit Chaperon Rouge. L’histoire qu’il nous rendra sera différente de celle que nous connaissons – ce sera une version “synthétique” – qui conservera cependant les caractéristiques essentielles que nous lui avons fournies. Eh bien, dans le monde de la santé et de la recherche médicale, quelque chose de très similaire se produit : de plus en plus souvent, les gens n’utilisent pas de données réelles, mais des données synthétiques (générées par un système d’intelligence artificielle) qui décrivent une population en tous points semblable à la réalité. , mais sans aucun lien (traçable) avec les originaux. La raison est simple : les données personnelles sensibles, comme les données liées à la santé, sont protégées par des réglementations très strictes comme le Règlement Général sur la Protection des Données (RGPD) qui s’applique dans les pays de l’UE. Y accéder, les sécuriser puis les analyser, même à des fins de recherche, est très compliqué et l’obtention des autorisations nécessaires prend des mois. De plus, cela comporte un risque : les données réelles sont évidemment anonymisées (au prix de la destruction d’une partie de l’information) mais la possibilité de retrouver leurs propriétaires par piratage n’est jamais complètement éliminée.

Lire aussi  La grippe donne des maux de tête à Timiş. Les patients arrivent à l'hôpital avec des formes modérées voire sévères de la maladie

Données de santé : comment les utiliser et comment les protéger

par Dario Rubino


Qu’est-ce que les données synthétiques

L’idée de générer des ensembles de données synthétiques est née pour pallier ce problème. Le point de départ est bien évidemment des données réelles (comme dans l’exemple du conte du Petit Chaperon Rouge) : cependant, celles-ci ne quittent jamais les serveurs dans lesquels elles sont stockées (par exemple ceux d’un hôpital) : « Les données réelles sont utilisé pour générer des données synthétiques grâce à des modèles d’intelligence artificielle », explique-t-il Daniele Panfilo, co-fondateur et PDG d’Aindo, une start-up de l’École Internationale d’Etudes Avancées (Sissa) fondée en 2018. Mais à ce stade, poursuit l’expert, nous nous détachons des données originales et continuons à travailler uniquement sur les synthétiques, toujours via des systèmes d’IA : « Ces données synthétiques reproduisent en réalité les comportements et les caractéristiques des données originales, et montrent les mêmes modèles, conservant toute leur utilité. Par conséquent, si nous interrogeons des ensembles de données synthétiques, ils répondront de la même manière que les données originales. Mais ils restent en sécurité. » Que peut-on en tirer ? Statistiques, modèles, corrélations et tendances utiles à la recherche clinique, à la découverte de nouvelles pathologies ou à la détermination de l’apparition de facteurs de risque. « Il n’y aura pas d’informations précises sur Mario Rossi, mais aussi parce qu’elles ne sont pas nécessaires : le détail n’aide pas à définir le comportement général d’une population – explique Panfilo – parce que l’atout réside dans les statistiques démographiques. Aujourd’hui, 90 % de l’innovation repose sur le comportement statistique de la population, et non sur les données d’un seul événement ou d’une seule personne”.

Lire aussi  Effort en cours pour aider les gens à effacer les condamnations liées au cannabis de leur dossier

PatientGpt, l’IA accélère la recherche biomédicale

par Dario Rubino



Un changement de paradigme

Pour comprendre l’importance de ce nouveau paradigme, un seul chiffre suffit : d’ici 2024, on estime que jusqu’à 60 % de toutes les données utilisées pour le développement de projets d’IA seront générées de manière synthétique. Pourtant les modèles génératifs sont nés dans le monde universitaire il y a moins de 10 ans et les premières applications sur le marché ne datent que de 2018-19. Il existe aujourd’hui une poignée de startups dans le monde, principalement en Europe et aux États-Unis, qui s’occupent de ce sujet. Aindo en fait partie et est spécialisée dans la génération de bases de données relationnelles : des tables connectées à d’autres tables qui présentent des structures et des relations complexes (par exemple données personnelles, pathologie, traitement) et qui prennent également en compte le facteur temps pour obtenir des séries historiques.

Lire aussi  Encéphalomyélite rabique humaine dans le contexte d'une épidémie de rage chez les animaux à Gelephu, Bhoutan, 2023 : à propos d'un cas | Maladies infectieuses de la pauvreté

Les données en santé, les obstacles à surmonter





Instantanés et tendances

Mais comme les populations artificielles ne sont pas connectées aux populations réelles, n’y a-t-il pas un risque de « perdre » leur évolution ? «Pour avoir des analyses longitudinales – répond Panfilo – il faut prendre des instantanés des données, par exemple sur une période de 10 ans, qui montrent la tendance jusqu’à aujourd’hui. Un nouvel instantané unique dans le futur ne modifiera probablement pas considérablement le contenu informationnel de cette série d’histoires, sauf événements extraordinaires. Dans tous les cas, le système surveille l’écart et les éventuelles variations statistiques significatives nécessitant une nouvelle synthèse”. En bref, pour parler dans le langage de ceux qui s’occupent de Data Analytics, les données synthétiques sont un excellent proxy des données originales et peuvent être utilisées comme leur substitut parfait, qui peuvent être facilement (et rapidement) échangées et utilisées, sans dangers pour la vie privée.

L’intelligence artificielle sans préjugés ? Ça peut être fait

par Elisa Manacorda



#Recherche #questce #les #données #synthétiques #pourquoi #ils #remplacent #les #vrais
1700660590

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT