Nouvelles Du Monde

Pourquoi les données synthétiques préservant la vie privée sont un outil clé pour les entreprises

Pourquoi les données synthétiques préservant la vie privée sont un outil clé pour les entreprises

Rejoignez des cadres supérieurs à San Francisco les 11 et 12 juillet pour découvrir comment les dirigeants intègrent et optimisent les investissements en IA pour réussir. Apprendre encore plus


Le monde tangible dans lequel nous sommes nés s’homogénéise de plus en plus avec le monde numérique que nous avons créé. Fini le temps où vos informations les plus sensibles, comme votre numéro de sécurité sociale ou vos coordonnées bancaires, étaient simplement enfermées dans un coffre-fort dans le placard de votre chambre. Désormais, les données privées peuvent devenir vulnérables si elles ne sont pas correctement traitées.

C’est le problème auquel nous sommes confrontés aujourd’hui dans le paysage peuplé de pirates de carrière dont les emplois à temps plein consistent à piocher dans vos flux de données et à voler votre identité, votre argent ou vos informations confidentielles.

Bien que la numérisation nous ait permis de faire de grands progrès, elle présente également de nouveaux problèmes liés à la confidentialité et à la sécurité, même pour les données qui ne sont pas entièrement « réelles ».

En fait, l’avènement des données synthétiques pour informer les processus d’IA et rationaliser les flux de travail a représenté un énorme bond en avant dans de nombreux secteurs verticaux. Mais les données synthétiques, tout comme les données réelles, ne sont pas aussi généralisées qu’on pourrait le penser.

Événement

Transformer 2023

Rejoignez-nous à San Francisco les 11 et 12 juillet, où des cadres supérieurs partageront comment ils ont intégré et optimisé les investissements en IA pour réussir et éviter les pièges courants.

S’inscrire maintenant

Qu’est-ce qu’une donnée synthétique et pourquoi est-elle utile ?

Les données synthétiques sont, semble-t-il, constituées d’informations produites par des modèles de données réelles. C’est une prédiction statistique à partir de données réelles qui peut être générée en masse. Son application principale est d’informer les technologies d’IA afin qu’elles puissent remplir leurs fonctions plus efficacement.

Lire aussi  Les fans de "Bringing Up Bates" craignent pour la sécurité de Zade Stewart, pourquoi ?

Comme tout modèle, l’IA peut discerner des événements réels et générer des données basées sur des données historiques. Le Suite de Fibonacci est un modèle mathématique classique où chaque nombre de la séquence additionne les deux nombres précédents de la séquence pour dériver le nombre suivant. Par exemple, si je vous donne la séquence « 1,1,2,3,5,8 », un algorithme formé pourrait deviner les numéros suivants dans la séquence en fonction des paramètres que j’ai définis.

Il s’agit en fait d’un exemple simplifié et abstrait de données synthétiques. Si le paramètre est que chaque nombre suivant doit être égal à la somme des deux nombres précédents, alors l’algorithme doit rendre “13, 21, 34” et ainsi de suite. La dernière phrase de nombres est les données synthétiques déduites par l’IA.

Les entreprises peuvent collecter des données limitées mais puissantes sur leur public et leurs clients et établir leurs propres paramètres pour créer des données synthétiques. Ces données peuvent éclairer toutes les activités commerciales axées sur l’IA, telles que l’amélioration de la technologie de vente et l’augmentation de la satisfaction vis-à-vis des demandes de fonctionnalités du produit. Cela peut même aider les ingénieurs à anticiper les futurs défauts des machines ou des programmes.

Il existe d’innombrables applications pour les données synthétiques, et elles peuvent souvent être plus utiles que les données réelles dont elles sont issues.

S’il s’agit de fausses données, elles doivent être sûres, n’est-ce pas ?

Pas assez. Aussi intelligemment que les données synthétiques sont créées, elles peuvent tout aussi facilement être rétro-conçues pour extraire des données personnelles des échantillons du monde réel utilisés pour les fabriquer. Cela peut malheureusement devenir la porte d’entrée dont les pirates informatiques ont besoin pour trouver, manipuler et collecter les informations personnelles d’échantillons d’utilisateurs.

C’est là qu’intervient la question de la sécurisation des données synthétiques, notamment pour les données stockées dans le cloud.

Lire aussi  Une percée scientifique pourrait nous rapprocher d'ordinateurs quantiques percutants

Il y a beaucoup de des risques associés au cloud computing, qui peuvent tous constituer une menace pour les données à l’origine d’un ensemble de données synthétisées. Si une API est falsifiée ou si une erreur humaine entraîne la perte de données, toutes les informations sensibles provenant des données synthétisées peuvent être volées ou abusées par un acteur malveillant. La protection de vos systèmes de stockage est primordiale pour préserver non seulement les données et les systèmes propriétaires, mais également les données personnelles qu’ils contiennent.

L’observation importante à noter est que même les méthodes pratiques d’anonymisation des données ne garantissent pas la confidentialité d’un utilisateur. Il y a toujours la possibilité d’une faille ou d’un trou imprévu où les pirates peuvent accéder à ces informations.

Étapes pratiques pour améliorer la confidentialité des données synthétiques

De nombreuses sources de données utilisées par les entreprises peuvent contenir des données personnelles d’identification susceptibles de compromettre la confidentialité des utilisateurs. C’est pourquoi les utilisateurs de données doivent mettre en place des structures pour supprimer données personnelles de leurs ensembles de données, car cela réduira le risque d’exposer des données sensibles à des pirates informatiques de mauvaise humeur.

Les ensembles de données différenciées sont un mode de collecte des données réelles des utilisateurs et le maillage avec du “bruit” pour créer des données de synthèse anonymes. Cette interaction suppose les données réelles et crée des interactions similaires, mais finalement différentes de l’entrée d’origine. L’objectif est de créer de nouvelles données qui ressemblent à l’entrée sans compromettre le possesseur des données réelles.

Vous pouvez sécuriser davantage les données synthétiques grâce à une maintenance de sécurité appropriée des documents et des comptes de l’entreprise. Utilisation de la protection par mot de passe sur PDF peut empêcher les utilisateurs non autorisés d’accéder aux données privées ou aux informations sensibles qu’ils contiennent. De plus, les comptes d’entreprise et les banques de données cloud peuvent être sécurisés avec une authentification à deux facteurs afin de minimiser le risque d’accès inapproprié aux données. Ces étapes peuvent être simples, mais ce sont des bonnes pratiques importantes qui peuvent grandement contribuer à la protection de toutes sortes de données.

Lire aussi  Les festivaliers bravent la chaleur pour le coup d'envoi du Festival d'été de Québec

Mettre tous ensemble

Les données synthétiques peuvent être un outil incroyablement utile pour aider les analystes de données et l’IA à prendre des décisions éclairées. Il peut combler les lacunes et aider à prédire les résultats futurs s’il est correctement configuré dès le départ.

Cela demande cependant un peu de tact pour ne pas compromettre de vraies données personnelles. La douloureuse réalité est que de nombreuses entreprises ignorent déjà de nombreuses mesures de précaution et vendront avec empressement des données privées à des fournisseurs tiers, dont certaines pourraient être compromises par des acteurs malveillants.

C’est pourquoi les propriétaires d’entreprise qui envisagent de développer et d’utiliser des données synthétisées doivent définir à l’avance les limites appropriées pour sécuriser les données des utilisateurs privés afin de minimiser les risques de fuites de données sensibles.

Considérez les risques encourus lors de la synthèse de vos données pour rester aussi éthique que possible lors de la prise en compte des données des utilisateurs privés et maximiser leur potentiel apparemment illimité.

Charlie Fletcher est un écrivain indépendant couvrant la technologie et les affaires.

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de rédiger votre propre article !

En savoir plus sur DataDecisionMakers

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT