23 Juin Quid des données synthétiques ?
Protéger les données est un défi majeur pour les organisations. Que des données soient porteuses d’informations personnelles ou non, la sous-estimation de leur valeur peut exposer à divers risques d’ordre réglementaire, sécuritaire, éthique ou d’image.
Exploiter des bases de données en limitant les risques et développer de nouveaux produits/services semble donc de plus en plus difficile à mettre en œuvre. Les données synthétiques peuvent-elles permettre de générer un niveau satisfaisant de confiance pour des prises de décision pertinentes ?
Les bases de données classiques peuvent-elles donc représenter un risque de préjudice pour l’organisation, ses clients, ses salariés ?
De plus en plus d’organisations génèrent et exploitent leurs bases de données, notamment en les analysant, en vue de l’optimisation ou de la fourniture de nouveaux services/produits.
Les bases de données classiques
Afin de limiter ce risque, il existe évidemment les techniques de pseudonymisation, anonymisation, agrégation, et d’obscurcissement. Bien que ces méthodes ne manquent pas d’intérêts, elles présentent certaines limites : la pseudonymisation présente le risque de rétro-ingénierie, le fait d’anonymiser les données induit des risques de réidentification par croisement avec d’autres sources de données, l’agrégation limite les usages, et l’obscurcissement altère la qualité de l’information.
Pour autant, si ces techniques ont pu souvent et très longtemps donner satisfaction, l’avènement de l’Intelligence Artificielle et du Cloud et la progression du risque de fuite de données ont changé la donne.
Les données synthétiques : la réponse ad hoc !
Généralement, les données synthétiques sont des données qui n’ont pas été générées à la suite de processus de mesure ou de transactions effectuées dans les systèmes d’information. Elles l’ont été grâce à des approches mathématiques, d’apprentissage machine, parfois de manière dérivée d’un existant ou totalement simulées par des fonctions mathématiques.
Une vraie révolution en matière de traitement des données d’entraînement est en marche,
Par exemple, le déficit de données labélisées dont l’utilisation est nécessaire pour entraîner des modèles comme la vision par ordinateur, permet d’obtenir des photos de personnes à partir de photos déjà existantes sur lesquelles on juxtapose sur les visages divers types de masques pour entraîner un modèle à reconnaître des personnes masquées et non masquées.
La conduite dite autonome est aussi parfaitement exemplaire au regard de la nécessité de pouvoir bénéficier de datas synthétiques car il est strictement impossible de pouvoir générer dans la vie réelle toutes les situations possibles afin d’entraîner au mieux les algorithmes.
Dans l’ensemble de ces contextes, les bénéfices que procurent ces techniques ont été constatés et démontrés. Il est donc assez logique d’utiliser une application directe pour les données sensibles.
Il est donc largement recommandé d’utiliser ces nouvelles techniques et de créer un « jumeau » de données sensibles grâce aux dispositifs de génération de données synthétiques et ainsi rendre impossible les possibilités de reconstruire des données informatives réelles à partir des données générées pour des prospects/clients ou des salariés.
Si l’on en croit les prévisions du cabinet Gartner, en 2024 les données dites synthétiques représenteront près des 2/3 des données nécessaires au développement des dispositifs d’Intelligence Artificielle. En conclusion, une vraie révolution en matière de traitement des données d’entraînement est en marche, synonyme d’une meilleure sécurisation des données en cas de cyberattaque ou de fuite de données.