Usage de ChatGPT : quelles garanties en matière de protection des données ?

Guillaume Rigaux
il y a 14 minutes
6 min de lecture

Parler d’intelligence artificielle sans aborder la question des données est devenu impossible.

Quelles informations sont collectées lors de l’utilisation de ChatGPT ?
Où sont-elles stockées ?
Peuvent-elles être utilisées pour entraîner des modèles ?

Ces questions reviennent systématiquement lors des ateliers IA que nous animons auprès des PME.

À l’occasion de la Journée de la protection des données du 28 janvier dernier, il nous a semblé pertinent de faire le point sur les garanties offertes par ChatGPT, l’outil d’IA générative le plus utilisé au monde, développé par OpenAI.

Cet article analyse exclusivement l’usage de ChatGPT via le navigateur web ou l’application officielle. Les usages via API, des navigateurs spécifiques ou des modèles distincts comme Sora ne sont pas abordés. Nous distinguons également les offres grand public ChatGPT Free, Go, Plus et Pro des offres Business, Enterprise et EDU, dont les engagements en matière de protection des données diffèrent fortement. L’analyse repose uniquement sur la documentation officielle d’OpenAI, notamment la EU Privacy Policy et le Data Processing Addendum.

Pourquoi la question des données est-elle centrale avec l’IA générative ?

La protection des données n’est pas un sujet nouveau. Les plateformes numériques collectent des informations depuis des années. L’essor de l’IA générative accentue toutefois ces préoccupations pour quatre raisons principales :

La valeur économique des données : elles sont devenues une ressource stratégique pour améliorer des services, comprendre les usages et, dans certains modèles économiques, monétiser l’attention ou les comportements. Cette réalité nourrit une méfiance légitime des utilisateurs et des entreprises.

Le fonctionnement même des modèles d’IA générative : les modèles sont entraînés sur d’immenses volumes de données afin d’apprendre les structures du langage et les usages humains.

L’usage quotidien et parfois même intime de ces outils : ChatGPT est utilisé aussi bien pour des contenus personnels que pour analyser des documents professionnels, des données internes ou des situations confidentielles, ce qui pose directement la question de ce qu’il est raisonnable de partager.

Le contexte géopolitique actuel et la prédominance américaine et chinoise des plateformes et outils IA soulèvent des enjeux de souveraineté numérique. Dans un climat de tensions internationales, cette situation accentue les incertitudes quant au contrôle et à l’accès aux données hébergées hors de l’Europe.

Quelles données sont collectées lors de l’utilisation de ChatGPT ?

Lors de la création d’un compte et de l’utilisation de ChatGPT, plusieurs catégories de données peuvent être collectées.

Les données de compte : elles regroupent les informations liées à votre compte utilisateur, vos coordonnées ou encore l’historique de vos transactions.

Les données de conversation : elles incluent les prompts, les réponses générées, les fichiers importés, leur contenu, ainsi que les images ou les fichiers audios éventuellement partagés.

Les données techniques : l’adresse IP, le type de navigateur, le fuseau horaire, la localisation approximative, etc. Ces données sont régulièrement utilisées à des fins de sécurité et de stabilité des services en ligne.

Par ailleurs, les conversations supprimées peuvent être conservées sur les systèmes d’OpenAI pendant une durée maximale de 30 jours, y compris lorsqu’elles ne sont plus visibles dans l’interface utilisateur.

Comment OpenAI utilise ces données ?

Par défaut, pour les offres ChatGPT Free, Go, Plus et Pro, OpenAI précise que, par défaut, les contenus échangés peuvent être utilisés pour améliorer et entraîner ses modèles. Cette utilisation peut être désactivée manuellement par l’utilisateur dans les paramètres de confidentialité.

L’entraînement des modèles signifie que certaines interactions peuvent contribuer à l’amélioration des modèles existants et au développement de futures versions des modèles d’IA. Il ne s’agit pas d’un apprentissage instantané ni personnalisé, mais d’une réutilisation potentielle du contenu pour de futures phases d’entraînement de modèles.

Concrètement, laisser cette option activée signifie que des contenus partagés, y compris des documents professionnels contenant des données personnelles, des chiffres, du code ou autres, peuvent servir de base à l’amélioration future des modèles d’IA, même s’ils sont soumis à des mécanismes d’agrégation et de désidentification.

Ces mécanismes ne sont toutefois pas infaillibles. Si les données ne sont pas parfaitement anonymisées, il existe un risque théorique que votre contenu soit restitué ultérieurement dans des réponses générées pour d’autres utilisateurs.

Pour désactiver cette option, il vous suffit de vous rendre sur votre interface ChatGPT, de cliquer sur “Paramètres”, d’aller dans le menu “Gestion des données”, “Améliorer le modèle pour tous” et de décocher le paramètre.

Capture d'écran des paramètres de gestion des données dans ChatGPT

Qui peut accéder aux données partagées dans ChatGPT ?

Les données peuvent être consultées par le personnel d’OpenAI dans le cadre du développement, de la maintenance, de la sécurité et de la prévention des usages abusifs.

Elles peuvent également être traitées par des sociétés affiliées ou des prestataires techniques agissant pour le compte d’OpenAI, notamment des fournisseurs de services cloud ou de support, strictement dans le cadre des missions qui leur sont confiées.

Enfin, comme toute entreprise internationale, OpenAI peut être tenue de transmettre certaines données aux autorités compétentes lorsqu’une obligation légale s’impose. OpenAI se réserve le droit de divulguer vos données dans les cas suivant :

Lorsque jugé nécessaire pour protéger la sécurité des utilisateurs, du public ou de leurs conditions d’utilisation ;
En cas de détection de fraude, d’activités illégales ou violation de leurs conditions d’utilisation ;
Lorsqu’ils estiment de bonne foi que la loi l’exige pour se prémunir en cas de responsabilité juridique.

Où sont traitées et stockées les données ?

Même pour les utilisateurs européens, les données traitées via ChatGPT peuvent être transférées et stockées en dehors de l’Espace économique européen, notamment aux États-Unis.

Ces transferts sont encadrés par des mécanismes juridiques reconnus par la Commission européenne, tels que les clauses contractuelles types et les garanties prévues à l’article 46 du RGPD.

Il est important de souligner que la désactivation de l’utilisation des données à des fins d’entraînement n’a aucun impact sur leur localisation. Les données restent traitées sur les infrastructures d’OpenAI, y compris hors UE.

Quelles sont les différences avec les offres Business, Enterprise et EDU ?

Les offres ChatGPT Business, Enterprise et EDU proposent des garanties renforcées en matière de protection des données.

Dans ces abonnements, les contenus ne sont pas utilisés pour entraîner les modèles par défaut. Des engagements contractuels spécifiques sont formalisés via un Data Processing Addendum que vous pouvez consulter en ligne via ce lien : cdn.openai.com/pdf/openai-data-processing-addendum.pdf

Les offres Enterprise et EDU permettent également de choisir la région de stockage* au repos de vos données. Bien que le traitement (inférence) reste actuellement localisé aux Etats-Unis, ce mécanisme de Data Residency assure un premier niveau de contrôle sur la souveraineté de vos données, utile comme point de départ, sans pour autant suffire à lui seul ni offrir une garantie absolue contre tout accès.

Ces solutions sont plus adaptées aux organisations soumises à des contraintes élevées en matière de sécurité, de conformité réglementaire et de gouvernance des données.

Cependant, la mise en place de ce mécanisme de résidence des données ne permet pas, à lui seul, d’exclure tout accès aux donnés en cas de contrainte légale. OpenAI restant une entreprise américaine, elle reste soumise aux obligations légales qui priment sur la localisation géographique de ces données.

Il est donc essentiel de s’interroger sur la nature et le niveau de criticité des données traitées avant d’envisager l’usage d’une de ces solutions.

*En fonction de votre éligibilité

Bonnes pratiques pour limiter les risques lors de l’utilisation de ChatGPT

Au-delà de la désactivation de l’option permettant d’activer ou désactiver l’utilisation des données à des fins d’entraînement, plusieurs mécanismes permettent de réduire l’exposition des données lors de l’utilisation de ChatGPT.

Les chats temporaires constituent un premier levier efficace pour les utilisateurs des versions Free, Go, Plus et Pro. Ces conversations ne sont pas enregistrées dans l’historique, n’enrichissent pas la mémoire de ChatGPT et ne sont pas utilisés pour l’entraînement des modèles, même si l’option d’entraînement est activée. Ils restent toutefois conservés sur les serveurs pendant une durée maximale de 30 jours avant leur suppression définitive.

La gestion de la suppression et de la durée de conservation des conversations est également essentielle. Une discussion supprimée est en principe effacée des serveurs dans un délai maximal de 30 jours, sauf obligation légale contraire. Les offres Enterprise et EDU offrent un contrôle plus fin sur ces durées de conservation.

Le questionnement en amont reste indispensable. Avant de partager un document, posez-vous les bonnes questions : “Contient-il des données confidentielles ?” “Une anonymisation est-elle nécessaire ?” “L’accès à l’intégralité du fichier est-il indispensable ?” Ces réflexes permettent de limiter les risques de fuite de données et la responsabilité associée.

Enfin, si une charte IA existe au sein de votre organisation, elle doit servir de cadre de référence pour un usage responsable et conforme de ChatGPT.

Conclusion

ChatGPT offre de nombreuses opportunités pour améliorer la productivité et les usages professionnels, mais son utilisation soulève des enjeux réels en matière de protection des données, en particulier pour les PME. Comprendre les différences entre les offres, paramétrer correctement les options de confidentialité et adopter de bonnes pratiques sont des étapes clés pour un usage maîtrisé de l’IA générative.

Vous souhaitez clarifier les enjeux liés à l’IA, au RGPD et à la protection des données dans votre organisation ou former vos équipes à un usage responsable de ChatGPT et des outils d’IA générative ? Contactez le MIC pour un accompagnement adapté à la réalité des PME wallonnes et transformez l’IA en véritable levier de valeur.