Les algorithmes sont-ils sexistes ?
Source(s): I'MTech
À l’occasion de la journée des droits de la femme, Grazia Cecere, chercheuse à IMT-BS, a livré son éclairage sur les enjeux liés aux biais de genre dans les algorithmes, leur impact et des pistes de solutions.
En 2023, une étude de Bloomberg a montré que la génération d’images de Stable Diffusion à partir de texte produisait des images renforçant les biais éthiques et de genre dans les professions, avec par exemple une majorité d’architectes blancs et masculins ou de femmes de ménage noires. Derrière l’illusion d’une objectivité mathématique, les algorithmes ne sont en réalité pas exempts d’une influence bien humaine : celle des biais sociaux, culturels et systémiques qui façonnent notre société. C’est dans ce contexte que Grazia Cecere mène ses recherches à Institut Mines-Télécom Business School. À l’occasion de la journée des droits de la femme, la chercheuse a livré son éclairage sur les enjeux liés aux biais de genre dans les algorithmes, leur impact et des pistes de solutions.
Les algorithmes reproduisent-ils nécessairement les biais de genre existants dans notre société ?
Grazia Cecere : Ce qui est certain, c’est que les algorithmes ne sont pas neutres. Ils peuvent non seulement reproduire les biais humains déjà présents mais aussi ils peuvent en créer de nouveaux. Si les bases de données utilisées pour entraîner ces systèmes sont biaisées, comme c’est souvent le cas dans des domaines où les femmes sont sous-représentées, l’algorithme va imiter ce biais. C’est comme cela que des métiers traditionnellement considérés comme masculins, comme celui de médecin, vont être perçus ainsi par l’IA et donc orienter ses décisions en conséquence. Cela traduit un effet miroir des stéréotypes sociaux.
Cependant, les biais ne se limitent pas à la reproduction. L’algorithme peut aussi engendrer de nouvelles formes de discrimination. Dans la publicité, par exemple, une offre de cadre à un échelon élevé va être moins diffusée auprès des femmes, non pas parce qu’elles sont explicitement exclues, mais parce qu’elles sont jugées plus difficiles à atteindre, et donc plus coûteuses à cibler. C’est une dynamique intéressante : ce n’est pas de la discrimination intentionnelle, mais un effet dû aux mécanismes de l’offre et de la demande dans le monde publicitaire.
Quelles sont les origines précises de ces biais dans les algorithmes ?
GC : Les biais peuvent provenir de plusieurs sources. D’abord, il y a les biais humains. Derrière chaque algorithme se cache une équipe d’ingénieurs – et d’ingénieures ! – qui conçoit le code. Ce code est marqué par des choix cognitifs qui, eux-mêmes, reflètent des biais sociaux et culturels. Par exemple, la manière dont les caractéristiques des utilisateurs et utilisatrices sont catégorisées peut entraîner des exclusions ou des sur-représentations de certains groupes.
Ensuite, les bases de données sont une autre source majeure. Si ces dernières sont incomplètes ou non représentatives, cela crée un terrain fertile pour la reproduction de biais. Prenons à nouveau un exemple métier : dans de nombreux pays, le corps ingénieur est largement dominé par les hommes, ce qui peut conduire un algorithme à associer cette formation à un genre spécifique, générant de ce fait un biais.
Pour étudier ces mécanismes, vous avez mené une expérience autour d’images publicitaires. Que révèle-t-elle sur la manière dont les algorithmes diffusent certains stéréotypes ?
GC : En effet, au cours d’une précédente étude, nous avons voulu analyser l’impact des stéréotypes visuels dans les campagnes publicitaires. Dans un passé pas si lointain, beaucoup de publicités et de films ont utilisé des images de femmes, souvent sans montrer leur tête, leur corps étant réduit à un objet visuel. Cette tendance a été largement critiquée, notamment à travers des projets comme Headless Women of Hollywood qui dénoncent la déshumanisation des femmes dans le cinéma.
Nous avons reproduit un test semblable dans le cadre d’une de nos études, en utilisant des photos d’hommes et de femmes (habillés, bien sûr !) à qui nous avons coupé ou non la tête. L’objectif était de voir comment les algorithmes réagissaient à ces images. Et étonnamment, les photos où les femmes étaient sans tête étaient celles qui étaient le plus souvent promues par les algorithmes.
Ce phénomène n’est pas uniquement le fruit des algorithmes eux-mêmes, mais plutôt un reflet des stéréotypes culturels que nous avons intégrés dans nos choix et préférences. Les gens sont attirés par ces images parce qu’elles sont déjà des clichés visuels très présents dans le cinéma et la publicité, et l’algorithme, en apprenant à partir de ces comportements humains, finit par les reproduire.
Comment vérifier qu’un algorithme agit de manière équitable, sans reproduire les biais présents dans les données ou les décisions humaines ?
GC : L’audit des algorithmes est essentiel pour détecter et corriger ces biais. Malheureusement, de nombreux algorithmes sont des boîtes noires en raison du manque de transparence sur les données utilisées et le code des systèmes. Comme il est difficile d’avoir un accès direct à ces éléments, il faut essayer de mettre les algorithmes en position de décision pour voir comment ils réagissent aux différentes « entrées ».
Le test A/B est une méthode classiquement utilisée qui consiste à comparer des groupes similaires pour observer les différences de traitement. Mais dans un environnement très dynamique, comme celui de la publicité en ligne, il est préférable d’utiliser un test A/A afin de comparer toutes choses égales par ailleurs – donc en même temps et dans des conditions identiques. L’idée est d’ainsi mieux isoler les biais qui émergent du fonctionnement même des algorithmes.
Il est tentant de penser qu’il est possible d’agir sur les biais existants dans les bases de données ou ceux liés aux choix des ingénieurs et ingénieures qui conçoivent les algorithmes. Qu’en est-il des biais provenant des algorithmes eux-mêmes ?
GC : C’est une question complexe. En théorie, il est possible de corriger certains biais liés aux données ou à la manière dont elles sont collectées. Par exemple, en appliquant un poids correctif à certaines données sous-représentées. Toutefois, lorsqu’un biais provient directement des algorithmes, il devient plus difficile à contrôler.
Il faut donc imaginer des cas de figure qui n’existent pas encore et anticiper certains scénarios pour éviter que des stéréotypes se propagent plus largement que d’autres contenus. Par exemple, si une image, une publicité ou une information genrée attire énormément de clics, comment s’assurer que ce contenu ne soit pas davantage diffusé que d’autres, simplement parce qu’il a capté plus d’attention ? En analysant le comportement des algorithmes dans des situations contrôlées, on peut déjà identifier des schémas problématiques et travailler à les corriger.
Les approches actuelles tentent de réguler l’indépendance des algorithmes. Il existe une littérature en croissance sur la « collusion algorithmique« , où les algorithmes prennent des décisions sans intervention humaine. Mais, à ce stade, la régulation reste floue, et il est difficile d’intervenir dans un processus où l’IA semble « agir » seule.
Quelles sont justement les perspectives en matière de régulation des algorithmes ?
GC : C’est un enjeu majeur, en particulier avec les nouvelles législations comme le Digital Services Act (DSA) qui impose aux plateformes d’assumer la responsabilité des résultats de leurs algorithmes. Même si l’injonction n’est pas encore bien forte, surtout pour les petites entreprises. Reste que, au-delà des sanctions légales, si une plateforme pratique la discrimination, que ce soit sur le genre ou l’origine ethnique, cela peut avoir un impact considérable sur sa réputation.
Chercheurs et chercheuses devraient collaborer davantage avec les entreprises pour anticiper et résoudre ces problèmes. Cela nécessite d’investir dans la recherche sur l’audit des algorithmes, mais aussi de mettre en place des garde-fous pour limiter l’impact des biais.
Est-il envisageable que les biais soient totalement éradiqués des algorithmes ?
GC : Je pense que pour les biais de genre, c’est un problème solvable. Il existe déjà des solutions correctives, par exemple en rééquilibrant les données lorsqu’un groupe est sous-représenté. Pour d’autres formes de discrimination, cela peut être plus compliqué. En France, par exemple, il est très difficile d’identifier les biais liés à l’origine ethnique, car la législation interdit la collecte de ces données, contrairement aux États-Unis. C’est donc une situation à double tranchant : protéger les individus tout en cherchant à mieux identifier les biais.
En outre, il est essentiel d’imaginer des outils et des protocoles de régulation qui permettent de suivre l’évolution des biais au fur et à mesure que l’IA est utilisée dans des conditions réelles. Nous devons sensibiliser la communauté scientifique et industrielle à ces enjeux, car la transparence est la clé pour une utilisation éthique et équitable de ces technologies.