Les demoiselles de la justice en Intelligence Artificielle

Derrière l’Intelligence Artificielle, on imagine des robots.

Qui s’affairent à rechercher les réponses à des problèmes en utilisant des algorithmes.

Et pourtant, derrière, parfois se cachent des femmes.

Derrière l’intelligence Artificielle, on imagine des entreprises privées. OpenAI, Google, Meta…

Et pourtant, derrière, parfois se cachent le ministère de la justice, l’Etat.

Petit tour d’un monde surprenant..

Je vous propose ici de comprendre le projet titanesque de l’Etat, son utilisation de l’IA et surtout.. le travail de quelques agentes administratives dans l’ombre de l’IA !

La vraie vie de l’Intelligence Artificielle

Derrière le fantasme de l’Intelligence artificielle, il est rassurant, cruel parfois de découvrir que l’IA tient à l’humain.

Bien plus qu’on ne le croit.

Là où on pense qu’il y a concurrence entre IA et humain (« L’IA va prendre mon travail !« , « L’IA est plus efficace que l’humain » ), on peut découvrir de la solidarité, de la complémentarité..

Là où on pense que l’IA n’est que donnée et résultat.. « La donnée n’est pas donnée », il faut construire. Et la production du résultat suit un long cheminement où entrent subjectivité, de la morale..

Dans les poussiéreux palais de justice, des data scientists côtoient des fonctionnaires de justice. Et tous côtoient l’intelligence artificielle. Avec bienveillance…

L’open Data pour une république numérique.

En 2016, la loi pour une république numérique a sorti des placards administratifs les documents pour les rendre accessibles à tous.

L’objectif est ambitieux : mettre à disposition sous format numérique, accessible pour tout citoyen l’ensemble des données administratives publiques. C’est l’open Data.

Dans le domaine de la justice, cela signifie mettre à disposition les délibérations de justice en ligne…

Outre le fait de numériser ces documents, il faut évidemment les classifier.

Indiquer quel sujet est concerné, quel type de décision juridique a été définie..

L’objectif de la loi, et plus particulièrement dans le domaine de la justice est double :

  • La transparence, pour les citoyens.

Mettre à disposition à quiconque ce qui se dit, se décide dans les tribunaux. Une justice ouverte. Disposer des choix, des décisions qui gouvernent la vie des citoyens, en matière de justice pénale.

Il est Important de comprendre les délibérations pour savoir comment la loi est interprétée, appliquée.

Longtemps la lecture, l’interprétation des délibérations de justice ont été réservés aux experts ; juristes, avocats, cabinets, intermédiaires. Les délibérations de justice sont disponibles, en libre accès. Mais il faut se rapprocher d’une juridiction pour en faire la demande et obtenir une copie..

  • L’ouverture de ces données est de permettre l’innovation.

La data est une richesse pour qui sait l’exploiter. Et de nouveaux cas d’usage peuvent émerger de toutes ces données. Même si en 2016, on ne savait quelle pourrait en être l’utilité.

Le chantier titanesque de la justice, et l’intelligence artificielle.

Mettre à disposition en « open data » l’ensemble des délibérations de justice est colossal : il s’agit de 4 millions de délibérations par an.

Il s’agit d’abord de numériser l’ensemble de ces documents. Mais surtout les classifier, les catégoriser pour qu’ils soient utiles.

De quoi parle la délibération ? Quel sujet ? Dans quel cadre ? Quelle a été la décision ? Les motifs de décision ?

Mais surtout, le challenge est de mettre à disposition tous ces documents de manière confidentielle.

En effet, les actes juridiques comprennent des données sensibles, notamment des données personnelles.

L’identité des victimes, des condamnés. Des informations sur la santé, l’orientation sexuelle, politique, religieuse…

La numérisation des documents nécessite ce qu’on appelle l’anonymisation.

C’est à dire retirer tout ce qui peut directement ou indirectement identifier une personne.

Pour occulter ces datas, vu le sujet sensible, le ministère de la justice décide donc d’internaliser le processus de numérisation. Et d’utiliser un modèle d’apprentissage d’intelligence artificielle.

Il est en effet impossible à la main d’anonymiser à la main 4 millions de décision de justice. Automatiser l’anonymisation !

La complexité de l’anonymisation.

Un simple logiciel ne suffit pas. Pourquoi ?

Retirer les noms et prénoms d’une décision est simple.

Derrière le mot « Monsieur » ou « Madame », il paraît simple de retirer ce qui suivra dans le texte.

A la base, le ministère de la justice avait utiliser un système de règles simple, développant par exemple la règle précédente. Très vite, la complexité est apparue : de l’imprévu se cache..

Beaucoup d’informations permettent de remonter jusqu’à une personne.

Par exemple, dans telle ville, de telle école située à côté de telle boulangerie, ce jour là ..

Avec tous les éléments, il est possible de retrouver la personne.

Il faut donc anonymiser les adresses, les noms des entreprises, les plaques d’immatriculation, les numéros de téléphones.

L’intérêt de l’IA est sa capacité à retrouver dans un document des éléments même si sa forme dans laquelle ces éléments apparaissent n’est pas toujours la même. Autant le nom, prénom apparaissent généralement de la même façon, un lieu dit ne l’est pas.

Il faut fournir à l’IA un très grand nombre d’éléments susceptibles de lui apprendre. Avec des éléments « réels », de la « vraie vie ».

Des modèles « prêts à l’emploi » sont utilisables. Des modèles IA textuels. La cour de cassation utilise par exemple les modèles de Zalendo ou Facebook ; de grandes entreprises numériques, disponibles en open Access.

Le travail ensuite est de paramétrer ces modèles, et les entrainer avec des milliers de décisions de justice.

Annoter à la main, les petites mains de l’IA

Le modèle de l’intelligence artificielle nécessite d’être nourri. Il doit identifier tout seul les éléments identifiants qu’il faut anonymiser, sur la base d’exemples fournis par l’intelligence humaine.

Pour cela, des personnes indiquent à la main quelles données personnelles se trouvent dans la décision de justice. Là, un nom, là, une adresse…

A la cour de cassation de Paris, une équipe est formée, des « annotatrices ».

4 fonctionnaires, agent administraives ( de niveau CAP, BEP ) catégorisent les documents sur les données à anonymiser.

L’équipe intervient donc à la fois à la phase initiale d’apprentissage, et dans la phase de correction de l’IA.

L’équipe est dans l’Ile de la cité, à Paris, dans des bureaux partagés avec les data scientists.

Tous les jours, devant leur ordinateur, elles lisent les décisions de justice, les font défiler.

Et regardent où il y a des données personnelles à identifier. Elles surlignent les informations, et leur associe un « label », une « catégorie » : Nom, lieu, adresse.

Dans le temps, l’oeil permet rapidement d’identifier ces informations, sans devoir lire l’intégralité du document. En parcourant de haut en bas le document.

Un travail répétitif et fatiguant. Fastidieux.

La vigilance de ne pas repérer une information est constante.

Pour rester vigilantes, les agents regardent régulièrement regarder par la fenêtre, écoutent de la musique, font des étirements. C’est aussi une fatigue physique. A cliquer en permanence, devant son ordinateur.

L’intérêt du travail des petites mains de l’Intelligence Artificielle

Utiliser des salariés pour alimenter, surveiller l’intelligence artificielle, qu’on pense autonome n’est pas nouveau.

Il existe de véritables usines « immatérielles » dont le travail est d’aider les grandes entreprises technologiques. Un nouveau sous-prolétariat…

Leurs tâches sont souvent faites à distance, sur de courtes périodes, et peu rémunérées. Souvent dans des pays pauvres. Un sous-prolétariat de l’intelligence artificielle.

Par exemple, OpenAi fait supervisé son intelligence artificielle par des travailleurs kenyans sous-payés dans des conditions lamentables.

Les agents administratives, ici, sont fonctionnaires, avec un vrai statut. Dans un cadre bien défini. Et travaillent dans les même locaux que les ingénieurs informatiques.

L’intérêt du travail est de savoir à quoi il sert . Loin des usines à click où la data travaillée n’est pas comprise..

Le travail est une enquête, une recherche. Une confrontation avec ses collègues.

Ici on sait à quoi le travail sert et on en relit les résultats.

Les opératrices ont un grand sens de la conscience professionnelle. Elles savent que leur travail peut avoir des conséquences sur les personnes, au cas où on retrouverait des informations hautement personnelles pour elles.

Le genre de cet agents, féminin, est un atout. Se mettre à la place des personnes qui pourraient subir les effets d’une erreur dans leur travail. De l’empathie..

La valeur ajoutée de l’humain dans l’IA

Pour les agents administratifs, il y a un vrai travail intellectuel. Pour travailler, elles ont un guide d’anonymisation ; qui répertorie les catégories de données.

Certaines informations ne rentrent parfois pas dans les cases…

L’annotatrice, par son expérience, peut déceler des informations qui auraient pu être anodines.

Prenons l’exemple d’un nom de cheval de course. Dans l’absolu, on peut considérer que cela ne permettrait pas de retrouver le contexte d’une affaire, et les personnes concernées dans le procès. Mais si le nom du cheval est particulier, et connu, on pourrait retrouver et identifier les personnes qui ont été concernées dans l’affaire. Et remonter au propriétaire du cheval.

L’annotatrice n’a pas forcément de catégorie à associer à cette information. Parfois, ces informations procèdent à plusieurs catégorie. Ex. Boulangerie du Mont Saint Michel. L’information peut être associée à la fois à une entreprise, et à un lieu.

Pour ces opératrices humaines, il s’agit alors de « micro enquêtes », pour savoir comment traiter la problématique.

Leur travail d’enquête peut se baser sur des recherches sur Google, pour tenter de trouver ce que le mot peut signifier, et voir s’il faut l’anonymiser.

C’est le cas des nombreux acronymes. Qui peuvent être des données se référants à des données personnelles, ou pas.

La collaboration avec les collègues permet d’harmoniser les pratiques. L’anonymisation n’est jamais binaire..

L’expérience personnelle est également une caractéristique de ce travail, qui ne peut être déléguée à une intelligence artificielle. Une opératrice qui vient de changer d’opérateur téléphonique comprend que le code PUK est une donnée qui permet d’identifier de manière unique un téléphone et son propriétaire…

La réalité à rentrer dans l’IA

Le réel est mouvant, imprévisible et ouvert. L’IA est fermée dans un corpus d’exemples.

L’IA a donc besoin en permanence qu’on lui apprend de nouvelles choses.

Prenons l’exemple du télétravail, qui devient de plus en plus usité.

Dans de nouvelles décisions de justice, de nouveaux mots apparaissent : « visio , Zoom, Meet »..

Le travail d’apprentissage reste toujours nécessaire.

L’IA ne peut s’auto alimenter dans ce cas.

Car l’algorithme se nourrit du passé, des délibérations passées.

Son collègue IA.

Les opératrices corrigent les informations pré-annotées par l’IA et se rendent compte des erreurs des algorithmes.

En contrôlant et supervisant le travail de l’IA, les opératrices se rendent compte qu’elles font le même travail que l’IA. Mais différemment.

Car le robot applique les règles avec les annotations qu’elles ont faites dans d’autres documents.

L’IA devient un collègue pour elle. L’intelligence artificielle fait le même travail, les mêmes erreurs parfois.

Les data scientits , qui affinent les paramètres, n’ont pas la vision du résultat ; à la différence des opératrices qui voient l’effet constamment le résultat algorithmique.

Avec une relation presque intime avec les algorithmes.

« Ce matin, l’algorithme est fatigué », en constatant que l’IA a fait beaucoup d’erreurs..

Ou « l’IA a fait exprès de se tromper, pour voir si je me suis trompé »..

Agacement ou fascination ?

Il y a une sorte de bienveillance pour les opératrices. Comme avec un enfant qu’on éduque.

Et il y a une satisfaction de voir que l’algorithme apprend de mieux en mieux..

Apprendre à l’IA est infini. Comme un enfant qui doit apprendre en permanence.

On écoutera le formidable reportage avec Camille Girard-Chanudet

Et n’hésitez pas à vous abonner sur ce blog, si vous avez aimé cet article !

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.