Une IA qui classe vos documents

Vous êtes-vous déjà posé la question ? Peut-être figure-t-elle encore au bas d’un compte-rendu. Lors de votre mise en conformité au RGPD, il est apparu que certains documents que vous collectiez devaient être détruits immédiatement ou à brève échéance.

Oui, mais comment trier le contenu de ce répertoire réseau ou de cette GED ? Il y a 2 millions de documents !

Même en passant un peu moins de 10 secondes par document, il vous faudrait plus de trois ans pour cette seule tâche.

On entend rarement cette phrase, mais ici l’IA peut venir au secours du RGPD.

 

Quelle IA ?

Partit d’une expérimentation sur les méthodes de qualification des documents, Extern-IA a développé un modèle en capacité d’identifier certains documents visés par le RGPD (Pièces d’identité, Extraits de casier judiciaire, Avis d’impôt, …) avec un haut niveau de fiabilité.

Cette IA maîtrisant la reconnaissance de documents adopte une architecture un petit peu particulière pour traiter toute l’information que le document peut proposer. C’est un réseau de neurone Siamois qui exploite à la fois les techniques de vision par ordinateur et d’analyse de texte.

Architecture du réseau siamois de reconnaissance des documents
Un petit schéma, ça meuble et vous avez l’impression que je sais de quoi je parle

Certains documents sont très simples à identifier visuellement, mais ils prennent parfois plusieurs formes, et pour d’autres : lire quelques lignes est indispensable. C’est pourquoi le texte et l’image sont proposés au modèle qui détermine seul durant sa phase d’apprentissage la méthode la plus pertinente pour identifier chaque type de documents.

En parallèle L’OCR (Reconnaissance Optique de Caractères) produit des résultats imparfaits, variables selon la qualité de la dématérialisation. Il a fallu intégrer dans le modèle une forte tolérance aux substitutions et omissions de caractères. Dans les conditions volontairement piégeuses de nos expérimentations, exploiter le texte en complément de l’image permettait de passer d’une fiabilité de 62%-72% (image ou texte seul) à plus de 90%.

 

S’entourer pour être efficace

Les documents que l’on a oublié de longue date dans ce répertoire réseau sont généralement des fichiers PDFs créés par un photocopieur. Ces fichiers ne sont pas les images qu’attend le modèle et leur texte doit encore être lu.

Etonnamment, l’étape la plus longue n’est pas l’exécution du modèle d’intelligence artificielle. La reconnaissance optique de caractères occupe plus de la moitié du temps de traitement. Pour traiter un important volume de données, le modèle s’entoure de plusieurs programmes « ouvriers ». Ceux-ci peuvent être configurés pour s’interfacer avec une GED, préparent les données et les servent au modèle.

Ainsi accompagné, le programme analyse presque deux documents par seconde pour chaque cœur de processeur à sa disposition. Accordez lui deux postes de travail classiques avec des processeurs à 4 cœurs, il lui faudra 12 jours pour traiter 2 millions de documents de 2 pages en moyenne. Vous venez de gagner 2 ans et 353 jours.

Purge des documents RGPD
Les fichiers couverts par le RGPD sont identifiés. En général, il y en a un peu plus que ça.

Il ne demande qu’à apprendre

Pré-entraîné sur un nombre limité de documents, un tel modèle peut être spécialisé pour s’adapter au contexte.

Soit maximiser la détection de documents particuliers ou à l’inverse apprendre à en identifier d’autres. Cela à la seule condition de pouvoir lui soumettre suffisamment d’échantillons du même type de document. Nous sommes parvenus à maintenir un taux de fiabilité supérieur à 90% en demandant au programme de qualifier une vingtaine de types de documents.

 

Nous parlions du RGPD ?

L’IA s’occupe de la reconnaissance des documents et n’a pas complètement réglé le problème mais a fourni un inventaire. Celui-ci peut être exploité :

  • pour une campagne de purge/archivage scriptée et ciblée
  • pour cibler les documents jugés à risques
  • en isolant certains documents pour traitement manuel
  • chargé dans un outil de GED qui prendra en charge le cycle de vie du document
  • pour enrichir les métadonnées des documents indexés dans votre ECM et mieux les contrôler

Le modèle, s’il a été spécialisé, peut être exposé en tant que service et couplé avec l’outil de gestion pour typer automatiquement les nouveaux documents ou maintenir une surveillance continue des nouveaux fichiers.