Les modèles de reconnaissance de tableaux, ou bien Table Models, utilisent l’IA pour identifier des tableaux contenus dans vos documents historiques, simplifiant ainsi l’extraction de données et l’exportation dans des feuilles de calcul.
Étape précédente : Reconnaissance de mise en page manuelle
Nos Table Models rendent le processus de numérisation plus efficace et convivial. Adaptez vos Table Models à vos documents uniques en réglant comment les tableaux sont reconnus et comment les données sont extraites. Ce guide expliquera d’abord comment entraîner un Table Model performant, puis comment utiliser le Table Model une fois entraîné.
Comment entraîner un Table Model
Comment utiliser le Table Model entraîné
Si votre document contient des tableaux, l’approche appropriée dans Transkribus dépend de la fréquence et de la mise en page des tableaux.
- Si les tableaux apparaissent régulièrement dans l’ensemble du volume ou sur plusieurs pages avec la même structure ou une structure similaire, il est recommandé d’entraîner un Table Model, comme décrit ci-dessous.
- Si les tableaux sont moins fréquents ou intégrés dans le texte, dessinez-les manuellement à l’aide de l’éditeur (seules les étapes 1 à 3 de l’étape 1 - Préparer les données d'entraînement).
Comment entraîner un Table Model
Étape 1 : Préparer les données d'entraînement
Les Table Models ne sont pas une solution tout-en-un ou prête à l’emploi. Ils doivent être entraînés sur un document spécifique ou une collection particulière afin de pouvoir reconnaître la mise en page des tableaux qu’ils contiennent. Cependant, avec suffisamment de données d’entraînement, les Table Models peuvent être entraînés à reconnaître plusieurs types de tableaux à la fois.
Les données d’entraînement dont vous avez besoin dépendent du type de tableau(x). Nous recommandons de sélectionner un jeu issu de l’ensemble du volume/de la collection, et pas seulement les premières pages, afin d’obtenir une variété plus élevée et un modèle plus robuste.
- tableaux simples : 20 pages de Ground Truth (vérité de terrain)
- tableaux complexes (lignes irrégulières, tableaux inclinés, tableaux s'étendant sur deux pages légèrement décalées) : 50 pages de Ground Truth
- combinaison de différents tableaux : entre 50 et 100 pages de Ground Truth, selon le nombre de tableaux
Les Table Models peuvent être entraînés même si les séparateurs (définissant les colonnes et les lignes) ne sont pas visibles et que la hauteur des lignes varie. Cependant, il se peut que les modèles rencontrent des difficultés avec des lignes et colonnes particulièrement étroites, augmentant ainsi le risque qu’elles soient ignorées. Les Table Models peuvent également traiter des tableaux inclinés, à condition qu’ils ne le soient pas trop.
Après avoir sélectionné les pages pour les données d’entraînement, dessinez les tableaux manuellement, comme expliqué ci-dessous :
- Dans l’éditeur de Transkribus, cliquez sur « Add a Table » dans le menu situé sur le côté gauche. Cliquez une fois sur l’image pour commencer à dessiner le tableau, puis de nouveau pour le terminer.
- Pour créer des colonnes, sélectionnez le tableau, maintenez la touche V enfoncée et déplacez le curseur sur la page en cliquant là où vous souhaitez ajouter une colonne.
- Pour créer des lignes, sélectionnez le tableau, maintenez la touche H enfoncée et déplacez le curseur sur la page en cliquant là où vous souhaitez ajouter une ligne. Continuez jusqu’à ce que toutes les cellules soient marquées.
- Enregistrez la page comme Ground Truth, puis passez à la page suivante.
Veuillez noter : Les tableaux créés dans l’eXpert Client ne peuvent pas être affichés dans l’application Web. Si vous travaillez avec des tableaux, il est conseillé de ne les modifier que dans une seule des deux interfaces. L’eXpert Client étant obsolète, nous recommandons d’utiliser l’application Web.
Bon à savoir :
- Pour dessiner des colonnes et des lignes avec un angle personnalisé, sélectionnez un tableau, maintenez la touche C enfoncée et utilisez les touches flèche pour modifier l’angle.
Maintenez Ctrl+C et utilisez les touches flèche pour ajuster les angles avec encore plus de précision. - Si la mise en page des tableaux est similaire sur plusieurs pages, vous pouvez copier-coller la structure du tableau d’une page à l’autre. Pour ce faire, il vous suffit d’appuyer sur Ctrl+C, de passer à la page suivante et d’appuyer sur Ctrl+V. Ajustez ensuite le tableau pour qu'il corresponde bien à l'image.
Nous recommandons de le faire après avoir dessiné les colonnes, mais avant de dessiner les lignes, car celles-ci varient plus souvent d'une page à l’autre et les ajustements manuels peuvent prendre plus de temps. - Il est possible d’entraîner les Table Models à ignorer certaines colonnes, à considérer plusieurs colonnes comme une seule, ou encore à créer des colonnes/lignes lorsqu’elles sont seulement séparées par des espaces, sans séparateurs visibles. Une Ground Truth cohérente, comprenant un nombre suffisant de pages couvrant tous les exemples que le modèle doit pouvoir reconnaître, est essentielle.
Afin d’obtenir des résultats d’entraînement satisfaisants, veillez à ce que votre Ground Truth ne contienne qu’un seul tableau par page et n’inclue pas de cellules fusionnées.
Étape 2 : Entraîner le Table Model
- Allez dans l’onglet Model en haut à droite, cliquez sur « Train a New Model » et sélectionnez « Table Model ».
- Ouvrez la collection contenant vos données d’entraînement.
- Sélectionner les données d’entraînement : Sélectionnez les documents ou pages spécifiques où vous avez dessiné les tableaux et que vous souhaitez utiliser pour entraîner votre Table Model. Vous avez la possibilité d’utiliser les dernières transcriptions ou uniquement les documents et pages enregistrés comme Ground Truth.
- Sélectionner les données de validation : Transkribus sélectionne automatiquement 10 % de votre jeu de données pour servir de données de validation. Nous recommandons de ne pas modifier ces paramètres, mais vous pouvez également inclure manuellement des pages spécifiques dans vos données de validation.
- Configuration du modèle : Remplissez les champs suivants :
- Nom du modèle: Donnez un nom à votre modèle.
- Description : Décrivez brièvement à quoi sert le modèle.
- Aperçu : Vous pouvez également ajouter une image en tant qu'aperçu de votre modèle.
- Paramètres avancés (optionnels) :
Pour les premiers entraînements, il est conseillé de ne pas toucher à ces paramètres avancés et de rester sur les options par défaut, qui ont fait leurs preuves dans la plupart des cas.- Cycles d’entraînement (par défaut 5 000 ; une valeur comprise entre 1 000 et 10 000 est recommandée) :
Ce chiffre indique combien de fois le modèle parcourt les données d'entraînement pour apprendre et effectuer les ajustements nécessaires. Plus le nombre de cycles est élevé, plus le modèle sera précis, mais cela augmente également le risque de surapprentissage (overfitting). - Taux d’apprentissage (par défaut 0,0001 ; une valeur comprise entre 0,0001 et 0,05 est recommandée) :
Le taux d’apprentissage influence la vitesse à laquelle le modèle s'adapte aux données.
- Cycles d’entraînement (par défaut 5 000 ; une valeur comprise entre 1 000 et 10 000 est recommandée) :
- Vérifiez tous les paramètres et les données saisies. Une fois tout prêt, démarrez le processus d'entraînement.
- Vérifiez l’état d’avancement du processus d'entraînement en cliquant sur le bouton « Jobs » à droite dans la barre de menu supérieure. Cliquez sur « Open Full Jobs Table » pour voir les détails du job. Si l’état du job indique « Created », vous pouvez consulter la description pour voir combien d’entraînements sont en file d’attente avant le vôtre.
Comment utiliser le Table Model entraîné
Étape 1 : Sélectionner des documents pour la reconnaissance
Une fois votre Table Model entraîné, allez sur le Transkribus Desk et sélectionnez les documents ou les pages spécifiques que vous souhaitez faire reconnaître.
Étape 2 : Processus de reconnaissance de tableaux
- Cliquez sur « Recognise ».
- Allez en haut de la section de reconnaissance et sélectionnez « Table ».
- Dans la liste de vos modèles privés, sélectionnez votre nouveau Table Model.
- Démarrez la reconnaissance.
Étape 3 : Reconnaissance de la mise en page (ou des lignes de base)
Une fois la structure des tableaux reconnue sur toutes les pages, effectuez la reconnaissance automatique de la mise en page pour ajouter automatiquement des lignes de base.
N’oubliez pas d’appliquer les paramètres avancés suivants :
- « Keep existing text regions » : pour identifier les lignes de base dans le tableau déjà reconnu.
- « Split lines on region borders » : pour aligner strictement les lignes de base aux bordures des cellules et éviter que des lignes proches appartenant à différentes cellules ne fusionnent.
Selon les documents spécifiques, des ajustements supplémentaires aux paramètres avancés de mise en page peuvent être nécessaires. Pour un aperçu complet de tous les paramètres avancés de mise en page, veuillez consulter cette page.
Si des lignes s’étendant sur plusieurs cellules sont divisées, vous pouvez les fusionner. D’abord, vous devez les déplacer dans la même cellule. Pour ce faire, cliquez sur « Layout » dans le menu de droite pour ouvrir l’arborescence de mise en page, puis sélectionnez dans l’image la ligne située dans la mauvaise cellule. La ligne correspondante sera mise en surbrillance dans la fenêtre de mise en page. Faites glisser la ligne sélectionnée dans l’arborescence vers la bonne cellule (probablement la cellule précédente ou suivante). Les deux lignes se trouvent désormais dans la même cellule et vous pouvez les fusionner. Pour ce faire, maintenez enfoncée la touche Ctrl, sélectionnez les deux lignes et appuyez sur M.
Étape 4 : Reconnaissance de texte
Appliquez le modèle de reconnaissance de texte le plus adapté pour transcrire automatiquement le contenu de vos tableaux, comme expliqué sur cette page.
Transkribus eXpert (obsolète)
En segmentant vos tableaux imprimés ou dessinés à la main dans l’éditeur de tableaux de Transkribus, vous ajouterez des lignes graphiques à votre image et attribuerez une structure tabulaire à la mise en page de vos documents.
Pour le moment, les tableaux doivent être dessinés manuellement dans l’éditeur de tableaux de Transkribus. Cependant, si plusieurs pages contiennent la même structure, le balisage du tableau peut être effectué sur la première page, puis copié sur les autres pages.
D’abord, créez des régions de texte pour toutes les informations qui n’appartiennent pas au tableau.
Il s’agit des informations situées en haut, en bas ou sur les côtés de la page qui ne font manifestement pas partie du tableau, telles que les numéros de page ou de ligne, les dates et toute autre note ou annotation.
Ensuite, vous pouvez créer le tableau. Pour ce faire, sélectionnez « Add other item » dans le menu Canvas et cliquez sur « Add a table ». Cliquez sur le coin supérieur gauche du tableau dans l’image, puis cliquez de nouveau sur le coin inférieur droit.
Vous pouvez maintenant segmenter votre tableau en lignes et colonnes. Pour cela, appuyez sur la touche Esc ou cliquez sur « Selection mode » dans le menu principal. Cliquez ensuite sur le tableau que vous avez créé.
Pour créer des lignes, cliquez sur le bouton H dans le menu Canvas et déplacez le curseur sur la page en cliquant là où vous souhaitez ajouter une ligne horizontale.
Pour créer des colonnes, cliquez sur le bouton V dans le menu Canvas et déplacez le curseur sur la page en cliquant là où vous souhaitez ajouter une ligne verticale. Continuez jusqu’à ce que toutes les cellules soient marquées.
Dans certains cas, il peut être nécessaire de fusionner des cellules pour refléter des cellules s’étendant sur plusieurs lignes ou colonnes. Pour fusionner des cellules, maintenez enfoncée la touche Ctrl ou CMD, sélectionnez les cellules concernées dans votre tableau en cliquant dessus, puis cliquez sur « Merge Selected Shapes » dans le menu Canvas. Veuillez noter que des tableaux comportant des cellules fusionnées ne doivent pas être utilisés comme Ground Truth pour entraîner un Table Model.
Si vous tenez à obtenir une segmentation parfaite du tableau, il pourrait être nécessaire de corriger la forme de certaines cellules dans votre tableau. Les lignes vertes segmentées doivent alors correspondre, dans la mesure du possible, aux lignes de votre tableau. Pour ce faire, sélectionnez la cellule que vous souhaitez modifier, cliquez sur les points verts et faites-les glisser pour déplacer la position des lignes.
Selon la mise en page de votre tableau, il pourrait être utile de traiter le dos du livre en tant que colonne supplémentaire. Vous pouvez également marquer cette colonne au niveau des cellules du tableau en utilisant la balise « book-binding » qui se trouve dans l’onglet « Metadata/Structural ».
Si la mise en page des tableaux est similaire sur plusieurs pages, vous pouvez copier-coller la structure du tableau d’une page à l’autre. Pour ce faire, ouvrez « Other segmentation tools » dans le menu Canvas, cliquez sur « Copy regions (texts or tables) to other pages », sélectionnez les pages vers lesquelles la mise en page doit être copiée dans la fenêtre qui s’ouvre et cliquez sur « OK ». La mise en page du tableau sera copiée sur les pages indiquées. Pour exécuter réellement l’outil, désactivez l’option « Dry run ». Il se peut que la position du tableau sur les nouvelles pages doive être corrigée. Pour cela, sélectionnez le tableau entier et déplacez-le en maintenant enfoncée la touche CTRL + SHIFT.
Avant de transcrire manuellement ou automatiquement le tableau, il faut ajouter les lignes de base. Les lignes de base doivent suivre le flux logique du texte et peuvent traverser les bordures des cellules si nécessaire. Vous pouvez dessiner les lignes de base à la main ou utiliser l’outil d’analyse automatique de mise en page.
L’analyse automatique de la mise en page respecte strictement les bordures des cellules. C’est pourquoi les lignes de base s’étendant sur plusieurs cellules sont divisées. Vous pouvez cependant les fusionner. Pour ce faire, vous devez d’abord les déplacer dans la même cellule. Ensuite, sélectionnez-les et utilisez l’outil de fusion pour les réunir. Plus précisément : Ouvrez l’onglet « Layout » dans la barre « Tools&Managing » et sélectionnez dans l’image la ligne qui se trouve dans la mauvaise cellule. La ligne correspondante sera mise en surbrillance dans l’arborescence de mise en page. Faites glisser la ligne sélectionnée dans l’arborescence vers la bonne cellule (probablement la cellule précédente ou suivante). Maintenant que les deux lignes se trouvent dans la même cellule, vous pouvez les sélectionner et cliquer sur « Merges the selected shapes » dans le menu Canvas. Adaptez vos Table Models à vos documents en réglant comment les tableaux sont reconnus et comment les données sont extraites. Grâce à un entraînement personnalisé, les Table Models peuvent reconnaître les colonnes, les lignes, les en-têtes, les cellules de données et bien plus encore.