banner
Maison / Nouvelles / Comment la Bibliothèque nationale de Suède a exploité l'IA pour déverrouiller des siècles de données linguistiques
Nouvelles

Comment la Bibliothèque nationale de Suède a exploité l'IA pour déverrouiller des siècles de données linguistiques

May 10, 2023May 10, 2023

Des manuscrits de l'ère viking aux émissions des années 1970, l'IA aide à numériser plus de 18 millions d'éléments clés de l'histoire de la Suède

La Bibliothèque nationale de Suède – Kungliga biblioteket – est chargée de collecter et de préserver les documents historiques imprimés et électroniques de la nation, ainsi que de les rendre accessibles au public et aux chercheurs.

Qu'est-ce que la suspension du développement de l'IA apporterait réellement ?

Abritant plus de 18 millions d'articles, dont des livres, des journaux, des magazines, des cartes, des photographies et des enregistrements audio, ses collections remontent à plus de mille ans.

Pour rendre ces collections plus accessibles aux chercheurs et aux membres du public, il a puisé dans le puissant potentiel de l'intelligence artificielle (IA), dans le cadre d'une stratégie de modernisation plus large.

Alors que l'IA est souvent abordée dans un cadre plus avant-gardiste, de nombreuses organisations utilisent l'IA pour mieux comprendre notre passé, y compris la Bibliothèque nationale de Suède. Les collections de la bibliothèque sont vastes et diverses, et ne cessent de croître. L'un de ses plus grands défis a été de gérer le volume considérable de matériel qu'il entretient.

"Les manuscrits les plus anciens dont nous disposons datent de l'époque viking", explique Love Börjeson, directeur du KBLab, le laboratoire de données du Kungliga biblioteket. "Nous avons également de très grandes collections islandaises et de très grandes collections latines."

La bibliothèque reçoit des millions de nouveaux articles chaque année, et il était difficile de suivre. Un autre défi consistait à rendre ses collections plus accessibles aux chercheurs, la profondeur même des matériaux conservés rendant difficile leur exploration.

Börjeson dirige KBLab depuis 2019 et est le responsable des données et de l'infrastructure d'AI Suède pour la technologie linguistique appliquée depuis 2021. Il travaille avec des modèles d'IA à grande échelle dans des environnements de calcul haute performance (HPC) et possède une formation en sciences sociales computationnelles à Stamford.

L'automatisation des tâches liées à la gestion de ses collections, telles que le catalogage, l'acquisition et la préservation, était une priorité. La bibliothèque espérait également améliorer la découvrabilité de ces collections. Ayant adopté l'IA, la bibliothèque a également dû suivre les dernières recherches et développements dans le domaine et s'assurer qu'elle utilisait les derniers outils et techniques pour rester en tête.

La bibliothèque s'est lancée dans un processus de modernisation qui impliquait la mise en œuvre d'une infrastructure informatique multicouche. Cela comprenait de nouveaux ordinateurs portables, postes de travail, serveurs et superordinateurs.

La Bibliothèque nationale de Suède numérise les journaux depuis le XVIIe siècle, ainsi que les émissions de radio et de télévision depuis 1979 et les dépôts légaux électroniques depuis 2005.

Il a également travaillé sur la numérisation de siècles de données linguistiques, en commençant par un modèle de transformateur en 2019, mais s'est rapidement rendu compte qu'il avait besoin d'un système plus robuste.

Ils ont installé deux systèmes Nvidia DGX, acquis auprès du fournisseur suédois AddPro, pour le développement d'IA sur site en 2020 et 2021, ce qui les préparerait à des exécutions encore plus importantes sur des supercalculateurs basés sur GPU dans l'UE.

La bibliothèque utilise Nvidia NeMo Megatron, un framework PyTorch pour la formation de grands modèles de langage (LLM), ainsi que des outils d'IA pour transcrire l'audio en texte. Les chercheurs peuvent utiliser ces plateformes pour rechercher des émissions de radio spécifiques.

Des historiens, des archéologues, des musiciens et des data scientists déploient l'IA pour repenser des moments historiques. Comme tant d'histoires sur l'évolution de l'informatique moderne, le succès de l'IA repose sur les valeurs de collaboration, d'opportunité et d'expérimentation.

En savoir plus

L'équipe développe également des modèles de génération de texte et espère utiliser l'IA pour traiter les vidéos et générer des descriptions automatiques. La bibliothèque s'est également associée à l'Université de Göteborg pour développer des applications en aval pour la recherche linguistique à l'aide des modèles du laboratoire.

L'une des réalisations les plus importantes de la bibliothèque est un système basé sur l'IA appelé Swedish Language Models (SweLL), qui a été déployé pour relever le défi de la numérisation et du déverrouillage de siècles de données linguistiques. SweLL utilise des algorithmes d'apprentissage automatique pour analyser des textes suédois, apprendre des modèles et une syntaxe linguistiques et transcrire des documents manuscrits en texte numérique. Le système corrige également les fautes d'orthographe et balise et classe automatiquement les textes par sujets, période et auteur.

SweLL a amélioré l'accessibilité des données linguistiques. Il est plus facile pour les chercheurs et les apprenants d'accéder aux données sur la langue suédoise, ce qui permet des recherches et des analyses rapides et précises des modèles et tendances linguistiques. De plus, la bibliothèque a développé plus de 24 modèles de transformateurs open source à l'aide des systèmes Nvidia DGX, disponibles via Hugging Face, qui permet aux chercheurs de créer des ensembles de données spécialisés pour la recherche axée sur la quantité.

La bibliothèque numérise un volume important de données textuelles historiques pour les rendre plus accessibles dans les années à venir. Les LLM ont également permis aux non-chercheurs, comme les journalistes, d'interagir plus facilement avec les données.

"Ils peuvent poser des questions comme 'quels sont les sentiments dans les gros titres des journaux pendant le conflit en Ukraine'", explique Börjeson. "C'était triste, puis positif l'automne dernier, puis négatif à nouveau. Vous pouvez avoir ce genre de questions quantitatives sans accéder aux données."

Pourquoi Francfort réprime la prolifération des centres de donnéesComment Leonardo a adopté le cloud sécurisé en 13 moisLe FaceCatcher d'Intel espère éradiquer les deepfakes

Surmonter les obstacles juridiques et techniques dans le traitement des données peut prendre du temps, mais c'est faisable. Les LLM présentent un risque de produire de fausses nouvelles lors du déplacement de données, ce qui peut être minimisé en gardant les ressources de calcul proches des données.

Börjeson est satisfait de la décision de l'institution d'investir massivement dans les ressources informatiques locales, car cela est en fait payant à court terme, et encore moins en prenant un certain temps. "Cela a permis à nos scientifiques des données d'être plus compétents lors de la formation de modèles d'IA", dit-il, ajoutant que les retours ont été importants et rapides.

L'investissement a considérablement réduit le temps et les coûts nécessaires au traitement des données, qui était auparavant chronophage et gourmand en ressources. L'IA a également ouvert la voie à de nouvelles découvertes, identifiant des modèles linguistiques jusque-là inconnus et menant à de nouvelles perspectives sur l'histoire et la culture de la Suède.

De manière inattendue, le projet a également profité à d'autres organisations, notamment des bibliothèques régionales, des entreprises privées et le gouvernement suédois. Ces avantages comprennent l'ajustement de la position d'un arrêt de bus dans le nord de la Suède et la réduction de la charge de travail bureaucratique des tribunaux et des policiers.

Une dose quotidienne d'actualités informatiques, de critiques, de fonctionnalités et d'informations, directement dans votre boîte de réception !

Rene Millman est un écrivain et diffuseur indépendant qui couvre la cybersécurité, l'IA, l'IoT et le cloud. Il travaille également comme analyste contributeur chez GigaOm et a précédemment travaillé comme analyste pour Gartner couvrant le marché des infrastructures. Il a fait de nombreuses apparitions à la télévision pour donner son point de vue et son expertise sur les tendances technologiques et les entreprises qui affectent et façonnent nos vies. Vous pouvez suivre René Millman sur Twitter.

OpenAI vise à réduire les "hallucinations" de l'IA générative avec une nouvelle méthode de formation

Dell CTO : l'IA n'est rien comparée à la tempête quantique qui approche

Spotify va licencier 2% de ses effectifs dans le cadre d'une campagne de "réalignement stratégique"

Par Rory Bathgate26 mai 2023

Par David Howell25 mai 2023

Par John Nolan24 mai 2023

Par Sandra Vogel24 mai 2023

Par Rene Millman23 mai 2023

Par Ross Kelly22 mai 2023

Par Rory Bathgate19 mai 2023

Par Rory Bathgate19 mai 2023

Par Simon Aldous17 mai 2023

Par Rory Bathgate16 mai 2023

Par Fleur Doidge16 mai 2023

Posté

Posté

Posté

Posté

Une dose quotidienne d'actualités informatiques, de critiques, de fonctionnalités et d'informations, directement dans votre boîte de réception !

Merci de vous être inscrit à ITPro. Vous recevrez un e-mail de vérification sous peu.

Il y avait un problème. Veuillez actualiser la page et réessayer.