Bloom, porté par le projet open source BigScience et la société française Hugging Face, est conçu pour générer un texte cohérent dans 46 langues et 13 langages de programmation
C’est quoi Bloom ?
Bloom est un grand modèle de langue ou large language model (LLM) dit auto-agressif. Créé à des fins de recherche scientifique sur l’IA, ce modèle de machine learning est entraîné afin de poursuivre la rédaction d’un texte en s’inspirant de grandes quantités de données textuelles, à l’aide de ressources informatiques à l’échelle industrielle. Il est taillé pour générer un texte cohérent dans 46 langues et du code applicatif dans 13 langages de programmation.
Porté par le projet open sources BigScience et la société française Hugging Face, Bloom est issu d’un projet de recherche international.
De mai 2021 à mai 2022, il a fédéré plus de 1000 chercheurs issus de 60 pays. Bloom a été entrainé sur un data set de texte de 28 pétaflops grâce au supercalculateur Jean Zay du centre du CNRS pour le calcul numérique intensif de très haute performance (IDRIS).
BLOOM : BigScience Large Open-science Open-access Multilingual Language Model
Quelle technologie utilise Bloom ?
Bloom repose sur la technologie des transfomers. Comparables aux réseaux de neurones récurrents (RNN), ils sont dessinés pour ingérer des données séquentielles. Ce qui les rend particulièrement bien adaptés au traitement du langage naturel.
A la différence des RNN, les transfomers ne traitent pas les données sous forme de flux continu en respectant l’ordre des mots des phrases. Résultat : ces réseaux de neurones sont capables de découper les traitements et paralléliser les calculs de la phase d’apprentissage. Les transfomeurs sont ainsi plus rapides à entraîner.
Bloom est-il gratuit ?
Bloom est disponible sous la licence BigScience RAIL License. Une licence proche de la logique open source, avec un caractère ouvert et permissif, qui promeut une IA responsable. Une licence est dite permissive quant elle permet de redistribuer le logiciel (modifié ou non) sans adopter les contraintes propres au logiciel libre, et la garantie de ses quatre libertés fondamentales.
Regardons la licence en détail
La licence BigScience RAIL de Bloom interdit de recourir au modèle de langue pour des objectifs contraires à la loi ou considérés comme non-éthiques :
- Pour toute application qui viole toute loi ou réglementation nationale, fédérale, étatique, locale ou internationale applicable,
- Dans le but d’exploiter, de nuire ou de tenter d’exploiter ou de nuire à des mineurs de quelque manière que ce soit,
- Pour générer ou diffuser de fausses informations vérifiables dans le but de nuire à autrui,
- Pour générer ou diffuser des informations personnelles identifiables qui peuvent être utilisées pour nuire à un individu,
- Pour générer ou diffuser des informations ou du contenu, dans n’importe quel contexte (par exemple, des publications, des articles, des tweets, des chatbots ou d’autres types de robots automatisés) sans indiquer expressément et de manière intelligible que le texte est généré par une machine,
- Diffamer, dénigrer ou harceler d’autres personnes,
- Usurper l’identité ou tenter d’usurper l’identité d’autrui,
- Pour une prise de décision entièrement automatisée qui porte atteinte aux droits légaux d’un individu,
- Pour toute utilisation destinée ou avec pour effet de discriminer ou de nuire à des individus ou des groupes sur la base d’un comportement social en ligne ou hors ligne ou de caractéristiques personnelles ou de personnalité connues ou prévues,
- Pour exploiter l’une des vulnérabilités d’un groupe spécifique de personnes en fonction de leur âge, de leurs caractéristiques sociales, physiques ou mentales, afin de déformer matériellement le comportement d’une personne appartenant à ce groupe d’une manière qui cause ou est susceptible de causer à cette personne ou à une autre personne un préjudice physique ou psychologique,
- Pour toute utilisation destinée à discriminer ou avec effet de discriminer des individus ou des groupes sur la base de caractéristiques ou de catégories légalement protégées,
- Fournir des conseils médicaux et interpréter les résultats médicaux,
- Pour générer ou diffuser des informations dans le but d’être utilisées pour l’administration de la justice, l’application de la loi, les procédures d’immigration ou d’asile, telles que la prédiction qu’un individu commettra une fraude/un crime (par exemple, par le profilage de texte, en établissant des relations causales entre des affirmations faites dans des documents et une utilisation aveugle et arbitrairement ciblée).
C’est très complet et éthique.
Comment faire profiter de Bloom ?
Bloom est optimisé pour tourner sur une infrastructure de traitement de 8 GPU comptant 80 Go chacun. Pour faciliter son utilisation, Hugging Face commercialise Bloom en version cloud, par le biais d’une interface disponible en ligne.
Les langues et langages de programmation de Bloom
12 langages de programmation (13 % du dataset) : C, C#, C++, Go, Java, JavaScript, Lua, PHP, Python, Rust, Scala et TypeScript
L’interface en ligne
« https://huggingface.co/bigscience/bloom
Rédaction en cours…
Quelques vidéos maintenant
Remarque : Bien que Made in France, la plupart des vidéos sont en Anglais…
« https://www.journaldunet.fr/intelligence-artificielle/guide-de-l-intelligence-artificielle/1516259-bloom-le-modele-de-langue-open-source-multilingue/