Harvard rendra un million de livres gratuits accessibles : une avancée majeure pour l’IA

14/12/2024
Harvard et IA
Harvard et IA

Harvard lance une initiative ambitieuse visant à mettre à disposition 1 million de livres gratuits pour entraîner des modèles d'intelligence artificielle. Ce projet s'inscrit dans une démarche plus large, incluant la numérisation massive d'articles de presse.

Une base de données d'une ampleur inédite pour les modèles d'IA

Ces livres, tombés dans le domaine public, constitueront une ressource précieuse pour les développeurs d'IA. Grâce à cette initiative, les laboratoires auront accès à un volume de données bien supérieur à celui de la célèbre base Books3, utilisée par Meta pour entraîner le modèle Llama. En rendant ces œuvres accessibles librement, Harvard ouvre de nouvelles perspectives pour les petites entreprises et les startups, souvent confrontées à des limites budgétaires lorsqu'il s'agit d'acquérir des données protégées.

Des soutiens de poids dans l'écosystème technologique

Le projet bénéficie du soutien d'acteurs majeurs tels que OpenAI, Microsoft, et Google via son programme Google Books. L'objectif est de garantir un accès équitable aux données d'entraînement pour l'ensemble des acteurs du secteur, qu'ils soient des géants technologiques ou des innovateurs plus modestes.

Une collaboration avec des institutions prestigieuses

En complément de la mise à disposition des livres, Harvard collabore avec la Boston Public Library pour numériser des millions d'articles de presse appartenant déjà au domaine public. Cette initiative marque le début d'une ouverture vers d'autres partenariats qui permettront d'enrichir encore davantage les bases de données disponibles pour l'entraînement des modèles d'intelligence artificielle.

Des initiatives similaires émergent

Harvard n'est pas seule à explorer ces opportunités. En mars 2024, Hugging Face a publié une base de données regroupant 500 milliards de mots dans plusieurs langues, incluant l'anglais, le français, l'espagnol et l'allemand. Ces démarches collectives reflètent l'importance croissante des données d'entraînement pour le développement des modèles d'IA générative, lesquels nécessitent non seulement des infrastructures puissantes mais aussi des ensembles de données d'une envergure considérable.

Grâce à ce projet novateur, Harvard se positionne comme un acteur clé dans la démocratisation des ressources nécessaires à l'innovation en intelligence artificielle, tout en renforçant l'équité dans l'accès aux données pour les chercheurs et entreprises de toutes tailles.