Automatiser une large part du travail de montage des vidéos d’entreprise, grâce à l’intelligence artificielle : le projet Moviolia entend changer la donne pour les professionnels du secteur. Tout en jouant la carte de la « frugalité » numérique. Un exemple des perspectives qu’offre l’IA dans de nombreux domaines, au lendemain de l’IA Summit, l’événement mondial de l’IA, qui vient de se tenir à Paris-Saclay.
L’intelligence artificielle commence à bousculer de très nombreux métiers et secteurs d’activité y compris les plus inattendus, comme… le montage vidéo. C’est ce que vient confirmer le projet Moviolia, sur lequel planche l’équipe BRAIn (1) d’IMT Atlantique, en partenariat avec la société de production Tydeo et Ektacom, spécialiste du stockage numérique et du streaming vidéo.
L’idée de Moviolia tient en quelques mots : il s’agit d’utiliser les possibilités outils de l’IA pour simplifier et automatiser une grande partie du processus de montage. « Ce qui prend le plus de temps dans le montage, ce sont les échanges avec le client, dont la demande n’est pas toujours très précise et bien formulée, explique Nicolas Farrugia, enseignant-chercheur au département Mathematical and Electrical Engineering (MEE) de l’école et expert en IA. Cela nécessite fréquemment trois ou quatre allers-retours, avec de nouveaux ajustements à chaque étape. » L’équipe confie donc à une IA l’analyse du « brief » (la présentation du dossier) fourni par le client, en s’appuyant sur l’historique des projets (plusieurs centaines) déjà menés à bien par Tydeo. De quoi mieux comprendre les attentes, détecter les difficultés éventuelles, et reformuler ou « interpréter » le brief.
Une révolution pour le marché de la vidéo d’entreprise
Mais l’IA peut intervenir à plusieurs autres niveaux. Elle permet ainsi de procéder à un premier « dérushage » - autrement dit, une analyse de l’ensemble des prises de vues - et de les indexer. Autre possibilité : travailler sur la bande son, et par exemple transcrire la parole en texte - notamment pour les interviews. « Nous voudrions aller encore plus loin, et passer à la reconnaissance d’image, afin d’automatiser la recherche de contenu visuel et audio, ajoute Nicolas Farrugia. Pour utiliser un plan avec des images de montagne, une simple instruction suffirait à retrouver le contenu correspondant dans les rushs. » Autant d’éléments qui permettent d’élaborer un premier montage, de façon quasi-automatique. Ne reste plus alors qu’à repasser en mode « manuel » pour affiner le résultat. « Le monteur peut ainsi se focaliser sur le message et se consacrer davantage à la création », observe Marina d’Eté, cofondatrice de Tydeo. Au final, l’IA permet un gain de temps considérable - de l’ordre de 80 % sur l’ensemble du processus - et donc de coût. De quoi bouleverser le marché des vidéos d’entreprise, en le mettant à la portée des plus petites structures.
Le choix d’un modèle de langage mis au point par Mistral AI
Le projet utilise pour l’essentiel des modèles « Large Language Models » (LLM) tels que ceux développés par Mistral AI , la licorne française de l’IA. « Ce sont des modèles ouverts, que l’on peut aisément télécharger et déployer, sans fuite de données, indique Nicolas Farrugia. Les modèles de Mistral présentent aussi l’avantage de proposer une documentation abondante, et bénéficie d’une large communauté de développeurs. Ils sont parmi les meilleurs modèles de langage en libre accès. » Quant à la base de données de Tydeo, elle reste hébergée dans l’Hexagone.

L’équipe Moviolia prévoit de présenter un premier démonstrateur dès la fin de cette année, puis un second, plus avancé, fin 2026. Tydeo, de son côté, a déjà réalisé une vidéo sur le projet lui-même - une sorte de mise en abîme. Ektacom, pour sa part, assure la gestion du projet, et s’apprête à monter en compétences sur l’IA. Quant à l’équipe BRAIn, avec 6 chercheurs dédiés à Moviolia, elle apporte son expertise sur l’IA, et notamment sur le signal son, le numérique et la neuro-imagerie… Plusieurs recrutements sont en cours chez les trois partenaires.
Lancé en 2024, le projet dispose d’un budget total d’environ 1,1 million d’euros. Moviolia est labellisé par Images et Réseaux, le pôle de compétitivité dédié à l'innovation numérique en régions Pays de la Loire et Bretagne.
Le souci d’une IA économe en énergie
Mais la démarche de Moviolia dépasse le cadre des seules vidéos d’entreprise. Le projet pourrait aussi, par la suite, déboucher sur la création automatisée de contenus variés, utilisant toute la richesse d’une IA multimodale. De nombreux domaines pourraient être concernés - à commencer par la recherche scientifique. « On pourrait ainsi réaliser des transcriptions automatisées d’entretiens audio ou vidéo réalisés sur le terrain - notamment par des géographes ou des sociologues », relève Nicolas Farrugia. A plus long terme, des secteurs variés, comme l’industrie musicale ou le jeu vidéo, pourraient aussi être intéressés. La réflexion bat son plein…
Autre enjeu qui mobilise l’équipe BRAIn, la question de la « frugalité » de l’IA. De plus en plus d’acteurs s’inquiètent en effet des besoins énormes en énergie et en puissance de calcul nécessaires aux IA les plus avancées. Selon l’Agence internationale de l’énergie (AIE), une simple requête sur ChatGPT nécessite 2,9 wattheures d’électricité, soit dix fois plus qu’une recherche sur Google. Et la consommation globale d’électricité des centres de données augmente à toute vitesse… Une problématique qui interpelle toute une communauté du logiciel open source, regroupée notamment autour du site franco-américain Hugging Face. Ces passionnés s’attachent à « quantifier » les différents LLM, c’est à dire modifier leurs poids pour limiter la quantité de calculs et la mémoire nécessaires, et travaillent à simplifier leur architecture pour proposer des modèles d’IA plus légers et moins gourmands. Moviolia participe de cette mouvance : « Au départ, nous allons utiliser les modèles créés par d’autres, indique Nicolas Farrugia. Mais par la suite, nous pourrions essayer de développer notre propre modèle, plus petit, spécialisé dans le montage vidéo. Bref, un modèle plus frugal. » Une façon de démocratiser l’IA. Une démarche à rapprocher de l’irruption récente de l’IA chinoise DeepSeek, qui utilise des « puces » beaucoup moins sophistiquées que celle d’Open IA pour ChatGPT - avec des résultats assez probants.
L’équipe Moviolia entend aussi jouer la carte du développement économique local. « En Finistère, peu d’acteurs font de la recherche en IA, note Nicolas Farrugia. Ce projet offre une opportunité de mettre en valeur le savoir-faire local. Nous essayons de contribuer à ce mouvement, en développant l’IA et les emplois qu’elle peut créer dans le pays de Brest, à un moment où beaucoup de jeunes ingénieurs sont tentés de partir à Paris. »
(1) Better Representations for Artificial Intelligence.
En savoir plus
L'intervention de Nicolas Farrugia sur Tebeo :
par Fabienne MILLET-DEHILLERIN