IA et open-source

Feb 13, 2025

Organisé par Swissintell

Table-ronde sur les IA open source et l’intelligence économique

Hugo Flayac

Hugo est CEO et cofondateur de Csky. Son entreprise se concentre sur l’Edge AI, en déployant des solutions d’IA directement sur des appareils connectés (smart devices). L’idée est d’exécuter l’IA localement, afin de préserver la confidentialité des échanges.

Hugo raconte avoir réalisé un « long pilote avec des clients en France et en Suisse » (notamment des institutions financières, administrations et santé).

Au tout début, CSky était focalisé sur la reconnaissance vocale (speech-to-text) avec séparation des intervenants. Puis, ils attendaient l’émergence de modèles open source « pour faire la génération de rapports ou de résumés directement sur l’appareil, sans passer par un cloud externe ».

Il mentionne l’évolution des modèles : « On attendait patiemment l’équivalent open source de GPT-3, puis Mistral et Llama sont arrivés. » Hugo explique la notion de quantisation pour alléger les modèles : « Avant, c’était quelque chose de très complexe et très niche. Maintenant, il existe des outils plus démocratisés. » Au sujet de la transcription, la startup s’est appuyée sur Whisper : « On utilise aujourd’hui une version Whisper fine-tunée, adaptée au français. » Hugo annonce une réintégration future sur mobile, prévue en 2025, désormais possible grâce à la puissance grandissante des smartphones. Il revient sur la difficulté de concilier efficacité (modèles les plus récents) et usage en français : « Au début, c’était rarement top en français… C’est en train de changer. »

« On a pris des sacrées claques en utilisation réelle… Ça nous a permis d’affiner nos cas d’usages. »

Guillaume Beauverd

Guillaume se présente comme entrepreneur depuis 1999, d’abord dans la conception de sites web pour avocats, notaires ou sociétés financières. « Je me suis pris de passion pour la modélisation des processus » et raconte un parcours fait de projets BPM (Business Process Management) dans la banque privée, l’assurance, etc. Il souligne avoir connu « plusieurs vagues » : la création de sites internet, le passage au mobile, les premiers systèmes de quantification (quantified self), etc. Sur la refonte des processus pour la Poste ou des banques, il remarque que l’IA générative facilite aujourd’hui ce qui prenait auparavant beaucoup de temps : « On pourra réduire les coûts drastiquement. »

« Je me suis heurté au mur cognitif des grandes institutions, parce qu’on avait en face de nous des gens qui ne voyaient pas l’évidence qu’on voyait. »

Philippe Van Caenegem

Philippe explique avoir travaillé chez Salesforce, Altran, et avoir vécu de l’intérieur « la vague d’arrivée des données massives (big data) ».

Il mentionne un projet actuel de « fonds d’investissement privé (buy & build) pour soutenir des startups IA » qui renforcent la résilience des grandes entreprises.

Philippe est convaincu que l’Europe doit miser sur l’open source : « Il y a une stratégie à jouer, notamment pour la souveraineté et la régulation. »

Raphaël Briner

Raphaël évoque son ancienne startup qui était une alternative à Facebook, puis une autre axée sur le knowledge management (elium) dans les entreprises.

Il souligne l’importance de la classification et de la structuration des connaissances : « Les tags à trois niveaux, c’est aussi l’occasion d'offrir une hiérarchisation à  l’IA, une précision permettant d’avoir un point central de vérité. »

Raphaël rappelle qu’il prépare une conférence appelée Panoramai, sur la visual AI et les moteurs de recherche de type RAG. Il mentionne la difficulté de la “mémoire” des modèles GPT, qui peut oublier ce qui a été dit plus tôt si l’on dépasse un certain nombre de tokens.

« Aujourd’hui, l’un des plus gros dossiers en entreprise, c’est de savoir comment brancher un LLM sur son knowledge interne. » Raphaël décrit la notion de RAG (Retrieval-Augmented Generation), c’est-à-dire la façon dont on couple un modèle IA et des bases de données internes à indexer. « On ne peut pas se permettre d’augmenter les coûts de licence par 20, même Microsoft qui a doublé les coûts de licence Office peine à justifier.  ».

Rôle de l’open source et de la réglementation

Raphaël fait un tour de table auprès de la salle et demande qui a regardé si OpenAI est capable de générer une bio sur eux. Pratiquement personne lève la main. Il demande ensuite si les gens souhaiteraient que le modèle en soit capable. Personne ne lève la main, démontrant qu’il est sage que les modèles évitent de stocker des informations sur des personnes qui ne sont pas des personnalités publiques. Il évoque la GDPR comme un cadre européen, et estime que c’est non seulement efficace mais salutaire : « Les Américains n’étaient pas contents, ils voulaient se servir de toutes les données possibles. »

Philippe confirme : « Quand on regarde la Chine, il n’y a plus vraiment de privacy. Mais en même temps, certains y voient un avantage, comme un sentiment de sécurité. »

Hugo complète : « Pour l’entraînement des modèles, c’est vrai que la régulation ne sert pas à grand-chose, mais pour l’exécution, c’est incontournable. On ne peut pas envoyer des données patients sur OpenAI. »

Raphaël revient sur la possibilité de se retirer des grands modèles y compris en tant que potentielle personnalité publique: « Certains très riches banquiers ont demandé à ne pas figurer dans OpenAI. »

Philippe insiste sur la difficulté technique : « Dès que le modèle open source est distribué, on ne peut plus forcer la suppression des informations. »

Exemples de modèles et technologies

Guillaume constate que Google progresse vite sur Gemini, mais qu’ils « ne communiquent pas autant que certains concurrents ».

Philippe : « On va vivre une vague de transformation assez importante et on n’a pas encore vu le début de cette aventure. Cette course ne fait que commencer, et ce qui est fabuleux, c’est que chaque semaine, un nouveau modèle vient bouleverser la donne. »

Hugo : « Le français était mal servi par les premiers modèles open source. Maintenant, ça s’améliore nettement.

Raphaël au public: « Est-ce que quelqu’un utilise lIama de Meta? » - personne visiblement. « Ils vont investir 60 milliards cette année sur ça. […]

Il anticipe aussi des évolutions du métier d’Information Manager, lequel sera amené à manipuler directement les API :

« Un jour, vous serez les codeurs. Vous ne vous rendez peut-être pas compte, mais l’interface chat, c’est le début… »

Guillaume et d’autres participants acquiescent, soulignant qu’on pourra soit « coder » soi-même, soit engager des agents IA pour le faire.

Focus sur les API et l’infrastructure

Raphaël détaille la raison des investissements en infrastructure. « les 500 milliards annoncés sont pour traiter l’interaction essentiellement et servir des milliards d’utilisateurs futurs, dont une partie via les APIs ».

« OpenAI, ils font déjà 5  milliards de chiffres d’affaires, dont un milliard et demi environ sur l’API. Les développeurs font des requêtes sans passer par le chat… Cloud [Anthropic] fait pratiquement l’équivalent. »

La conversation bascule ensuite sur la question de la concurrence entre l’infrastructure cloud américaine (type OpenAI ou Microsoft Azure) et l’émergence de solutions asiatiques comme DeepSeek.

«Tous ceux qui n’ont pas envie de bosser sur une infrastructure cloud américaine vont pouvoir bosser sur une infrastructure cloud de DeepSeek. »

Approche chinoise et buzz médiatique

Hugo explique que la Chine, partiellement bannie de certains GPU Nvidia, s’est orientée vers des modèles plus compacts : « Ils ont prétendu entraîner leur modèle DeepSeek pour quelques millions, ce qui est un ordre de magnitude moindre que Meta. […] Donc Meta ils ont dit : “Il faut qu’on vire tout le monde.” » Il place ce phénomène dans un contexte géopolitique : « Le Nasdaq… ces aspects-là ont joué. »

Philippe s’interroge sur l’ampleur du phénomène DeepSeek en si peu de temps, parlant de « buzz » planifié : « Ils ont une compréhension. Certes, c’est un exploit, mais ce qui me surprend, c’est l’ampleur des communications. »

Guillaume y voit un désir médiatique de dépasser la « dominance américaine », tout en rappelant que des acteurs comme Anthropic et OpenAI sont déjà très loin dans leurs propres entraînements.

Dimension open source

La discussion revient sur l’impact du open source et la position d’OpenAI, désormais beaucoup moins transparente qu’à ses débuts. DeepSeek, au contraire, publie sous licence MIT, ce que Philippe qualifie de « remarquable ».

Raphaël souligne l’aspect technique : « DeepSeek a un système similaire à ce qu’on appelle les Mixtures of Experts […] il est capable de switcher sur la mémoire. C’est très puissant. Et ça coûte 50 fois moins cher. »

Il précise que l’investissement de dizaines de milliards ne sert pas tant à développer ces énormes modèles qu’à déployer l’infrastructure serveur nécessaire à l’inférence pour des milliards d’utilisateurs.

Au sujet de la disponibilité de DeepSeek en Europe, Raphaël déclare : « C’est déjà disponible. Satya [Nadella, CEO de Microsoft] a dit après une semaine d’annonce : “C’est disponible sur les serveurs européens…” Il n’y a pas un seul grand groupe en Suisse ou en Europe qui n’a pas d’accès serveur sur instance Azure. »

Philippe estime néanmoins qu’il n’est pas obligatoire de passer par l’infrastructure chinoise : « On peut l’avoir aujourd’hui. DeepSeek est en MIT license, donc on peut le faire tourner sur une infrastructure européenne. » Il évoque aussi l’exemple de chercheurs américains (S1) qui ont distillé un modèle proche de DeepSeek avec un coût réduit, suggérant que l’Europe pourrait suivre la même voie si elle mobilise ses ressources.

Raphaël met l’accent sur les problèmes de coûts pour les entreprises : passer d’un abonnement classique à un service qui consomme énormément de ressources GPU peut devenir exorbitant. Il note que certains grands groupes ont hésité à adopter Copilot de Microsoft à cause de coûts trop élevés ou d’implémentations jugées immatures.

Guillaume indique que les organisations doivent sortir d’une vision « trop zoomée » purement technologique et repenser l’usage de ces modèles dans le cadre plus large de l’entreprise et des organisations. Il explique comment il travaille habituellement : « Je faisais un tour d’interviews des différentes personnes dans l’organisation, je récoltais tous les documents possibles, je les lisais, souvent en diagonale, et ensuite j’essayais d’extraire l’information, de la synthétiser pour la présenter de manière simplifiée. » Il mentionne l’utilisation régulière de la SWOT (forces, faiblesses, opportunités, menaces) comme outil commun, aussi bien pour la stratégie que pour l’analyse de la supply chain. Il indique qu’il a développé un premier produit d’analyse d’un corpus documentaire (une “data room” pour une banque), dans le but de traiter de la confidentialité : « On ne veut pas envoyer toute l’information à l’extérieur. Ça doit rester on-premise. ». Il installe alors des cartes graphiques sur un serveur interne pour exploiter des modèles de langage (pas besoin d’Internet). Il découvre alors « un monde absolument spectaculaire… Hugging Face, Open Web UI, OLAMA… Des dizaines de milliers de modèles qui savent faire des choses plus ou moins bien. »

L’objectif était d’extraire d’un gros volume de documents (1 à 10 Go) les informations clefs, notamment les forward-looking statements ou tout ce qui pourrait constituer un risque pour un investisseur.

Difficultés rencontrées avec les premiers modèles

Guillaume relate qu’il y a 12 ou 18 mois, les résultats n’étaient pas satisfaisants : « Il n’y avait rien de vraiment factuel, ou alors il y avait des choses en apparence exactes mais qui ne l’étaient pas. »

Son équipe a alors testé de nombreux modèles open source, avec la mise en place d’un système d’évaluation multi-critères :

  • Tester la pertinence de la vectorisation.

  • Vérifier la cohérence et la qualité de l’output (en JSON ou en code).

  • Observer la stabilité des résultats entre plusieurs exécutions.

Néanmoins, leur solution complète ne repose pas sur un seul modèle :

« On utilise actuellement quatre modèles différents pour faire un processus complet sur notre corpus documentaire. En fonction du type d’information, on va choisir le modèle adapté. »

«Notre app permet d’uploader un document et de le faire travailler sur tous les modèles. Chaque fois qu’on ajoute un document, on réévalue le savoir, et on le remet à disposition de la personne qui prendra la décision. »

Raphaël Briner ajoute qu’OpenAI aurait pu faire ce genre de solution, mais qu’il s’agit d’une « vue métier », différente d’un simple chat : « Quand on code, on a envie d’interagir et on a à côté le code… Tu es en train de définir le futur système de visualisation. »

IA « transparente » et valeur ajoutée

Guillaume s’interroge sur l’évolution : « Est-ce que l’IA va devenir absolument transparente ? Je pense que oui, on ne saura plus qu’elle est là, mais elle sera toujours là pour nous servir. » Il voit son rôle au carrefour du business, de la technologie et de la compréhension des use cases. À ses yeux, « si le delivery” du résultat permet de nourrir la créativité humaine, on a une bonne piste. »

Il mentionne une dimension géopolitique et culturelle : « Le modèle chinois n’a pas nécessairement une façon de penser occidentale. […] Pour l’Europe, il est fondamental qu’on ait des modèles entraînés sur de l’info plus européenne, sur notre vision du monde. On va pouvoir rayonner avec notre façon de penser. »

Les différences se constatent aussi dans des cas d’usage précis : « DeepSeek connaît moins bien certaines infos. Il va nous sortir des choses moins pertinentes que d'autres… On suppose que c’est dû à son dataset. »

Guillaume explique que son équipe utilise ses propres modèles d’IA « parce qu’on ne les connaît pas » et qu’ils préfèrent maîtriser le processus. Ils ont commencé à expérimenter différents modèles et méthodes de prétraitement, constatant que « les modèles évoluaient vraiment rapidement ». Il souligne qu’ils veulent garder la flexibilité d’utiliser n’importe quel modèle à l’avenir, grâce à des étapes de préparation des données.

Hugo n’est pas du tout surpris  et trouve formidable que les projets soient gérés en local, surtout pour des données sensibles comme celles du secteur bancaire. Il remarque : « Je suis sûr qu’en 2022-2023, ça a été fait massivement », faisant référence à l’envoi potentiel de données confidentielles à ChatGPT.

Guillaume répond que « le même modèle fournit actuellement le même type de réponse », mais que les perceptions varient d’un utilisateur à l’autre. Pour certaines personnes, « c’est absolument mind-blowing », tandis que pour d’autres, « c’est très moyen ». Il prévoit de laisser le choix du modèle à l’utilisateur : un environnement fermé et orienté sécurité ou, au contraire, la possibilité d’utiliser des modèles plus ouverts pour des résultats différents.

Raphaël demande si Guillaume a besoin d’un  système de raisonnement . Guillaume confirme qu’ils ont « quatre étapes dans le raisonnement » pour fiabiliser les réponses. Il annonce également le lancement d’une version beta fermée, suivi d’une beta ouverte, en demandant l’indulgence : « Il faut être hyper tolérant parce que ça va hyper vite ».

Il interroge sur d’autres startups genevoises proposant des solutions similaires.

Hugo répond qu’il existe de nombreuses boîtes spécialisées dans le RAG (Retrieval-Augmented Generation) ou l’indexation documentaire dans le cloud, mais il n’a pas vu ce format de « SWOT » ailleurs. Il trouve l’idée très maline car elle structure l’analyse sur des modèles managériaux connus (4P marketing, BCG Matrix, Business Model Canvas, etc.).

Vers des tableaux de bord pour dirigeants

Hugo se projette sur l’avenir : « Ça va être des dashboards comme celui-ci, qui sont des couches entre vous et des modèles d’IA… » Il anticipe que ces outils fourniront un tableau de bord complet à un petit nombre de décideurs. « La question, c’est quel va être l’impact en dessous ? J’ai plus besoin de gens en dessous ? »

Pascal Eichenberger (invité) s’interroge : « Je ne sais pas ce qu’on va faire des juniors. »

Guillaume mentionne une prédiction qu’il a entendue : « The first one billion dollar company managed by one guy is going to happen very soon ». Il imagine un scénario où le middle management serait profondément transformé, tout en soulignant que les entreprises bancaires, par exemple, ont souvent  10 ans d’inertie.

Perspectives d’investissement et croissance du personnel

Philippe partage sa vision d’investisseur en private equity, notamment en Europe. D’après ses analyses, « on va probablement d’abord vivre une croissance d’augmentation plutôt du personnel », car la technologie va nécessiter de la formation et une adoption plus large. Puis, « tous ces modèles auront tellement appris qu’il y aura un énorme crash, hélas, la vraie question est quand ». 

Il ajoute que dans son métier, il investit dans des sociétés « qui vont elles-mêmes probablement aider à des grandes transformations très ciblées » (supply chain, ressources essentielles) pour faire face aux évolutions à venir.

Hugo propose la vision de la startup : beaucoup de gens créent aujourd’hui des « startups AI » parce que les outils deviennent accessibles au grand public. Il faut cependant « anticiper ces tendances pour ne pas disparaître au bout d’un an ou deux ». Il rappelle qu’aujourd’hui, software has become a commodity , selon un intervenant du Y Combinator.

Le marché du travail des développeurs

Pascal Eichenberger observe « un pic du chômage des ingénieurs soft moyens », y voyant une certaine ironie.

Philippe renchérit : « Très vite, ça va devenir une commodité, cette couche », en parlant des infrastructures d’IA. Il anticipe que « certains modèles, certaines choses qui sont développées aujourd’hui, vont devenir inutiles ou remplacés rapidement », et que de nouvelles infrastructures apparaîtront.

Raphaël estime qu’on vivra dans un monde coloré, avec plein de contradictions  : certaines choses fonctionneront très bien avec l’IA, et d’autres pas du tout. D’où l’importance de l’humain, qui continuera d’évaluer et pondérer.

Sécurité, business model et impact environnemental

Hugo recentre la discussion sur le business model de la solution et sur la question de la consommation énergétique : « J’imagine que vous quantifiez à chaque fois ? » Il souligne le manque de  transparence sur la consommation réelle et envisage l’arrivée rapide de problématiques écologiques.

Raphaël relève qu’il y a « suffisamment de centrales électriques pour délivrer » pour l’instant, mais qu’on pourrait se retrouver contraint de brûler du charbon, ce qui serait « catastrophique ». C’est pour cela qu’il y a « des énormes investissements dans du renouvelable ».

Raphaël évoque la possibilité de faire tourner des modèles  sur un Apple , grâce au mélange CPU/GPU/neural engine. Il indique : « En fait, il y a bien assez, tout est là. » Pour lui, plus on pourra tourner en local, plus on sera « autonome, résilient, indépendant ».

Philippe abonde dans ce sens, prédisant que « le local va être très important », et que « tout va devoir devenir intelligent », y compris « des toutes petites choses ». Il anticipe peut-être un « autre device qu’on ne connaît pas encore ».

Raphaël demande comment faire tourner un modèle qui travaille sur un dataset gigantesque sur un appareil qui n’a pas la mémoire nécessaire ? Il cite l’exemple de DeepSeek avec « 600 milliards de paramètres », dont seulement 32 milliards « actifs ». Si l’on dispose de « 64 gigas ou 128 gigas de RAM, c’est bon », mais sinon, on doit utiliser des plus petits modèles (2 ou 7 milliards de paramètres).

Hugo explique qu’auparavant, on empilait des couches de complexité et beaucoup de data, sans forcément comprendre en détail la structure interne de ces réseaux de neurones. « On a un peu libéré une bête qu’on ne maîtrise pas très bien », dit-il, soulignant les progrès récents en techniques de simplification (quantization), qui permettent de réduire la taille des modèles sans trop dégrader les résultats. Il explique qu’on arrive désormais à faire « 1,58 bits », ce qui laisse entrevoir des modèles bien plus petits.

Regard vers l’avenir

Pour Philippe, « on est encore au tout début », rappelant l’époque où « les transistors remplissaient une salle » pour des calculs minimes. Il prévoit que « dans quelques années, ça va être tellement réduit au niveau hardware… ça va être optimisé de façon exponentielle maintenant ».

Hugo souligne que Yann LeCun invite les jeunes chercheurs à se détourner de l’architecture Transformer dominante pour explorer d’autres voies, plus « malines ». Il évoque l’idée d’« imprimer sur un circuit directement » un réseau de neurones pour une exécution instantanée.

Philippe rejoint cette idée : « Quand on regarde ce monde dans trois à cinq ans, ça va être tellement différent. L’optimisation va être exponentielle. »

Raphaël ponctue que l’avenir de l’IA se jouera sur des évolutions rapides, parfois contradictoires, et insiste sur le fait que des solutions plus petites et plus localisées apparaîtront sûrement.

Les interlocuteurs remercient chacun pour la participation et la qualité des échanges, tout en relevant le besoin de « rester hyper tolérant » dans ces phases de bêta.

Merci à Lorille Alger et toute l'équipe de SwissIntell.

Texte généré par l'IA et revu par les speakers.

Note technique: Transcription de 40 pages (!) séparée en 4 documents de 10 pages et compactée avec o1 avec le prompt
"Réduit ce document de 10 pages par ±3 en utilisant une approche journalistique ET chronologique. Il faut éviter de regrouper les propos pour garder l'échange. Tu peux résumer certains propos et garder les choses importantes en citation le plus exact possible. Il faut éviter les hallucinations donc prends ton temps."

Limiter à 12000 tokens l'upload de document a permis la réduction d'hallucination et la concentration sur l'essentiel. Comme quoi le modèle o1 qui raisonne et qui dispose de +200k de tokens demande encore qu'on fasse étape par étape pour garantir toute reformulation non demandée.

Raphaël Briner