Faire de la veille et résumer des vidéos avec YouTube et Gemini

Il y a des vidéos YouTube qui durent 30 minutes, parfois bien plus, où l’information vraiment intéressante tient peut-être en cinq minutes. Le reste n’est pas forcément inutile, mais ce n’est pas toujours ce que l’on cherche à ce moment-là.

C’est mon cas avec des vidéos autour de The Finals (mon jeu du moment). Je cherchais à approfondir, dénicher de nouvelles stratégies, voir les recommandations après une mise à jour. Sauf que regarder cinq ou six vidéos de 20-40 minutes juste pour extraire quelques idées à tester, ça commence à faire long (surtout pour au final juste s’amuser).

C’est là que j’ai commencé à utiliser Gemini avec des liens YouTube. Au départ, c’était un raccourci de confort pour un jeu vidéo. Et puis je me suis dit : en fait, ce truc peut être vraiment pratique pour faire de la veille, apprendre plus de plusieurs sources sans y passer une éternité, ou simplement extraire l’information utile sans devoir visionner l’entiereté des vidéos.

Dis Gemini, visionne ça pour moi

C’est simple et rapide. On donne à Gemini le lien YouTube puis on lui demande ce que l’on veut en tirer. Un résumé court si l’on veut survoler les points clés de la vidéo. Un résumé détaillé si la vidéo est dense ou si on veut creuser plus en profondeur. Les étapes d’un tutoriel. Les conseils pratiques. Un peu ce que l’on veut.

On ne subit plus une vidéo linéaire de 35 minutes. On commence par se construire une vue d’ensemble, puis on choisit où creuser. C’est un peu comme lire la table des matières d’un livre avant de décider quels chapitres méritent vraiment notre attention.

Pas besoin d’un prompt ultra compliqué, ou d’un plugin, ou script. Juste une demande simple. Vu qu’on est dans l’écosystème Google (Gemini + Youtube), ça marche tout seul. Ça se base très probablement sur les transcripts qui sont génériques quand les vidéos sont envoyées sur leur serveur.

D’ailleurs, je parle de Gemini, mais c’est sûrement faisable avec d’autres concurrents comme ChatGPT. Ce sera peut-être un peu moins clé en main : je pense qu’il faudra aller sur YouTube, copier le transcript puis le coller dans le prompt (plutôt que donner un lien).

Discuter avec la vidéo

On ne s’arrête pas au résumé. C’est un chat après tout, alors discutons ensemble. À partir de la vidéo et du détail que j’ai obtenu, on peut commencer à poser des questions pour approfondir un sujet précis. Obtenir de l’aide pour reproduire quelque chose qui est présenté dans la vidéo. Confronter des idées et vérifier la pertinence de ce qui est dit.

C’est comme si on avait créé un mini RAG autour d’une vidéo. On ne discute plus seulement avec le modèle d’IA qui a ingéré tout le web et ses connaissances très globales, on se focus davantage sur les informations qui proviennent de la vidéo.

Parfois je pousse même plus loin. Lorsque je creuse autour d’une thématique, je peux à la suite alimenter la conversation avec d’autres vidéos YouTube. Pour avoir plusieurs résumés dans une seule discussion donc, puis pourquoi pas demander ensuite un résumé d’ensemble, confronter les vidéos entre elles, etc. Comme je disais, c’est un chat après tout, on fait ce que l’on veut.

Oh, j’allais oublier. Un bonus implicite : la langue. Si on n’est pas à l’aise avec la langue de la vidéo, c’est une très bonne aide puisque le chat sera a priori dans notre langue maternelle.

Les timestamps qui viennent avec le résumé

La petite killer feature de Gemini qui rend l’expérience vraiment pratique par rapport aux autres, ce sont les timestamps. Quand je demande un résumé à Gemini par exemple, il va me détailler plusieurs points et à chacun d’eux il indiquera à quelle minute/seconde ça a été dit avec en prime un lien - si je clique dessus ça ouvrira la vidéo à ce passage.

C’est particulièrement pratique lorsque les informations visuelles sont aussi importantes que les informations données à l’oral. Comme par exemple dans un jeu pour voir du gameplay, ou vidéo technique quand il y a du code, etc.

Les limites : ça reste un LLM

Demander aussi facilement un résumé d’une vidéo, puis discuter avec, ça peut paraître encore magique pour certains, mais ça peut cacher quelques limites. Bien que le modèle va s’appuyer sur le contenu de la vidéo, elle pourra quand même faire des erreurs, oublier un passage important, apporter une nuance, déformer juste assez l’information pour que ce ne soit plus la même, ou dire une énormité.

Notre esprit critique est toujours important. Et j’ai même envie de dire bien plus depuis les LLM.


Bref

J’ai commencé à utiliser Gemini avec YouTube pour gagner du temps sur les vidéos d’un jeu. Je voulais juste repérer des stratégies et idées. Et finalement, je trouve que l’usage dépasse largement mon idée première. Je me suis dis que c’était pas mal comme feature, et que ça pouvait s’y prêter pour faire de la veille, ou apprendre des choses, extraire des informations.

Alors j’ai tenté sur des sujets plus d’actualités et aussi autour de l’IA, où ça fourmille énormément. Il y a beaucoup de matière, créé par beaucoup de gens. Ça bouge vite, et ça bouge tous les jours, c’est donc dur à suivre s’il fallait tout visionner. Mais avec cette petite astuce, maintenant, je gagne un temps fou. Surtout quand je me rends compte que je n’aurais rien appris au bout des 30 minutes.

En plus, vu que j’aime bien multiplier les points de vues, plutôt que de ne suivre qu’une seule pensée, ça m’aide davantege. Et vous savez quel outil peut encore plus accompagner l’apprentissage avec beaucoup de sources d’entrée ? C’est NotebookLM. Ce sera un prochain article.