J’écris plus vite depuis que je dicte mes idées
Écrire me prends du temps. Déjà parce que je met plus de temps à taper qu’à parler, mais aussi parce que je vais sans cesse relire ce que j’écris au-dessus, parfois le modifier, puis revenir encore sur mon paragraphe d’avant. Une balade infinie entre les idées qui peut me faire partir dans tous les sens.
Alors qu’à la voix, j’ai une sensation différente. Je me concentre un peu plus sur un unique chemin. Même si je divague, j’ai quand même toujours le fil rouge qui avance. C’est plus naturel je trouve. Le problème jusqu’à peu, c’était que parler et produire du texte étaient deux mondes séparés. Mais ça a changé, et ça devient même très qualitatif (en plus d’être plaisant).
Les avantages d’utiliser notre voix
Avant, j’utilisais surtout la dictée vocale de mon macbook ou iPhone, et je la trouvais vite limitée. Surtout quand il y a un mélange français/anglais, du jargon technique, des noms propres ou des bizarerries - la dictée vocale d’Apple est très vite dans les choux.
Depuis une semaine, je m’amuse avec les modèles Whisper de OpenAI. La différence m’a sauté aux yeux ; je fais très peu de retours. J’ai l’impression que le modèle comprend mieux le contexte global de ma phrase, qu’il s’adapte au lieu de faire du mot-à-mot. Ce n’est pas magique, mais c’est suffisamment bon pour que je n’ai plus l’impression de me battre avec l’outil.
Au quotidien, les avantages sont visibles. J’ai les mains libres. Je peux rester debout devant le PC. Je peux même faire quelques pas dans la pièce tout en continuant ma pensée. Réfléchir et parler en étant un mouvement, ça aide beaucoup (poke Pauline !). Le clavier, lui, ne m’impose plus son rythme.
La rapidité compte aussi, évidemment. Mais ce n’est pas seulement “aller plus vite”. C’est surtout garder le fil. Quand je dicte, je déroule mieux une idée - je passe après en édition, si nécessaire d’ailleurs. Oh, et un bonus pratique : je me focalise moins sur les fautes au premier jet, notamment parce que le modèle en fait peu.
Typiquement pour cet article et le précédent, j’ai beaucoup plus utilisé ma voix que le clavier. Il y a des paragraphes qui sont venus plus naturellement et que je n’ai même pas retouché. J’aime bien. “J’apprécie [les fruits en sirop] !” comme dirait le roi Burgonde.
Je m’en sers pour mes articles mais également pour des recherches, préparer des prompts IA, rédiger des messages un peu longs ou simplement poser une pensée dans une note. C’est à la fois plus rapide et plus agréable.
Le mode cloud : démarrer vite avec Wisprflow
Si vous voulez tester sans vous prendre la tête, le cloud est le chemin le plus court. J’ai repéré Wisprflow pour ça, et l’onboarding est vraiment simple : on lance, on parle, on récupère le texte.
Pour un usage quotidien (recherches, messages, prompts, notes, écriture), c’est efficace tout de suite. Et surtout, ça marche sur tous les types de devices, PC comme téléphone, et peu importe la puissance. Deux compromis à garder en tête : les données et le prix du service (si on dépasse le free-tier).
Les données vocales passent par un service externe. Ça peut être problématique d’une part selon les informations que l’on dicte, et d’autre part car on ne sait pas, avec certitude, si le service ne va pas s’approprier notre voix un de ces jours. Wisprflow a tout de même l’air d’être sérieux dessus : notre voix n’est ni utilisée ni stockée.
Le mode local : plus de contrôle avec Vowen
Si on se souci de la confidentialité, l’approche locale devient intéressante. J’ai testé Vowen pour faire tourner les modèles Whisper en local, avec des variantes (large turbo, small, medium) selon le compromis vitesse/précision.
Après plusieurs tests, le modèle qui me donne les meilleurs résultats reste clairement le large v3 turbo : c’est celui que je trouve le plus précis, notamment dès qu’il y a des termes techniques, des noms propres, des formulations tordues ou du mélange de langues. C’est devenu mon choix par défaut.
Je redescends parfois sur des modèles plus petits (medium, small) quand le contexte est plus simple ou quand je veux privilégier la légèreté.
Le principal avantage du local, pour moi, c’est surtout la tranquillité : je sais mieux où vont mes données (nulle part :)), je contrôle davantage mon environnement. Bref, j’ai moins cette sensation de confier ma voix à la terre entière.
Évidemment, le local demande un matériel adapté vu que c’est notre CPU/GPU qui va travailler. J’ai quand même l’impression que l’empreinte mémoire et énergie reste légère, même avec le large V3 Turbo. Ça n’a pas trop l’air de préoccuper mon MacBook.
Et donc, après une semaine ?
Je ne pense pas que la voix remplace totalement le clavier. Je pense surtout qu’elle redonne du mouvement à l’écriture, et plus largement à tout ce qu’on formule dans une journée. Je bloque moins sur des formulations, sur des structurations, sur ce même foutu paragraphe. Ça se complète bien. J’utilise de plus en plus ma voix.
La version cloud et local sont tellement simples à mettre en place que je recommande vivement à chacun de faire un essai, et de voir les sensations que ça procure en plus du côté pratique.
Ça faisait déjà un moment que j’utilisais la dictée vocale pour écrire des messages à mes amis. Et là, avec Whisper, c’est vraiment agréable de ne plus combattre l’outil.