Close

photo de profil de brandon

Brandon Visca

Restez connecté

Handy : La Transcription Vocale Open Source qui Respecte ta Vie Privée (Guide 2025)

TL;DR

Handy = Dragon NaturallySpeaking gratuit + respect de la vie privée + compatible Linux/Mac/Windows.

C’est le logiciel de transcription vocale open source du moment !

  • ✅ Gratuit et open source (GPL-3.0)
  • ✅ 100% local (aucune donnée envoyée au cloud)
  • ✅ Propulsé par Whisper (OpenAI)
  • ✅ Push-to-talk ou toggle mode
  • ⚠️ Nécessite un peu de config (mais rien d’insurmontable)

Temps d’installation: 10 minutes
Niveau requis: Débutant confirmé


Pourquoi la transcription vocale devient indispensable (et pourquoi Google/Apple ont tout faux)

T’es là, les mains sur le clavier, avec une idée brillante à documenter. Sauf que… taper 2000 mots, ça te saoule. Pire : tu sais que pendant que tu rédiges, ta voix pourrait faire le job 4x plus vite.

Le problème ? Les solutions actuelles sont soit :

  • Payantes (Dragon coûte 150-300€)
  • Cloud-only (Google Docs, Otter.ai → ta voix transite par leurs serveurs)
  • Limitées (Siri/Cortana qui comprennent rien)

Alors qu’en 2025, avec des modèles comme Whisper, on peut avoir du speech-to-text de qualité professionnelle, gratuit, et qui tourne sur ton laptop.

Bienvenue dans l’ère de Handy.


C’est quoi Handy (et pourquoi ça cartonne en ce moment)

Handy, c’est l’outil que tout le monde attendait sans le savoir. Imagine :

  1. Tu configures un raccourci clavier (genre Ctrl+Shift+Space)
  2. Tu appuies et tu parles
  3. Tu relâches
  4. Pouf, ton texte apparaît dans n’importe quelle application (terminal, IDE, navigateur, Notion…)

Aucune API externe. Aucun compte. Aucun abonnement.

Les specs qui tuent

  • Open source : Code sur GitHub, licence GPL-3.0
  • Multi-plateforme : macOS (Intel + Apple Silicon), Windows x64, Linux x64
  • Modèles IA : Whisper (Small/Medium/Turbo/Large) + Parakeet V3
  • Technos : Tauri (Rust + React/TypeScript)
  • VAD intelligent : Silero filtre le silence automatiquement
  • Support GPU : Accélération CUDA/Metal quand disponible

Fun fact: Whisper de OpenAI est le même moteur que ChatGPT utilise pour comprendre la voix. Sauf que là, tout tourne en local.



Installation : 3 méthodes (dont une pour les rebelles)

transcription vocale open source

Méthode 1 : Téléchargement classique (recommandé pour débutants)

  1. Va sur handy.computer
  2. Télécharge la version pour ton OS
  3. Installe normalement
  4. Accorde les permissions micro + accessibilité

Permissions à accepter :

  • Microphone : Pour enregistrer ta voix (logique)
  • Accessibilité : Pour injecter le texte dans les apps

Méthode 2 : Homebrew (pour les power users macOS)

Si t’as pas encore Homebrew, installe-le d’abord.

brew install --cask handy

Redémarre Handy après l’install pour que les permissions se règlent.

Méthode 3 : Compiler from source (pour les aventuriers)

Prérequis :

  • Rust + Cargo
  • Node.js + npm
  • Build tools de ton OS
git clone https://github.com/cjpais/Handy.git
cd Handy
# Voir BUILD.md pour les instructions spécifiques

⚠️ Attention Linux users : Le support Wayland est encore limité. Préfère X11 pour l’instant.


Configuration : De zéro à héros en 5 minutes

Premier lancement

  1. Choisis ton raccourci clavier
  • Par défaut : Ctrl+Shift+S (Windows/Linux) ou Cmd+Shift+S (macOS)
  • Perso, je recommande Ctrl+Space pour la rapidité
  1. Sélectionne ton mode de transcription
  • Push-to-talk (défaut) : Tu maintiens la touche enfoncée
  • Toggle : Premier appui = démarre, deuxième = arrête
  1. Choisis ton modèle IA

Les modèles se téléchargent automatiquement au premier usage, mais voici le guide :

ModèleTailleVitessePrécisionUse case
Whisper Small487 MB⚡⚡⚡⭐⭐⭐Tests rapides
Whisper Medium492 MB⚡⚡⭐⭐⭐⭐Recommandé débutants
Whisper Turbo1.6 GB⚡⚡⭐⭐⭐⭐⭐Langue multiple
Whisper Large1.1 GB⭐⭐⭐⭐⭐Qualité pro
Parakeet V3478 MB⚡⚡⚡⭐⭐⭐⭐CPU-only champion

Mon conseil : Commence avec Whisper Medium. Si t’as pas de GPU, passe sur Parakeet V3 (optimisé CPU).

Installation manuelle des modèles (si proxy/firewall)

Tu bosses en entreprise avec un proxy corporate de l’enfer ? Pas de panique.

1. Trouve ton répertoire de config

Ouvre Handy → Settings → About → Copie le « App Data Directory »

Ou utilise les raccourcis :

  • macOS : Cmd+Shift+D
  • Windows/Linux : Ctrl+Shift+D

Chemins typiques :

macOS : ~/Library/Application Support/com.pais.handy/
Windows : C:\Users\{username}\AppData\Roaming\com.pais.handy\
Linux : ~/.config/com.pais.handy/

2. Télécharge les modèles

Whisper (fichiers .bin) :

# Small (487 MB)
wget https://blob.handy.computer/ggml-small.bin

# Medium (492 MB) - RECOMMANDÉ
wget https://blob.handy.computer/whisper-medium-q4_1.bin

# Turbo (1.6 GB)
wget https://blob.handy.computer/ggml-large-v3-turbo.bin

# Large (1.1 GB)
wget https://blob.handy.computer/ggml-large-v3-q5_0.bin

Parakeet (archives .tar.gz) :

# V3 (478 MB) - Optimisé CPU
wget https://blob.handy.computer/parakeet-v3-int8.tar.gz
tar -xzvf parakeet-v3-int8.tar.gz

3. Place les fichiers

# Whisper : Juste copier les .bin
cp *.bin ~/Library/Application\ Support/com.pais.handy/models/

# Parakeet : Extraire et nommer correctement
mkdir -p ~/Library/Application\ Support/com.pais.handy/models/
mv parakeet-tdt-0.6b-v3-int8 ~/Library/Application\ Support/com.pais.handy/models/

⚠️ Crucial : Garde les noms de fichiers EXACTS. Pas de whisper-medium-v2.bin, ça marchera pas.


Utilisation quotidienne : Les vrais use cases

Use case 1 : Documentation technique rapide

T’es en train de debugger un truc compliqué ? Au lieu de perdre du temps à taper :

  1. Ouvre ton IDE
  2. Ctrl+Shift+S → « Ok donc le problème vient du fait que Docker ne trouve pas le volume monté parce que le chemin contient des espaces »
  3. Boom, c’est écrit

Gain de temps estimé : 60-70%

Use case 2 : Rédaction de mails/docs

Rédiger un mail de 300 mots ? Parle pendant 2 minutes au lieu de taper pendant 10.

Astuce de pro : Dicte d’abord au brouillon, relis après. La correction prend moins de temps que la rédaction from scratch.

Use case 3 : Live coding commentary

T’enregistres un tuto vidéo ? Commente ton code en live :

# Ctrl+Shift+S
"Cette fonction récupère les utilisateurs actifs depuis l'API 
et les filtre selon leur rôle administrateur"

Use case 4 : Prise de notes réunion

En conf call Zoom/Teams ? Lance Handy en arrière-plan, résume oralement après chaque décision.


Les pièges à éviter (et comment les contourner)

Problème 1 : Crash sur Windows/Linux avec Whisper

Symptôme : L’app plante au lancement de la transcription.

Solution temporaire :

  1. Passe sur Parakeet V3 (plus stable)
  2. Vérifie que tes drivers GPU sont à jour
  3. Si ça persiste, ouvre une issue GitHub avec les logs

Problème 2 : Wayland sur Linux

Symptôme : Le texte n’est pas injecté dans les apps.

Solution : Force X11 temporairement

export GDK_BACKEND=x11
handy

Problème 3 : Permissions macOS refusées

Symptôme : Handy n’enregistre rien.

Fix :

  1. Préférences Système → Sécurité et confidentialité
  2. Microphone → Coche Handy
  3. Accessibilité → Coche Handy
  4. Redémarre l’app

Comparaison : Handy vs alternatives

CritèreHandyDragonGoogle Docs VoiceWhisper CLI
PrixGratuit150-300€GratuitGratuit
Vie privée🟢 Local🟢 Local🔴 Cloud🟢 Local
Multi-plateforme❌ Windows only
Facilité d’usage🟢🟢🟢🟢🟢🟢🟢🟢🟢🔴 (CLI hardcore)
Qualité transcription🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢🟢
Open source

Verdict : Handy est le sweet spot entre simplicité et respect de la vie privée.


L’écosystème complet : Terminal + Transcription + Productivité

Tu veux vraiment passer au niveau supérieur ? Combine Handy avec ta stack existante :

La stack ultime macOS/Linux

Workflow concret :

  1. Cmd+Space → Ouvre Raycast
  2. Tape « terminal »
  3. Dans iTerm2, active Handy : Ctrl+Shift+S
  4. Dicte ta commande : « docker compose up tiret d »
  5. Handy écrit : docker-compose up -d

Résultat : Tu bosses 3x plus vite qu’avec une souris.


Cas d’usage avancés (pour les pros)

Intégration avec Docker

Tu veux transcription dans tes conteneurs ? C’est possible avec un bind mount :

version: '3.8'
services:
  dev-env:
    image: ubuntu:22.04
    volumes:
      - ~/.config/com.pais.handy:/root/.config/com.pais.handy:ro
    # Handy tourne sur l'hôte, injecte dans le conteneur

Automatisation avec scripts

Utilise l’API interne de Handy (via IPC) pour triggér des transcriptions :

#!/bin/bash
# transcribe-to-file.sh

echo "Parle maintenant..."
# Trigger Handy via hotkey simulation
xdotool key ctrl+shift+s
sleep 5 # Durée de l'enregistrement
xdotool key ctrl+shift+s

echo "Transcription sauvegardée dans transcript.txt"

Monitoring homelab

Tu gères un homelab ? Dicte tes notes de maintenance :

# Dans ton dashboard Grafana, ajoute des annotations vocales
handy-transcribe "Redémarrage serveur NAS suite à update firmware"

Contribuer au projet (et pourquoi c’est cool)

Handy est open source. Ça veut dire que tu peux :

  1. Corriger des bugs (surtout Wayland/Windows)
  2. Ajouter des features (intégration Telegram/Slack ?)
  3. Améliorer les modèles (fine-tuning Whisper sur ton jargon métier)

Comment contribuer :

# Fork le repo
git clone https://github.com/TON-USERNAME/Handy.git
cd Handy

# Crée une branche
git checkout -b feature/ma-super-feature

# Code, commit, push
git push origin feature/ma-super-feature

# Ouvre une Pull Request sur GitHub

Le maintainer (CJ Pais) est super réactif. J’ai vu des PR mergées en moins de 48h.


Alternatives à connaître (si Handy ne te convient pas)

Pour les puristes CLI

Whisper.cpp : Version pure C++ de Whisper, ultra-optimisée.

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make
./main -m models/ggml-base.en.bin -f samples/jfk.wav

Avantages : Performance brute, scriptable
Inconvénients : Aucune GUI, config hardcore

Pour les utilisateurs cloud assumés

Otter.ai : Transcription cloud avec IA qui résume
Google Docs Voice Typing : Intégré, gratuit, facile

Pourquoi je les recommande pas :

  • Ta voix transite par leurs serveurs
  • RGPD compliqué en entreprise
  • Nécessite connexion internet stable

Perspectives : Où va Handy ?

D’après la roadmap GitHub, les prochaines features incluent :

  • ✅ Support amélioré Wayland
  • ✅ Logging de debug vers fichier
  • ✅ Support de la touche Globe sur macOS
  • ✅ Analytics opt-in (anonymes)
  • 🔜 Support Android/iOS (via React Native ?)

Mon avis ? Handy va devenir LE standard open source de la transcription locale. Surtout avec les progrès de Whisper et l’arrivée de nouveaux modèles optimisés CPU.


Conclusion : Reprends le contrôle de ta voix

En 2025, il n’y a aucune raison d’envoyer ta voix à Google, Microsoft ou AWS pour de la transcription de base.

Handy prouve que :

  • L’open source peut être aussi bon (voire meilleur) que le propriétaire
  • La vie privée n’est pas négociable
  • Un bon outil ne coûte pas forcément 300€

Le récap final

Installation : 10 minutes chrono
Coût : 0€ (pour toujours)
Vie privée : Aucune donnée transmise
Qualité : Équivalent Dragon/Google
Support : Communauté active + développement continu

Et maintenant ?

  1. Télécharge Handy
  2. Installe-le en 5 minutes
  3. Dicte au lieu de taper
  4. Gagne 2h par semaine

Bonus : Si t’utilises déjà iTerm2 et Raycast, t’as maintenant la stack productivité ultime pour bosser comme un chef.


Ressources et liens utiles

Articles connexes recommandés

👉 iTerm2 : Guide complet macOS 2025 – Optimise ton terminal
👉 Oh My Zsh + Powerlevel10k – Terminal de guerre
👉 Raycast : Productivité ultime macOS – Launcher avec IA
👉 Auto-hébergement : Guide complet 2025 – Reprends contrôle de tes données

Liens officiels

Des questions ? Un problème ? La communauté GitHub est ultra-réactive. Et si t’as un cas d’usage chelou, partage-le en commentaire, ça m’intéresse !

Commentaires (0)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Back to top