Résumé des outils de transcription du japonais et de leur précision
Dans le cadre de nos tests de transcription de réunions en japonais, nous avons évalué six outils sur trois réunions enregistrées. Les résultats ont montré que tl;dv le meilleur score global, avec 189points sur 200.
Le deuxième outil à avoir obtenu un bon score est Notta, avec 166 points, suivi de Rimo avec 140 points.
En résumé, tl;dv dans des domaines tels que la précision de la transcription et les éléments pratiques liés aux réunions, comme les résumés, tout en proposant de nombreuses fonctionnalités utiles qui ont permis d'améliorer la qualité du résultat final de la réunion, au-delà de la simple transcription. Il a notamment su gérer correctement l'identification des intervenants et la transcription des noms propres.
Les outils de transcription de réunions en japonais sont extrêmement utiles pour ceux qui organisent quotidiennement des réunions et mènent leurs activités en japonais.
Partout dans le monde, les réunions peuvent être très animées, avec plusieurs intervenants, des prises de parole successives à un rythme soutenu et, parfois, quelques emprunts à l'anglais. Et bien que de nombreux outils disponibles sur le marché proposent aux locuteurs japonais des services de transcription et d'autres fonctionnalités, il est important d'avoir l'assurance que vos réunions sont correctement enregistrées.
Afin de donner un aperçu des tl;dv pour un locuteur japonais, nous l'avons comparé à cinq autres outils couramment utilisés sur le marché. Il s'agissait des outils suivants :
- Rimo
- Tactiq
- CLOVA par Naver
- Notta
- Google Gemini
Tous ces outils ont reçu le même matériel source et ont ensuite été évalués selon quatre critères distincts.
Nous avons ensuite utilisé les résultats de transcription et de synthèse, les avons évalués à l'aide d'un modèle de langage de grande envergure (LLM), puis avons demandé à un deuxième groupe d'évaluateurs, composé de locuteurs japonais, d'examiner ces résultats sous une forme anonymisée.
Voici les résultats.
| Niveau | Max | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Transcription et exactitude | 65 | 60 | 57 | 26 | 33 | 57 | 39 |
| Qualité des réunions en situation réelle | 45 | 45 | 24 | 30 | 24 | 38 | 17 |
| Fonctionnalités et caractéristiques | 72 | 66 | 47 | 46 | 32 | 59 | 11 |
| Confiance, sécurité et valeur | 18 | 18 | 12 | 12 | 6 | 12 | 15 |
| Note globale | 200 | 189 | 140 | 114 | 95 | 166 | 82 |
| Classement | 1 | 3 | 4 | 5 | 2 | 6 |
Transcription et exactitude des réunions en japonais
Voici les résultats d'une comparaison de la précision de transcription entre six outils, à partir d'un même enregistrement audio en japonais. Ces résultats ont été évalués par des modèles de langage de grande envergure (ClaudeAnthropicet ChatGPT d'OpenAI), puis validés par une évaluation à l'aveugle réalisée par des locuteurs natifs, sans que les noms des outils ne leur soient communiqués.
| Système métrique | Comment le score a-t-il été calculé ? | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Précision linguistique | Évaluation en aveugle de la précision dans la langue maternelle par des locuteurs natifs | 20/20 | 20/20 | 20 août | 20/12 | 20/20 | 16/20 |
| Traitement spécifique à la langue | Signes diacritiques, ponctuation, variantes régionales, alternance de codes | 16/20 | 16/20 | 20 août | 20 août | 16/20 | 20/12 |
| Évaluation du taux d'erreurs de caractères | Calculé à partir d'un relevé de notes officiel ou d'un texte de référence | 5/5 | 4/5 | 2/5 | 2/5 | 5/5 | 1/5 |
| Détection d'entités | Noms, entreprises et lieux mentionnés dans la distribution | 5/5 | 4/5 | 2/5 | 2/5 | 4/5 | 2/5 |
| Chiffres, dates et devises | Les chiffres, les dates et les montants sont correctement formatés dans la langue du texte | 4/5 | 4/5 | 3/5 | 3/5 | 4/5 | 4/5 |
| Reconnaissance brute des termes techniques | Termes et acronymes du secteur avant la formation sur mesure | 5/5 | 4/5 | 2/5 | 2/5 | 4/5 | 3/5 |
| Ponctuation et segmentation | Sauts de ligne et mise en paragraphes dans le résultat du test | 5/5 | 5/5 | 1/5 | 4/5 | 4/5 | 1/5 |
| Sous-total « Transcription et exactitude » | 60/65 | 57/65 | 26/65 | 33/65 | 57/65 | 39/65 |
Parmi les six outils évalués, tl;dv a affiché la plus grande précision, avec un sous-total de 60.
Rimo suit avec 57, Notta également à 57, puis Google Gemini à 39, ClovaNote à 33, et Tactiq à 26.
tl;dv la première place en matière de précision linguistique, de précision concernant les noms propres et les noms de personnes, ainsi que de reconnaissance des termes techniques, avant même tout apprentissage personnalisé. Il a également obtenu d'excellents résultats dans des domaines tels que le traitement spécifique à la langue, les nombres, les dates et les devises, ainsi que la ponctuation et la segmentation.
Détection d'entités
L'un des aspects que nous avons testés concernait la détection d'entités. La détection d'entités désigne la capacité d'un outil à identifier avec précision des noms et des termes connus. L'enregistrement audio comportait plusieurs noms de marques, dont « tl;dv ».
tl;dv réussi à identifier et à transcrire correctement tl;dv sa forme exacte, avec le point-virgule. Aucun des autres outils n’y est parvenu, bien que beaucoup aient pu le transcrire sous la forme « TLDV », ce qui est presque exact dans ce cas précis. Certains autres outils n’ont pas du tout réussi à le restituer correctement, notamment CLOVA , qui l’a restitué sous différentes variantes telles que « pldv », « gldv » ou simplement « dv ».
Nous avons constaté que c'était également le cas pour d'autres noms de marques et noms de personnes, de nombreux outils proposant différentes versions des noms propres tout au long des résultats. Un outil qui restitue correctement un nom bien établi a tendance à conserver cette précision pour les autres entités présentes dans une réunion, telles que les lieux, les personnes et les noms d’entreprises.
tl;dv le meilleur score parmi les six outils testés. Cette cohérence s’étendait aux autres entités présentes dans les transcriptions, tl;dv conservant tl;dv les noms de personnes lorsqu’ils étaient mentionnés dans le discours.
Résultats du CER
Nous avons pu réaliser un quatrième test à l’aide d’une transcription vérifiée provenant d’une source tierce afin de calculerle taux d’erreur par caractère (CER), un indicateur fondamental pour l’évaluation de la reconnaissance vocale (ASR). Lors de nos tests CER, tl;dv obtenu un excellent résultat de 0,8 %, talonné de près par Notta. À titre de comparaison, Rimo a obtenu un score de 1,5 %, Tactiq , Tactiq %, Clova , Clova % et Gemini , Gemini %. Gemini sur un enregistrement plus court, car le système a rencontré une erreur liée à l'interruption de la réunion.
Étiquetage des haut-parleurs
tl;dv le seul outil permettant d'identifier les locuteurs. Pour les enregistrements comportant plusieurs locuteurs, cette distinction a une incidence directe sur la facilité d'utilisation de la transcription. C'est la principale raison tl;dv Rimo, qui a affiché une précision comparable mais ne fournit aucune identification des locuteurs.
Observations sur la concurrence
Rimo a obtenu le résultat le plus proche, avec une grande précision et des segments bien proportionnés et lisibles. Sa principale limite réside dans l’absence d’étiquettes d’interlocuteur, et il a rendu le nom du produit sous la forme « TLDV ».
Notta a également obtenu de bons résultats et a divisé le texte en paragraphes clairs, même si, selon notre jury composé de locuteurs natifs, les blocs avaient tendance à être un peu trop longs.
Clova des sauts de ligne clairs à la fin de chaque phrase, mais sa précision était insuffisante pour les prendre en charge, et son rendu incohérent des différents noms de produits reflète des problèmes plus généraux de reconnaissance.
C'est sur les critères fondamentaux que Tactiq les moins bons résultats. La détection des locuteurs a échoué, un même locuteur ayant été réparti entre plusieurs étiquettes, et la précision s'est avérée faible dans l'ensemble. Il a enregistré le résultat le plus bas des six.
Remarque concernant Google Gemini
Les sources étaient des webinaires préenregistrés ; Gemini donc pas Gemini être exécuté en direct au sein d’une Google Meet , ce qui constitue sa méthode de capture standard. Un compte Google payant a été utilisé pour traiter directement le fichier M4A. Gemini qu’une partie de la session au lieu de l’enregistrement complet, et la transcription présentait des imperfections partout où le son ne pouvait pas être analysé, ce qui a donné lieu à un résultat médiocre et difficile à lire. À titre de comparaison, ce même fichier a été transmis à Notta, ce qui a démontré que le problème ne venait pas de la source.
Un test en direct a été réalisé sur un quatrième élément, et ce test s'est déroulé en direct sur Google Meet calculer les scores CER. Google Gemini ajouté en direct à la réunion, mais s'est arrêté en cours de route et a dû être réintroduit. En conséquence, la transcription a de nouveau été tronquée et comportait de nombreuses inexactitudes.
Gemini été conservé dans la comparaison par souci d'exhaustivité, cette limitation ayant été signalée. Ses résultats ont également montré une certaine capacité à reconnaître plusieurs langues, puisqu'il a identifié des indications d'enregistrement en anglais dans le fichier audio.
Qualité des réunions en situation réelle
Outre la qualité de la transcription, le résultat final (le transcrit) et les autres éléments associés, tels que les résumés, constituent un aspect très important. Lors de nos tests, nous avons examiné la présentation de ces éléments ainsi que leur niveau de qualité dans le cadre d'une utilisation quotidienne.
| Système métrique | Comment le score a-t-il été calculé ? | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Qualité de la diarisation | Nombre exact de personnages et attribution des répliques par rapport à la distribution connue | 10/10 | 4/10 | 2/10 | 6/10 | 6/10 | 6/10 |
| Stabilité comportementale | Stabilité comportementale selon les types de séances | 10/10 | 10/10 | 6/10 | 9/10 | 10/10 | 2/10 |
| Qualité du résumé | Utilité du résumé et s'il a été conservé dans la langue source, en tenant compte des emprunts linguistiques | 5/5 | 0/5 | 4/5 | 0/5 | 4/5 | 0/5 |
| Taux d'hallucinations / d'insertions | Texte inventé, répété en boucle ou dupliqué, qui n'apparaît pas dans l'enregistrement audio. Les erreurs d'écoute et les coupures sont exclues. | 10/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| Extraction des actions à mener | Qualité des tâches et des suivis issus de la réunion | 5/5 | 0/5 | 4/5 | 0/5 | 3/5 | 0/5 |
| Chapitres automatiques / découpage en sections | Le résumé présente-t-il le compte rendu de la réunion sous forme de sections claires et utiles ? | 5/5 | 0/5 | 5/5 | 0/5 | 5/5 | 0/5 |
| Sous-total de la qualité des réunions en présentiel | 45/45 | 24/45 | 30/45 | 24/45 | 38/45 | 17/45 |
Parmi les six outils, tl;dv le seul à obtenir la note maximale dans toutes les catégories évaluant la qualité des réunions en conditions réelles, avec un total partiel de 45 sur 45. Notta suit avec 38, Tactiq 30, Rimo et CLOVA avec 24, et Google Gemini 17.
Cette variation s'explique en grande partie par un seul facteur : la capacité de l'outil à produire ou non un compte-rendu de réunion en japonais exploitable. Lorsqu'aucun compte-rendu n'était généré avec le forfait testé, l'outil obtenait une note de 0 pour la qualité du compte-rendu, les actions à mener et la structuration. Ce résultat reflète les performances de l'outil tel qu'il est proposé « tel quel », et non la qualité d'un éventuel compte-rendu qu'il pourrait produire avec un autre forfait.
Transcription et attribution des intervenants
tl;dv la note maximale pour l'identification correcte des locuteurs et l'attribution de chaque intervention. CLOVA , Notta et Gemini en milieu de tableau, tandis que Tactiq le plus de Tactiq , attribuant un même locuteur à plusieurs étiquettes.
Résumés, mesures à prendre et découpage en sections
C’est là que les différences apparaissent le plus clairement. tl;dv, Tactiq et Notta ont généré des résumés en japonais dont la qualité a été évaluée, tl;dv le meilleur tl;dv . Rimo, CLOVA et Gemini n’en Gemini aucun dès l’installation dans le cadre du test : la fonctionnalité CLOVA est réservée au coréen, celle de Rimo était payante et Gemini aucun résultat. Le score reflète la disponibilité, et non la qualité des résumés.
Fonctionnalités et caractéristiques
Un assistant de réunion basé sur l'IA est bien plus qu'un simple outil de prise de notes : il offre de nombreuses fonctionnalités et éléments qui améliorent la qualité des transcriptions et des activités qui y sont associées. Nous avons examiné certaines des fonctionnalités les plus remarquables disponibles et déterminé si chaque outil disposait de ces capacités, en ajustant la notation afin d'évaluer les avantages et l'impact de chacune d'entre elles sur l'expérience utilisateur.
| Système métrique | Comment le score a-t-il été calculé ? | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Désignation des haut-parleurs dès la sortie de l'emballage | Identification automatique des intervenants sur Meet, Zoom et Teams | 5/5 | 0/5 | 1/5 | 0/5 | 0/5 | 0/5 |
| Empreinte vocale | Possibilité de configurer la reconnaissance vocale en fonction de la voix de l'utilisateur | 5/5 | 0/5 | 0/5 | 0/5 | 5/5 | 0/5 |
| Enregistrement sans robot | Enregistre via le système audio sans qu'un bot n'intervienne dans l'appel | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | 0/5 |
| Synchronisation CRM | Natif et synchronisation automatique | 3/3 | 0/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Notes personnalisées / modèles | Formats de synthèse personnalisables ou sortie fixe ? | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Apprentissage de vocabulaire / d'entités personnalisés | Enseigner le vocabulaire et les acronymes propres au secteur | 5/5 | 5/5 | 0/5 | 5/5 | 5/5 | 0/5 |
| Localisation de l'interface utilisateur en japonais | Si l'interface du produit est disponible en japonais | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 |
| Étendue des intégrations | Slack, calendrier, Zapier, API | 3/3 | 0/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Vitesse de traitement | Délai entre la fin de la réunion et la transcription finale | 3/3 | 2/3 | 1/3 | 0/3 | 3/3 | 0/3 |
| Suivi des mots de remplissage | Suivi des mots de remplissage - Détecte les « euh », « hum » et autres « este » sans prendre en compte les répétitions dues au bégaiement. Permet une visibilité complète des transcriptions orales plutôt qu'un lissage excessif. | 3/3 | 0/3 | 0/3 | 0/3 | 0/3 | 0/3 |
| Précision de l'horodatage | Vérifiez ponctuellement que les horodatages correspondent bien au moment voulu | 3/3 | 3/3 | 2/3 | 2/3 | 3/3 | 0/3 |
| Disponibilité de la traduction | Peut-il traduire les comptes-rendus de réunion, et dans combien de langues ? | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Rechercher dans la transcription | Rechercher dans une réunion et dans la bibliothèque | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 | 0/3 |
| Interface utilisateur d'édition des transcriptions | Peut-on corriger facilement la transcription a posteriori ? | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 |
| Formats d'exportation | SRT, VTT, TXT, DOCX et autres formats similaires | 0/3 | 3/3 | 3/3 | 3/3 | 3/3 | 0/3 |
| Transcription en direct / en temps réel | Une transcription est-elle affichée en direct pendant la réunion ? | 0/3 | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 |
| Couverture des plateformes de réunion | Prise en charge de Zoom, Meet, Teams et Webex | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Capture d'écran d'une application mobile | Est-il possible d'enregistrer des réunions en présentiel via une application mobile ? | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 | 0/3 |
| Serveur MCP natif | Serveur natif propriétaire permettant aux assistants IA d'interroger la bibliothèque de réunions | 5/5 | 0/5 | 5/5 | 0/5 | 0/5 | 0/5 |
| Modification de l'étiquette de l'enceinte | Est-il possible de renommer et de réattribuer des haut-parleurs a posteriori ? | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 | 0/3 |
| Sous-total des capacités et fonctionnalités | 66/72 | 47/72 | 46/72 | 32/72 | 59/72 | 11/72 |
De nombreuses fonctionnalités distinguent un outil dédié aux réunions d'un simple outil de transcription de réunions, et tl;dv en tête dans tous ces domaines. Deux d'entre elles se démarquent tout particulièrement
Serveur MCP natif
tl;dv l’un des deux seuls outils à disposer d’un serveur MCP natif, ce qui permet aux assistants IA d’interroger directement la bibliothèque de réunions. La plupart des autres outils ont obtenu un score de zéro sur ce point. C’est cette fonctionnalité qui permet de relier les réunions enregistrées à l’ensemble plus large d’outils IA déjà utilisés par une équipe, plutôt que de laisser la transcription dans un système fermé.
Empreinte vocale
tl;dv également l'un des deux seuls outils à proposer la reconnaissance vocale, aux côtés de Notta. Il s'adapte à votre voix, ce qui améliore la fiabilité de votre identification tout au long de vos réunions, un avantage qui s'accroît à mesure que vous l'utilisez.
Confiance, sécurité et valeur
Parmi les critères les plus importants à prendre en compte lors du choix d’un outil d’enregistrement de vos réunions en japonais figurent la confiance, la sécurité et le rapport qualité-prix. Ces critères peuvent en grande partie être satisfaits par un service de transcription de qualité, doté de fonctionnalités performantes et offrant des résultats exploitables, mais la manière dont l’entreprise gère les données sensibles joue également un rôle déterminant. Nous avons étudié chaque outil afin d’en savoir plus sur sa situation et sa position concernant des aspects tels que la sécurité, la conformité et la localisation des données.
| Système métrique | Comment le score a-t-il été calculé ? | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Localisation des données / hébergement régional | Options d'hébergement régional, par exemple l'hébergement JP à la demande | 3/3 | 3/3 | 0/3 | 0/3 | 0/3 | 3/3 |
| Sécurité et conformité | SOC2, ISO 27001, RGPD | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 |
| Entraînement de l'IA à partir d'enregistrements audio des utilisateurs | Cela permet-il d'éviter d'entraîner l'IA sur vos fichiers audio (aucun entraînement n'obtient la note maximale) ? | 3/3 | 3/3 | 3/3 | 0/3 | 0/3 | 3/3 |
| Contrôle de la conservation des données | Contrôle de la durée de conservation des enregistrements et des transcriptions | 3/3 | 0/3 | 0/3 | 0/3 | 3/3 | 3/3 |
| Transparence des prix | Les tarifs des formules sont publiés, et non pas communiqués uniquement sur demande | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 |
| Formule gratuite / limites | Disponibilité d'une formule gratuite (un simple essai gratuit ne compte pas) | 3/3 | 0/3 | 3/3 | 3/3 | 3/3 | 0/3 |
| Confiance, sécurité et valeur : sous-total | 18/18 | 18/12 | 18/12 | 18/6 | 18/12 | 15/18 |
Ce critère particulier ne se limite pas à la transcription, mais s'intéresse également à la manière dont chaque outil traite vos données, un aspect qui revêt une importance particulière pour les entreprises japonaises.
Résidence des données au Japon à la demande
Le Japon n'impose pas légalement que les données relatives aux réunions soient stockées sur son territoire. Ce qu'il exige en revanche, c'est un traitement rigoureux de toutes les données à caractère personnel transmises à l'étranger : en vertu de la loi APPI, le transfert de données à un tiers situé dans un autre pays nécessite généralement le consentement préalable de la personne concernée, tandis que la conservation de ces données auprès d'un prestataire au Japon dispense de cette obligation. Pour de nombreuses entreprises japonaises, le stockage sur le territoire national relève également tout simplement d'une question de confiance et de politique interne.
tl;dv la résidence des données au Japon à la demande ; ainsi, les entreprises qui en ont besoin peuvent choisir que leurs données de réunion soient hébergées au Japon plutôt que traitées à l'étranger par défaut.
Vos données restent les vôtres
tl;dv a tl;dv obtenu la note maximale en matière de sécurité, de contrôles relatifs à la conservation des données et du fait de ne pas entraîner ses modèles d’IA à partir d’enregistrements audio de clients. Dans l’ensemble, ce niveau reflète un outil conçu pour répondre aux normes auxquelles s’attendrait une entreprise japonaise avant que les enregistrements des réunions ne quittent la salle.
Test de précision des réunions en japonais : méthodologie
Notre comparaison repose sur un test contrôlé et à périmètre constant, conçu pour soumettre chaque outil aux mêmes conditions.
Le jeu de test
La comparaison s'est appuyée sur trois webinaires préenregistrés d'une durée d'environ une heure chacun. Les fichiers source ont été téléchargés et traités via la fonction de téléchargement de chaque outil. La plupart des outils acceptaient directement le format MP4 ; deux d'entre eux nécessitaient une conversion au format M4A avant le téléchargement. Les trois webinaires ont été testés avec les six outils dans l'un des deux formats, CLOVA Gemini au format M4A.
La revue
Les résultats ont été évalués par notre panel de locuteurs natifs : Mioko, Oji et Hiromi, qui ont travaillé de manière anonyme et ont noté les aspects positifs et les avantages de chaque résultat. Ces notes ont été regroupées pour établir les notes finales. Les données relatives aux fonctionnalités et aux attributs proviennent de documentation du domaine public.
La trousse à outils
La sélection s'est fondée sur la popularité et l'usage courant de ces outils sur le marché japonais. Gemini la version pour ordinateur de bureau, adaptée aux webinaires préenregistrés ; elle a été incluse en raison de sa disponibilité et du moteur Google sur lequel elle repose. Tactiq inclus en raison de sa présence avérée sur le marché japonais. CLOVA à CLOVA , la version coréenne de CLOVA .
Répartition des coûts par moteur et par avion
Chaque outil fonctionne grâce à un moteur qui traite l'enregistrement et le transforme en transcription. Chaque outil dispose de sa propre version ; bien que de nombreux outils utilisent le moteur de la même entreprise, leur configuration diffère. De plus, de nombreux outils proposent différents moteurs en fonction du forfait auquel vous souscrivez. À titre de comparaison, toutes les réunions en japonais chez tl;dv traitées par le même moteur, qu’il s’agisse d’un compte payant ou gratuit, ce qui garantit une cohérence quelle que soit votre formule d’abonnement.| Outil | Moteur sous-jacent / fournisseur | En interne ou sous licence | Type de moteur | Plan |
|---|---|---|---|---|
| Rimo | Modèle interne de reconnaissance vocale japonais basé sur l'apprentissage profond. L'API OpenAI est utilisée uniquement pour l'éditeur et la couche de synthèse. | En interne (reconnaissance), sous licence (éditeur) | ASR dédié | Essai gratuit |
| tl;dv | ElevenLabs | Agrée | ASR dédié | Entreprises |
| Notta | Partenaire tiers japonais local dont le nom n'est pas divulgué | Agrée | ASR dédié | Payé, un mois |
| Tactiq | Sous-titres de la plateforme de réunion sur le flux en direct. Ce test ayant utilisé le téléchargement de fichiers, Tactiq sa propre transcription du téléchargement, qui n'est pas documentée publiquement. | Mixte, en partie non divulgué | Sous-titres de la plateforme (en direct) ou importation d'un fichier ASR | Gratuit |
| CLOVA | NAVER CLOVA | En interne (NAVER) | ASR dédié | Gratuit ( CLOVA pour le marché coréen) |
| Google Gemini | Google Gemini | En interne (Google) | LLM | Gemini autonome Gemini (compte Business Starter) |
Portée et mises en garde
- CLOVA n'a pas été testée, car l'accès a été bloqué en raison d'un problème lié à la vérification par téléphone.
- La conversion au format M4A peut entraîner de légères différences par rapport à un fichier mis en ligne dans son format d'origine.
- Les données relatives aux fonctionnalités relevant du domaine public reflètent ce qui avait été publié au moment des tests et sont susceptibles d'être modifiées.
Chaque outil a été testé sur des fichiers source identiques, évalué par le même jury et noté selon les mêmes critères, afin de garantir une comparaison aussi équitable que possible.
Quel est le meilleur logiciel de transcription de réunions au Japon ?
Dans l’ensemble de nos tests, sur les quatre domaines évalués, tl;dv en tête. Il est capable d’identifier les intervenants par leur nom, de restituer correctement tous les noms propres, et fait partie des rares outils à proposer l’empreinte vocale, un serveur MCP natif intégrant ChatGPT et Claude, ainsi qu’une résidence des données au Japon à la demande. Chacune de ces fonctionnalités en fait un candidat de choix pour un excellent outil de transcription de réunions en japonais.
Les autres outils présentent de réels atouts : Notta offre d’excellentes fonctionnalités, même si la qualité de sa transcription est légèrement inférieure. De même, Rimo a obtenu de bons résultats en matière de transcription, mais ses capacités pratiques étaient plus limitées et il ne disposait pas de fonctionnalité de résumé, ce qui explique qu’il ait obtenu une note de 0 dans de nombreux domaines. CLOVA proposait CLOVA des résumés en coréen, que nous n’avons donc pas pu tester.
Tactiq une transcription dont le résultat semblait correct à première vue, mais qui s'est avérée pratiquement illisible pour notre panel de locuteurs natifs japonais et comportait des erreurs manifestes. Gemini pas transcrit l'intégralité de l'enregistrement audio, ce qui signifie que les éventuels atouts de cette transcription ont été réduits à néant, celle-ci étant inutilisable en tant que résultat complet.
En ce qui concerne plus particulièrement les réunions japonaises, où de nombreux éléments et différentes voix s'entremêlent pour aborder des sujets importants, tl;dv ses preuves lors de nos trois sessions.
Si votre équipe organise des réunions en japonais et a besoin d'un outil d'enregistrement solide et fiable, doté de fonctionnalités supplémentaires qui permettent de transformer le simple compte-rendu de réunion en un outil capable d'améliorer et de faire progresser votre travail, alors tl;dv le choix idéal.
Essayez tl;dv et découvrez comment il gère vos réunions en japonais sur Google Meet, Zoom et, grâce à notre application de bureau permettant un enregistrement sans bot, sur n’importe quelle autre plateforme de réunion.
Foire aux questions sur la précision de la transcription du japonais
Quelle est la précision de la transcription en japonais par l'IA ?
Réunion sur l'IA en japonais La transcription est suffisamment précise pour la plupart des réunions professionnelles, et les outils les plus performants produisent un texte qu’un lecteur natif peut accepter avec un minimum de corrections. Lors de nos tests, tl;dv par sa précision en japonais. Les erreurs ailleurs sont l’utilisation d’un kanji erroné pour un homophone, des noms transcrits en katakana, ainsi que des étiquettes de locuteurs .
Pourquoi tant d'outils ont-ils du mal avec la transcription du japonais ?
La plupart des outils de transcription ont d’abord été conçus pour l’anglais ; ils s’appuient donc sur des indices tels que les espaces entre les mots, que le japonais n’utilise pas. Le japonais n’est pas plus difficile en soi, il fonctionne simplement différemment, avec des homophones écrits en kanji différents et trois systèmes d’écriture pour un même son. Les meilleurs outils sont ceux qui ont été conçus pour gérer ces particularités plutôt que de partir du principe que la langue de base est l’anglais.
Quel est le meilleur outil d'IA pour la transcription du japonais ?
Le choix idéal dépend du type de réunion, mais tl;dv en tête dans toutes les catégories que nous avons testées. Pour les réunions à plusieurs participants, tl;dv le seul outil à identifier les intervenants par leur nom, ce qui rend la transcription exploitable sans qu'il soit nécessaire de la retravailler manuellement par la suite.
La transcription par IA est-elle capable de gérer le « keigo » et les formules d'honorificité japonaises ?
La plupart des outils reconnaissent correctement le keigo, mais ils « aplatissent » ou « corrigent » ensuite la forme honorifique, modifiant ainsi le registre de ce qui a été dit. La transcription reste lisible en japonais courant, ce qui fait que ce changement passe facilement inaperçu. Lors de notre évaluation à l’aveugle réalisée par des locuteurs natifs, tl;dv ces nuances linguistiques de manière plus fiable que les autres outils.



