Podsumowanie: narzędzia do transkrypcji języka japońskiego i ich dokładność

W ramach naszych testów transkrypcji spotkań w języku japońskim przetestowaliśmy sześć narzędzi na podstawie trzech nagranych spotkań. Wyniki wykazały, że tl;dv najwyższytl;dv ogólny, zdobywając 189 z 200możliwych punktów.

Drugim narzędziem, które uzyskało dobry wynik, było Notta – 166 punktów, a następnie Rimo – 140 punktów.

tl;dv w takich obszarach, jak dokładność transkrypcji, elementy związane z rzeczywistym przebiegiem spotkania, np. streszczenia, a także oferowało wiele przydatnych funkcji, które poprawiały jakość wyników spotkania, wykraczając poza samą transkrypcję. W szczególności poprawnie radziło sobie z identyfikacją mówców oraz transkrypcją nazw własnych.

Spis treści

Narzędzia do transkrypcji spotkań w języku japońskim są niezwykle przydatne dla osób prowadzących codzienne spotkania i realizujących zadania w języku japońskim.

Na całym świecie spotkania bywają bardzo intensywne – z wieloma mówcami, szybką wymianą wypowiedzi i sporadycznym użyciem zapożyczeń z języka angielskiego. I choć wiele dostępnych na rynku narzędzi oferuje użytkownikom posługującym się językiem japońskim transkrypcję oraz inne funkcje, ważne jest, aby mieć pewność, że spotkania są nagrywane prawidłowo.

Aby pokazać, jak tl;dv w przypadku użytkowników posługujących się językiem japońskim, porównaliśmy go z pięcioma innymi popularnymi narzędziami dostępnymi na rynku. Były to:

    1. Rimo
    2. Tactiq
    3. CLOVA firmy Naver
    4. Notta
    5. Google Gemini

Wszystkie te narzędzia otrzymały ten sam materiał źródłowy, a następnie zostały ocenione w czterech odrębnych obszarach.

Następnie wykorzystaliśmy wyniki transkrypcji i streszczenia, oceniliśmy je za pomocą modelu LLM, a potem poprosiliśmy drugą grupę ekspertów składającą się z osób posługujących się językiem japońskim o sprawdzenie tych wyników w formie zanonimizowanej.

Oto wyniki.

PoziomMaxtl;dvRimoTactiqClovaNoteNottaGoogle Gemini
Transkrypcja i dokładność65605726335739
Jakość spotkań w rzeczywistych warunkach45452430243817
Możliwości i funkcje72664746325911
Zaufanie, bezpieczeństwo i wartość1818121261215
Ogólna ocena2001891401149516682
Ranking 134526

Transkrypcja spotkania w języku japońskim i jej dokładność

Oto wyniki porównania dokładności transkrypcji sześciu narzędzi na podstawie tego samego nagrania audio w języku japońskim. Wyniki zostały ocenione przez duże modele językowe (ClaudeAnthropicoraz ChatGPT firmy OpenAI), a następnie zweryfikowane w ramach ślepej oceny przeprowadzonej przez native speakerów, przy czym nazwy narzędzi były ukryte.

System metryczny Jak przyznawane są punkty tl;dv Rimo Tactiq ClovaNote Notta Google Gemini
Poprawność językowa Ocena stopnia trudności przez nieświadomego, rodzimego użytkownika języka w odniesieniu do poprawności językowej 20/20 20/20 20 sierpnia 20 grudnia 20/20 16/20
Obsługa specyficzna dla danego języka Znaki diakrytyczne, znaki interpunkcyjne, warianty regionalne, przełączanie kodów językowych 16/20 16/20 20 sierpnia 20 sierpnia 16/20 20 grudnia
Ocena wskaźnika błędów znaków Obliczono na podstawie oficjalnego wykazu ocen lub tekstu odniesienia 5/5 4/5 2/5 2/5 5/5 1/5
Wykrywanie obiektów Nazwiska, firmy i miejscowości występujące w obsadzie 5/5 4/5 2/5 2/5 4/5 2/5
Liczby, daty i waluty Liczby, daty i kwoty sformatowane poprawnie w danym języku 4/5 4/5 3/5 3/5 4/5 4/5
Rozpoznawanie surowych terminów technicznych Terminy branżowe i skróty przed szkoleniem dostosowanym do potrzeb klienta 5/5 4/5 2/5 2/5 4/5 3/5
Interpunkcja i podział na segmenty Podział na zdania i akapity w wynikach testu 5/5 5/5 1/5 4/5 4/5 1/5
Suma częściowa za transkrypcję i dokładność 60/65 57/65 26/65 33/65 57/65 39/65

Spośród sześciu ocenianych narzędzi tl;dv osiągnęło najwyższą dokładność, uzyskując wynik częściowy wynoszący 60.

Rimo uplasowało się na 57. miejscu, Notta również na 57., Google Gemini na 39., ClovaNote na 33., a Tactiq z wynikiem 26.

tl;dv czołową pozycję pod względem poprawności językowej, poprawności nazw własnych i imion oraz rozpoznawania terminów technicznych jeszcze przed rozpoczęciem jakiegokolwiek szkolenia dostosowanego do konkretnych potrzeb. Osiągnęło również doskonałe wyniki w takich obszarach, jak obsługa specyficzna dla danego języka, liczby, daty i waluty, a także interpunkcja i segmentacja.

Wykrywanie obiektów

Jednym z elementów, które poddaliśmy testom, było wykrywanie encji. Wykrywanie encji definiuje się jako zdolność narzędzia do poprawnego rozpoznawania znanych nazw i terminów. W nagraniu audio pojawiło się kilka nazw marek, w tym tl;dv.

tl;dv zidentyfikować i poprawnie transkrybować tl;dv jego prawdziwą formę, wraz ze średnikiem. Żadne z pozostałych narzędzi nie było w stanie tego zrobić, choć wiele z nich potrafiło transkrybować to jako „TLDV”, co w tym przypadku jest niemal poprawne. Niektóre z pozostałych narzędzi nie były w stanie w ogóle poprawnie odtworzyć tego wyrażenia, w tym CLOVA , które wyświetlało różne warianty, takie jak „pldv”, „gldv” czy po prostu „dv”.

Stwierdziliśmy, że podobna sytuacja miała miejsce w przypadku innych nazw marek i imion osób – wiele narzędzi podawało różne wersje nazw własnych w poszczególnych wynikach. Narzędzie, które poprawnie odwzorowuje uznaną nazwę, zazwyczaj zachowuje dokładność również w odniesieniu do innych elementów występujących podczas spotkania, takich jak lokalizacje, osoby i nazwy firm.
tl;dv najwyższy wynik spośród wszystkich sześciu narzędzi. Ta sama spójność dotyczyła również innych elementów w transkrypcjach, a tl;dv zachowywało imiona i nazwiska osób, gdy były one wymieniane w wypowiedziach.

Wyniki CER

Udało nam się przeprowadzić czwarty test z wykorzystaniem zweryfikowanego transkryptu pochodzącego z zewnętrznego źródła w celu obliczeniawskaźnika błędów znakowych (CER) – podstawowego wskaźnika służącego do oceny jakości rozpoznawania mowy (ASR). W naszych testach CER tl;dv doskonały wynik na poziomie 0,8%, a Notta osiągnęła bardzo zbliżony wynik. Dla porównania: Rimo uzyskało wynik 1,5%, Tactiq , Tactiq %, Clova ,8%, a Gemini ,8%. Gemini na krótszym nagraniu, ponieważ wystąpił błąd związany z przerwaniem spotkania.

Oznaczanie głośników

tl;dv jedynym narzędziem umożliwiającym oznaczanie nazwisk mówców. W przypadku nagrań, w których występuje wielu mówców, to rozróżnienie ma bezpośredni wpływ na użyteczność transkrypcji. Jest to główny powód, dla którego tl;dv przed Rimo, które osiągnęło porównywalną dokładność, ale nie oferuje funkcji oznaczania mówców.

Obserwacje dotyczące konkurencji

Najdokładniejszy wynik osiągnął Rimo, charakteryzujący się wysoką dokładnością oraz proporcjonalnymi i czytelnymi segmentami. Jego głównym ograniczeniem jest brak oznaczeń mówców, a nazwę produktu odczytał jako „TLDV”.

Notta również poradziła sobie dobrze i podzieliła tekst na przejrzyste akapity, choć zdaniem naszego panelu złożonego z native speakerów poszczególne fragmenty były nieco zbyt długie.

Clova wyraźne podziały na linie po każdym zdaniu, jednak jej dokładność była niewystarczająca, by je poprzeć, a niekonsekwentne odwzorowanie nazw różnych produktów wskazuje na szersze problemy z rozpoznawaniem.

Tactiq najsłabiej pod względem podstawowych wskaźników. Nie udało mu się wykryć mówcy – jeden mówca został przypisany do wielu etykiet – a dokładność była niska w całym badaniu. Uzyskał najniższy wynik spośród wszystkich sześciu systemów.

Uwaga dotycząca Google Gemini

Materiały źródłowe stanowiły wcześniej nagrane webinaria, więc nie Gemini uruchomić Gemini na żywo w ramach Google Meet , co jest jego standardową metodą przechwytywania. Do bezpośredniego przetworzenia pliku M4A wykorzystano płatne konto Google. Gemini jedynie fragment sesji zamiast pełnego nagrania, a transkrypcja była zniekształcona w miejscach, gdzie nie udało się przeanalizować dźwięku, co skutkowało słabą jakością i trudnością w odczytaniu tekstu. Dla porównania ten sam plik został przekazany do Notta, co wykazało, że problemem nie był materiał źródłowy.

Google Meet obliczenia wyników CER przeprowadzono test na czwartym zasobie, który odbył się na żywo za pośrednictwem Google Meet . Usługa Google Gemini dodana na żywo do spotkania, ale w trakcie została wyłączona, po czym trzeba było ją ponownie uruchomić. W rezultacie transkrypcja została ponownie skrócona i zawierała wiele nieścisłości.

Gemini w porównaniu dla kompletności, zaznaczając jednak to ograniczenie. Wyniki tej usługi wykazały również pewną zdolność do rozpoznawania wielu języków, identyfikując w nagraniu angielskie sygnały nagrywania.

Gemini
Google Gemini

Jakość spotkań w praktyce

Oprócz jakości transkrypcji bardzo ważnym elementem jest forma końcowa transkrypcji oraz innych powiązanych elementów, takich jak streszczenia. W ramach naszych testów sprawdziliśmy, w jakiej formie są one dostarczane oraz jaki jest poziom ich jakości w codziennym użytkowaniu.

System metryczny Jak przyznawane są punkty tl;dv Rimo Tactiq ClovaNote Notta Google Gemini
Jakość diaryzacji Zgodność liczby mówców i przypisania kwestii z znaną obsadą 10/10 4/10 2/10 6/10 6/10 6/10
Stabilność zachowania Stabilność zachowań w różnych typach sesji 10/10 10/10 6/10 9/10 10/10 2/10
Podsumowanie jakości Przydatność streszczenia oraz to, czy zachowano je w języku źródłowym, z uwzględnieniem zapożyczeń 5/5 0/5 4/5 0/5 4/5 0/5
Częstotliwość występowania halucynacji / wstawek Tekst wymyślony, zapętlony lub powielony, który nie występuje w nagraniu audio. Nie uwzględniono przypadków błędnego zrozumienia oraz skrótów. 10/10 10/10 9/10 9/10 10/10 9/10
Wyodrębnianie działań do wykonania Jakość zadań i działań następczych wynikających ze spotkania 5/5 0/5 4/5 0/5 3/5 0/5
Automatyczne podział na rozdziały / sekcje Czy streszczenie dzieli spotkanie na przydatne części? 5/5 0/5 5/5 0/5 5/5 0/5
Suma częściowa dotycząca jakości spotkań w praktyce 45/45 24/45 30/45 24/45 38/45 17/45

Spośród wszystkich sześciu narzędzi tl;dv maksymalną liczbę punktów we wszystkich kategoriach dotyczących jakości spotkań w rzeczywistych warunkach, osiągając wynik 45 na 45. Kolejne miejsca zajęły: Notta z wynikiem 38, Tactiq 30, Rimo i CLOVA – po 24, a Google Gemini 17.

W dużej mierze różnice w wynikach sprowadzają się do jednego czynnika: czy dane narzędzie w ogóle wygenerowało przydatne podsumowanie spotkania w języku japońskim. W przypadku braku podsumowania w ramach testowanego planu narzędzie uzyskało 0 punktów w kategoriach jakości podsumowania, zadań do wykonania oraz podziału na sekcje. Odzwierciedla to to, co narzędzie oferuje w standardowej konfiguracji, a nie jakość podsumowań, jakie mogłoby wygenerować w ramach innego planu.

Diarizacja i przypisywanie wypowiedzi poszczególnym mówcom

tl;dv maksymalną liczbę punktów za prawidłowe przypisanie mówców i identyfikację poszczególnych wypowiedzi. CLOVA , Notta i Gemini w środkowej części tabeli, natomiast Tactiq najgorzej, przypisując jednego mówcę do kilku różnych etykiet.

Podsumowania, działania do wykonania i podział na sekcje

W tym zakresie różnice między rozwiązaniami są najbardziej wyraźne. tl;dv, Tactiq i Notta wygenerowały streszczenia w języku japońskim, które zostały ocenione pod kątem jakości – najwyższą tl;dv . Usługi Rimo, CLOVA i Gemini żadnych Gemini w ramach testowanego scenariusza: funkcja CLOVA jest dostępna wyłącznie w języku koreańskim, usługa Rimo wymagała płatności, a Gemini żadnych Gemini . Wynik odzwierciedla dostępność, a nie jakość streszczeń.

Możliwości i funkcje

Asystent spotkań oparty na sztucznej inteligencji to znacznie więcej niż tylko narzędzie do sporządzania notatek ze spotkań – oferuje wiele funkcji i elementów, które podnoszą jakość generowanych transkrypcji oraz usprawniają związane z nimi działania. Przyjrzeliśmy się niektórym z najbardziej godnych uwagi dostępnych funkcji i ustaliliśmy, czy dane narzędzie je posiada, dostosowując punktację tak, aby zmierzyć korzyści płynące z każdej z nich oraz ich wpływ na komfort użytkowania.

System metryczny Jak przyznawane są punkty tl;dv Rimo Tactiq ClovaNote Notta Google Gemini
Automatyczne rozpoznawanie mówców Automatyczne rozpoznawanie prawdziwych rozmówców w aplikacjach Meet, Zoom i Teams 5/5 0/5 1/5 0/5 0/5 0/5
Rozpoznawanie głosu Możliwość przeprowadzenia treningu rozpoznawania głosu dla własnego głosu użytkownika 5/5 0/5 0/5 0/5 5/5 0/5
Nagrywanie bez botów Nagrywa za pomocą wbudowanego systemu audio bez włączania bota do rozmowy 5/5 5/5 5/5 5/5 5/5 0/5
Synchronizacja CRM Tryb natywny i synchronizacja automatyczna 3/3 0/3 3/3 0/3 3/3 0/3
Notatki niestandardowe / szablony Formaty podsumowań z możliwością dostosowania a stały format wyników 3/3 3/3 3/3 0/3 3/3 0/3
Szkolenie w zakresie niestandardowego słownictwa / encji Nauczaj terminów branżowych i skrótów 5/5 5/5 0/5 5/5 5/5 0/5
Lokalizacja japońskiego interfejsu użytkownika Czy sam interfejs produktu jest dostępny w języku japońskim 5/5 5/5 5/5 5/5 5/5 5/5
Zakres integracji Slack, kalendarz, Zapier, API 3/3 0/3 3/3 0/3 3/3 0/3
Szybkość przetwarzania Czas od zakończenia spotkania do gotowego zapisu 3/3 2/3 1/3 0/3 3/3 0/3
Śledzenie słów wypełniających Śledzenie słów wypełniających – śledzi „um”, „eh” i „este” bez podwajania dźwięków spowodowanego jąkaniem. Zapewnia pełną przejrzystość transkrypcji wypowiedzi, zamiast nadmiernego wygładzania tekstu 3/3 0/3 0/3 0/3 0/3 0/3
Dokładność znacznika czasu Sprawdź wyrywkowo, czy znaczniki czasu odpowiadają właściwym momentom 3/3 3/3 2/3 2/3 3/3 0/3
Dostępność tłumaczeń Czy potrafi przetłumaczyć notatki ze spotkania i na ile języków? 3/3 3/3 3/3 0/3 3/3 0/3
Wyszukaj w transkrypcji Wyszukiwanie w treści spotkania i w bibliotece 3/3 3/3 0/3 3/3 3/3 0/3
Interfejs użytkownika do edycji transkrypcji Czy można łatwo poprawić transkrypcję po fakcie? 3/3 3/3 3/3 3/3 3/3 3/3
Formaty eksportu SRT, VTT, TXT, DOCX i podobne 0/3 3/3 3/3 3/3 3/3 0/3
Transkrypcja na żywo / w czasie rzeczywistym Czy podczas spotkania wyświetlany jest na żywo zapis rozmowy? 0/3 3/3 3/3 0/3 3/3 3/3
Zasięg platformy konferencyjnej Omówienie usług Zoom, Meet, Teams i Webex 3/3 3/3 3/3 0/3 3/3 0/3
Przechwytywanie z aplikacji mobilnej Czy umożliwia nagrywanie spotkań stacjonarnych za pomocą aplikacji mobilnej? 3/3 3/3 0/3 3/3 3/3 0/3
Wbudowany serwer MCP Własny serwer, umożliwiający asystentom AI przeszukiwanie biblioteki spotkań 5/5 0/5 5/5 0/5 0/5 0/5
Edycja etykiet głośników Czy można zmienić nazwy i przyporządkowanie głośników po zakończeniu konfiguracji? 3/3 3/3 3/3 3/3 3/3 0/3
Suma częściowa: możliwości i funkcje 66/72 47/72 46/72 32/72 59/72 11/72

Istnieje wiele funkcji, które odróżniają dedykowane narzędzie do prowadzenia spotkań od podstawowego programu do transkrypcji spotkań, a tl;dv na pierwszym miejscu w tej kategorii pod względem wszystkich z nich. Na szczególną uwagę zasługują dwie z nich

Wbudowany serwer MCP

tl;dv jednym z zaledwie dwóch narzędzi wyposażonych w natywny serwer MCP, który umożliwia asystentom AI bezpośredni dostęp do biblioteki spotkań. Większość konkurentów uzyskała w tym zakresie zero punktów. Jest to funkcja, która łączy nagrane spotkania z szerszym zestawem narzędzi AI, z których zespół już korzysta, zamiast pozostawiać transkrypcję w zamkniętym systemie.

Odcisk głosu

tl;dv również jednym z zaledwie dwóch narzędzi oferujących funkcję rozpoznawania głosu, obok Notta. Aplikacja uczy się na podstawie Twojego głosu, dzięki czemu coraz lepiej rozpoznaje Cię podczas spotkań – ta zaleta staje się coraz bardziej widoczna w miarę korzystania z niej.

Zaufanie, bezpieczeństwo i wartość

Wybierając narzędzie do nagrywania spotkań w języku japońskim, należy zwrócić uwagę przede wszystkim na takie kwestie, jak zaufanie, bezpieczeństwo i stosunek jakości do ceny. Wiele z tych cech można zapewnić dzięki wysokiej jakości rozwiązaniu do transkrypcji, wyposażonemu w doskonałe funkcje i zapewniającemu użyteczne wyniki, jednak istotnym czynnikiem jest podejście firmy do przetwarzania danych wrażliwych. Przeanalizowaliśmy każde z narzędzi, aby dowiedzieć się więcej o ich statusie oraz stanowisku w kwestiach takich jak bezpieczeństwo, zgodność z przepisami oraz lokalizacja danych.

System metryczny Jak przyznawane są punkty tl;dv Rimo Tactiq ClovaNote Notta Google Gemini
Lokalizacja danych / hosting regionalny Regionalne opcje hostingu, np. hosting w Japonii na żądanie 3/3 3/3 0/3 0/3 0/3 3/3
Bezpieczeństwo i zgodność z przepisami SOC2, ISO 27001, RODO 3/3 3/3 3/3 0/3 3/3 3/3
Szkolenie modelu AI na podstawie nagrań audio użytkowników Czy to pozwala uniknąć szkolenia sztucznej inteligencji na Twoich nagraniach audio (brak szkolenia oznacza maksymalną liczbę punktów)? 3/3 3/3 3/3 0/3 0/3 3/3
Kontrola przechowywania danych Kontrola nad okresem przechowywania nagrań i transkrypcji 3/3 0/3 0/3 0/3 3/3 3/3
Przejrzystość cen Ceny planów są publikowane, a nie podawane wyłącznie na zapytanie 3/3 3/3 3/3 3/3 3/3 3/3
Pakiet bezpłatny / limity Dostępność bezpłatnego planu (sama bezpłatna wersja próbna otrzymuje 0 punktów) 3/3 0/3 3/3 3/3 3/3 0/3
Suma częściowa: zaufanie, bezpieczeństwo i wartość 18/18 18 grudnia 18 grudnia 18 czerwca 18 grudnia 15/18

To konkretne kryterium wykracza poza samą transkrypcję i dotyczy sposobu, w jaki każde narzędzie przetwarza dane, co ma szczególne znaczenie dla japońskich organizacji.

Japońska lokalizacja danych na żądanie

W Japonii nie ma prawnego wymogu przechowywania danych dotyczących spotkań na terytorium kraju. Wymagane jest natomiast staranne obchodzenie się z wszelkimi danymi osobowymi przesyłanymi za granicę: zgodnie z ustawą APPI przekazanie danych podmiotowi zewnętrznemu w innym kraju zazwyczaj wymaga uprzedniej zgody osoby, której dane dotyczą, natomiast przechowywanie tych danych u dostawcy w Japonii zwalnia z tego obowiązku. Dla wielu japońskich przedsiębiorstw przechowywanie danych w kraju jest również po prostu kwestią zaufania i wewnętrznej polityki.

tl;dv przechowywanie danych w Japonii na żądanie, dzięki czemu organizacje, które tego potrzebują, mogą przechowywać dane ze swoich spotkań w Japonii, zamiast domyślnie przetwarzać je za granicą.

Twoje dane pozostają Twoją własnością

tl;dv uzyskało tl;dv maksymalną liczbę punktów w zakresie stanu bezpieczeństwa, mechanizmów kontroli przechowywania danych oraz faktu, że modele sztucznej inteligencji nie są trenowane na nagraniach głosowych klientów. Podsumowując, ten poziom odzwierciedla narzędzie zaprojektowane tak, aby spełniało standardy, jakich oczekuje japońskie przedsiębiorstwo, zanim nagrania z spotkań opuszczą pomieszczenie.

Test dokładności spotkań w Japonii: Metodologia

Nasze porównanie opiera się na kontrolowanym teście, w którym porównujemy produkty o identycznych parametrach, tak aby zapewnić każdemu narzędziu takie same warunki.

Zestaw testowy

Podstawę porównania stanowiły trzy wcześniej nagrane webinaria, z których każde trwało około godziny. Pobrano pliki źródłowe i przetworzono je za pomocą funkcji przesyłania dostępnej w każdym z narzędzi. Większość narzędzi akceptowała pliki MP4 bezpośrednio; dwa wymagały konwersji do formatu M4A przed przesłaniem. Wszystkie trzy webinaria przetestowano w każdym z sześciu narzędzi w jednym z dwóch formatów, przy czym CLOVA Gemini w formacie M4A.

Recenzja

Wyniki zostały ocenione przez nasz zespół złożony z native speakerów: Mioko, Oji i Hiromi, którzy pracowali anonimowo i przyznawali punkty za pozytywne aspekty oraz zalety każdego wyniku. Wyniki te zostały zsumowane w celu uzyskania ostatecznych ocen. Dane dotyczące cech i atrybutów pochodziły z dokumentacji dostępnej w domenie publicznej.

Zestaw narzędzi

Wybór oparto na popularności i powszechnym zastosowaniu na rynku japońskim. Gemini wersja na komputery stacjonarne, przeznaczona do odtwarzania nagranych materiałów z webinarów; uwzględniono ją ze względu na jej dostępność oraz fakt, że opiera się na silniku Google. Tactiq ze względu na deklarowaną obecność tej platformy na rynku japońskim. CLOVA do CLOVA , czyli koreańskiej wersji CLOVA .

Podział silnika i planu

Każde z tych narzędzi działa w ten sposób, że wykorzystuje silnik, który przetwarza nagranie i przekształca je w transkrypcję. Każde narzędzie ma swoją własną wersję – choć wiele z nich korzysta z silnika tej samej firmy, to sposób ich konfiguracji jest różny. Ponadto wiele narzędzi oferuje różne silniki w zależności od wybranego planu. Dla porównania, wszystkie spotkania w języku japońskim w serwisie tl;dv obsługiwane przez ten sam silnik, niezależnie od tego, czy jest to konto płatne, czy bezpłatne, co zapewnia spójność niezależnie od wysokości poniesionych kosztów.

Narzędzie Silnik bazowy / dostawca Własne lub na licencji Typ silnika Plan
Rimo Własny model mowy oparty na głębokim uczeniu, opracowany w języku japońskim. Interfejs API OpenAI wykorzystywany jest wyłącznie w edytorze i warstwie podsumowującej. Wewnętrzny (rozpoznawanie), licencjonowany (edytor) Dedykowany ASR Bezpłatna wersja próbna
tl;dv ElevenLabs Posiada licencję Dedykowany ASR Biznes
Notta Nienazwany japoński partner zewnętrzny Posiada licencję Dedykowany ASR Opłacone, jeden miesiąc
Tactiq Napisy na platformie konferencyjnej w trybie na żywo. W tym teście wykorzystano funkcję przesyłania plików, więc Tactiq własną transkrypcję procesu przesyłania, która nie została publicznie udokumentowana. Zróżnicowane, częściowo nieujawnione Napisy na platformie (na żywo) lub przesłanie pliku ASR Bezpłatny
CLOVA NAVER CLOVA Wewnętrzne (NAVER) Dedykowany ASR Bezpłatna (wersja CLOVA przeznaczona na rynek koreański)
Google Gemini Google Gemini Wewnętrzne (Google) LLM Samodzielna Gemini (konto Business Starter)

Zakres i zastrzeżenia

  • CLOVA nie została przetestowana, ponieważ dostęp do niej został zablokowany z powodu problemu z weryfikacją telefoniczną.
  • Konwersja do formatu M4A może spowodować niewielkie różnice w porównaniu z plikiem przesłanym w formacie natywnym.
  • Dane dotyczące funkcji należące do domeny publicznej odzwierciedlają stan opublikowany w momencie przeprowadzania testów i mogą ulec zmianie.

Każde narzędzie przetestowano na identycznych plikach źródłowych, oceniono przez ten sam zespół ekspertów i przyznano mu punkty według tych samych kryteriów, aby zapewnić jak największą obiektywność porównania.

Jakie jest najlepsze oprogramowanie do transkrypcji spotkań w Japonii?

We wszystkich przeprowadzonych przez nas testach, we wszystkich czterech obszarach, tl;dv pierwsze tl;dv . Potrafi identyfikować mówców po imieniu, poprawnie odtwarzać wszystkie nazwy własne i jest jednym z nielicznych narzędzi oferujących funkcję rozpoznawania głosu, wbudowany serwer MCP z ChatGPT i Claude oraz przechowywanie danych w Japonii na żądanie. Każda z tych cech sprawia, że jest to silny kandydat do miana doskonałego narzędzia do transkrypcji spotkań w języku japońskim.

Pozostałe narzędzia mają swoje mocne strony – Notta oferuje doskonałe funkcje, choć zapewnia nieco gorszą jakość transkrypcji. Podobnie Rimo wypadło dobrze pod względem transkrypcji, ale miało mniej praktycznych funkcji i nie posiadało funkcji tworzenia streszczeń, co oznacza, że w wielu obszarach uzyskało wynik 0. CLOVA oferowała CLOVA streszczenia w języku koreańskim, więc nie byliśmy w stanie ich przetestować.

Tactiq transkrypcję, która na pierwszy rzut oka wyglądała na rzetelną, ale dla naszego panelu złożonego z osób, dla których język japoński jest językiem ojczystym, była praktycznie nieczytelna i zawierała kilka wyraźnych błędów. Gemini całego materiału audio, co oznaczało, że wszelkie zalety tej transkrypcji zostały praktycznie zniwelowane, ponieważ nie nadawała się ona do wykorzystania jako kompletny wynik.

W przypadku konkretnie japońskich spotkań, podczas których wiele elementów i różnych głosów współdziała w dyskusjach dotyczących ważnych spraw, tl;dv się podczas wszystkich trzech przeprowadzonych przez nas sesji.

Jeśli Twój zespół prowadzi spotkania w języku japońskim i potrzebuje solidnego, niezawodnego narzędzia do nagrywania spotkań, wyposażonego w dodatkowe funkcje, dzięki którym zapis spotkania stanie się czymś więcej niż tylko transkrypcją – czymś, co wzbogaca i przyspiesza Waszą pracę – to tl;dv najlepszym wyborem.

Wypróbuj tl;dv i przekonaj się, jak radzi sobie z nagrywaniem Twoich spotkań w języku japońskim w Google Meet, Zoom oraz za pomocą naszej aplikacji komputerowej – bez botów – na dowolnej innej platformie do spotkań. 

Najczęściej zadawane pytania dotyczące dokładności transkrypcji języka japońskiego

Spotkanie poświęcone sztucznej inteligencji w języku japońskim transkrypcja jest wystarczająco dokładna, by większość spotkań biznesowych, a najlepsze narzędzia generują tekst, który może zaakceptować przy minimalnych poprawkach. W naszych testach tl;dv pierwsze miejsce pod względem dokładności w języku japońskim. Najczęstsze błędami w innych językach są: niewłaściwe kanji dla homofonów, imiona zapisane w katakana oraz pominięte lub połączone .

Większość narzędzi do transkrypcji została pierwotnie stworzona z myślą o języku angielskim, dlatego opierają się one na takich wskazówkach jak odstępy między wyrazami, których w języku japońskim nie ma. Język japoński nie jest sam w sobie trudniejszy, po prostu działa inaczej – zawiera homofony zapisywane różnymi znakami kanji oraz trzy systemy pisma odpowiadające jednej wymowie. Lepsze narzędzia to te, które zostały zaprojektowane z myślą o obsłudze tych cech, a nie opierają się na założeniu, że język źródłowy to angielski.

Właściwy wybór zależy od rodzaju spotkania, ale tl;dv pierwsze tl;dv we wszystkich testowanych przez nas kategoriach. W przypadku spotkań z udziałem kilku osób tl;dv jedynym narzędziem, które oznaczało mówców z imienia i nazwiska, dzięki czemu transkrypcja nadaje się do użytku bez konieczności ręcznego poprawiania jej później.

Większość narzędzi poprawnie rozpoznaje keigo, ale następnie spłaszcza lub „koryguje” formę honorową, zmieniając rejestr wypowiedzi. Transkrypcja nadal brzmi jak płynny japoński, więc łatwo przeoczyć tę zmianę. W naszej ślepej ocenie przeprowadzonej przez native speakerów tl;dv te subtelne szczegóły językowe bardziej rzetelnie niż pozostałe narzędzia.

Bezpieczeństwo transkrypcji japońskiej generowanej przez sztuczną inteligencję zależy bardziej od miejsca przechowywania nagrań audio oraz od tego, czy dany plan wykorzystuje je do uczenia się, niż od marki. Zgodnie z japońską ustawą APPI wysyłanie nagrań audio ze spotkań za granicę stanowi transfer transgraniczny, dlatego w przypadku spotkań o charakterze poufnym należy sprawdzić lokalizację przechowywania danych i unikać korzystania z bezpłatnych planów, które mogą wykorzystywać te nagrania do uczenia się.