Podsumowanie: narzędzia do transkrypcji języka japońskiego i ich dokładność
W ramach naszych testów transkrypcji spotkań w języku japońskim przetestowaliśmy sześć narzędzi na podstawie trzech nagranych spotkań. Wyniki wykazały, że tl;dv najwyższytl;dv ogólny, zdobywając 189 z 200możliwych punktów.
Drugim narzędziem, które uzyskało dobry wynik, było Notta – 166 punktów, a następnie Rimo – 140 punktów.
tl;dv w takich obszarach, jak dokładność transkrypcji, elementy związane z rzeczywistym przebiegiem spotkania, np. streszczenia, a także oferowało wiele przydatnych funkcji, które poprawiały jakość wyników spotkania, wykraczając poza samą transkrypcję. W szczególności poprawnie radziło sobie z identyfikacją mówców oraz transkrypcją nazw własnych.
Narzędzia do transkrypcji spotkań w języku japońskim są niezwykle przydatne dla osób prowadzących codzienne spotkania i realizujących zadania w języku japońskim.
Na całym świecie spotkania bywają bardzo intensywne – z wieloma mówcami, szybką wymianą wypowiedzi i sporadycznym użyciem zapożyczeń z języka angielskiego. I choć wiele dostępnych na rynku narzędzi oferuje użytkownikom posługującym się językiem japońskim transkrypcję oraz inne funkcje, ważne jest, aby mieć pewność, że spotkania są nagrywane prawidłowo.
Aby pokazać, jak tl;dv w przypadku użytkowników posługujących się językiem japońskim, porównaliśmy go z pięcioma innymi popularnymi narzędziami dostępnymi na rynku. Były to:
- Rimo
- Tactiq
- CLOVA firmy Naver
- Notta
- Google Gemini
Wszystkie te narzędzia otrzymały ten sam materiał źródłowy, a następnie zostały ocenione w czterech odrębnych obszarach.
Następnie wykorzystaliśmy wyniki transkrypcji i streszczenia, oceniliśmy je za pomocą modelu LLM, a potem poprosiliśmy drugą grupę ekspertów składającą się z osób posługujących się językiem japońskim o sprawdzenie tych wyników w formie zanonimizowanej.
Oto wyniki.
| Poziom | Max | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Transkrypcja i dokładność | 65 | 60 | 57 | 26 | 33 | 57 | 39 |
| Jakość spotkań w rzeczywistych warunkach | 45 | 45 | 24 | 30 | 24 | 38 | 17 |
| Możliwości i funkcje | 72 | 66 | 47 | 46 | 32 | 59 | 11 |
| Zaufanie, bezpieczeństwo i wartość | 18 | 18 | 12 | 12 | 6 | 12 | 15 |
| Ogólna ocena | 200 | 189 | 140 | 114 | 95 | 166 | 82 |
| Ranking | 1 | 3 | 4 | 5 | 2 | 6 |
Transkrypcja spotkania w języku japońskim i jej dokładność
Oto wyniki porównania dokładności transkrypcji sześciu narzędzi na podstawie tego samego nagrania audio w języku japońskim. Wyniki zostały ocenione przez duże modele językowe (ClaudeAnthropicoraz ChatGPT firmy OpenAI), a następnie zweryfikowane w ramach ślepej oceny przeprowadzonej przez native speakerów, przy czym nazwy narzędzi były ukryte.
| System metryczny | Jak przyznawane są punkty | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Poprawność językowa | Ocena stopnia trudności przez nieświadomego, rodzimego użytkownika języka w odniesieniu do poprawności językowej | 20/20 | 20/20 | 20 sierpnia | 20 grudnia | 20/20 | 16/20 |
| Obsługa specyficzna dla danego języka | Znaki diakrytyczne, znaki interpunkcyjne, warianty regionalne, przełączanie kodów językowych | 16/20 | 16/20 | 20 sierpnia | 20 sierpnia | 16/20 | 20 grudnia |
| Ocena wskaźnika błędów znaków | Obliczono na podstawie oficjalnego wykazu ocen lub tekstu odniesienia | 5/5 | 4/5 | 2/5 | 2/5 | 5/5 | 1/5 |
| Wykrywanie obiektów | Nazwiska, firmy i miejscowości występujące w obsadzie | 5/5 | 4/5 | 2/5 | 2/5 | 4/5 | 2/5 |
| Liczby, daty i waluty | Liczby, daty i kwoty sformatowane poprawnie w danym języku | 4/5 | 4/5 | 3/5 | 3/5 | 4/5 | 4/5 |
| Rozpoznawanie surowych terminów technicznych | Terminy branżowe i skróty przed szkoleniem dostosowanym do potrzeb klienta | 5/5 | 4/5 | 2/5 | 2/5 | 4/5 | 3/5 |
| Interpunkcja i podział na segmenty | Podział na zdania i akapity w wynikach testu | 5/5 | 5/5 | 1/5 | 4/5 | 4/5 | 1/5 |
| Suma częściowa za transkrypcję i dokładność | 60/65 | 57/65 | 26/65 | 33/65 | 57/65 | 39/65 |
Spośród sześciu ocenianych narzędzi tl;dv osiągnęło najwyższą dokładność, uzyskując wynik częściowy wynoszący 60.
Rimo uplasowało się na 57. miejscu, Notta również na 57., Google Gemini na 39., ClovaNote na 33., a Tactiq z wynikiem 26.
tl;dv czołową pozycję pod względem poprawności językowej, poprawności nazw własnych i imion oraz rozpoznawania terminów technicznych jeszcze przed rozpoczęciem jakiegokolwiek szkolenia dostosowanego do konkretnych potrzeb. Osiągnęło również doskonałe wyniki w takich obszarach, jak obsługa specyficzna dla danego języka, liczby, daty i waluty, a także interpunkcja i segmentacja.
Wykrywanie obiektów
Jednym z elementów, które poddaliśmy testom, było wykrywanie encji. Wykrywanie encji definiuje się jako zdolność narzędzia do poprawnego rozpoznawania znanych nazw i terminów. W nagraniu audio pojawiło się kilka nazw marek, w tym tl;dv.
tl;dv zidentyfikować i poprawnie transkrybować tl;dv jego prawdziwą formę, wraz ze średnikiem. Żadne z pozostałych narzędzi nie było w stanie tego zrobić, choć wiele z nich potrafiło transkrybować to jako „TLDV”, co w tym przypadku jest niemal poprawne. Niektóre z pozostałych narzędzi nie były w stanie w ogóle poprawnie odtworzyć tego wyrażenia, w tym CLOVA , które wyświetlało różne warianty, takie jak „pldv”, „gldv” czy po prostu „dv”.
Stwierdziliśmy, że podobna sytuacja miała miejsce w przypadku innych nazw marek i imion osób – wiele narzędzi podawało różne wersje nazw własnych w poszczególnych wynikach. Narzędzie, które poprawnie odwzorowuje uznaną nazwę, zazwyczaj zachowuje dokładność również w odniesieniu do innych elementów występujących podczas spotkania, takich jak lokalizacje, osoby i nazwy firm.
tl;dv najwyższy wynik spośród wszystkich sześciu narzędzi. Ta sama spójność dotyczyła również innych elementów w transkrypcjach, a tl;dv zachowywało imiona i nazwiska osób, gdy były one wymieniane w wypowiedziach.
Wyniki CER
Udało nam się przeprowadzić czwarty test z wykorzystaniem zweryfikowanego transkryptu pochodzącego z zewnętrznego źródła w celu obliczeniawskaźnika błędów znakowych (CER) – podstawowego wskaźnika służącego do oceny jakości rozpoznawania mowy (ASR). W naszych testach CER tl;dv doskonały wynik na poziomie 0,8%, a Notta osiągnęła bardzo zbliżony wynik. Dla porównania: Rimo uzyskało wynik 1,5%, Tactiq , Tactiq %, Clova ,8%, a Gemini ,8%. Gemini na krótszym nagraniu, ponieważ wystąpił błąd związany z przerwaniem spotkania.
Oznaczanie głośników
tl;dv jedynym narzędziem umożliwiającym oznaczanie nazwisk mówców. W przypadku nagrań, w których występuje wielu mówców, to rozróżnienie ma bezpośredni wpływ na użyteczność transkrypcji. Jest to główny powód, dla którego tl;dv przed Rimo, które osiągnęło porównywalną dokładność, ale nie oferuje funkcji oznaczania mówców.
Obserwacje dotyczące konkurencji
Najdokładniejszy wynik osiągnął Rimo, charakteryzujący się wysoką dokładnością oraz proporcjonalnymi i czytelnymi segmentami. Jego głównym ograniczeniem jest brak oznaczeń mówców, a nazwę produktu odczytał jako „TLDV”.
Notta również poradziła sobie dobrze i podzieliła tekst na przejrzyste akapity, choć zdaniem naszego panelu złożonego z native speakerów poszczególne fragmenty były nieco zbyt długie.
Clova wyraźne podziały na linie po każdym zdaniu, jednak jej dokładność była niewystarczająca, by je poprzeć, a niekonsekwentne odwzorowanie nazw różnych produktów wskazuje na szersze problemy z rozpoznawaniem.
Tactiq najsłabiej pod względem podstawowych wskaźników. Nie udało mu się wykryć mówcy – jeden mówca został przypisany do wielu etykiet – a dokładność była niska w całym badaniu. Uzyskał najniższy wynik spośród wszystkich sześciu systemów.
Uwaga dotycząca Google Gemini
Materiały źródłowe stanowiły wcześniej nagrane webinaria, więc nie Gemini uruchomić Gemini na żywo w ramach Google Meet , co jest jego standardową metodą przechwytywania. Do bezpośredniego przetworzenia pliku M4A wykorzystano płatne konto Google. Gemini jedynie fragment sesji zamiast pełnego nagrania, a transkrypcja była zniekształcona w miejscach, gdzie nie udało się przeanalizować dźwięku, co skutkowało słabą jakością i trudnością w odczytaniu tekstu. Dla porównania ten sam plik został przekazany do Notta, co wykazało, że problemem nie był materiał źródłowy.
Google Meet obliczenia wyników CER przeprowadzono test na czwartym zasobie, który odbył się na żywo za pośrednictwem Google Meet . Usługa Google Gemini dodana na żywo do spotkania, ale w trakcie została wyłączona, po czym trzeba było ją ponownie uruchomić. W rezultacie transkrypcja została ponownie skrócona i zawierała wiele nieścisłości.
Gemini w porównaniu dla kompletności, zaznaczając jednak to ograniczenie. Wyniki tej usługi wykazały również pewną zdolność do rozpoznawania wielu języków, identyfikując w nagraniu angielskie sygnały nagrywania.
Jakość spotkań w praktyce
Oprócz jakości transkrypcji bardzo ważnym elementem jest forma końcowa transkrypcji oraz innych powiązanych elementów, takich jak streszczenia. W ramach naszych testów sprawdziliśmy, w jakiej formie są one dostarczane oraz jaki jest poziom ich jakości w codziennym użytkowaniu.
| System metryczny | Jak przyznawane są punkty | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Jakość diaryzacji | Zgodność liczby mówców i przypisania kwestii z znaną obsadą | 10/10 | 4/10 | 2/10 | 6/10 | 6/10 | 6/10 |
| Stabilność zachowania | Stabilność zachowań w różnych typach sesji | 10/10 | 10/10 | 6/10 | 9/10 | 10/10 | 2/10 |
| Podsumowanie jakości | Przydatność streszczenia oraz to, czy zachowano je w języku źródłowym, z uwzględnieniem zapożyczeń | 5/5 | 0/5 | 4/5 | 0/5 | 4/5 | 0/5 |
| Częstotliwość występowania halucynacji / wstawek | Tekst wymyślony, zapętlony lub powielony, który nie występuje w nagraniu audio. Nie uwzględniono przypadków błędnego zrozumienia oraz skrótów. | 10/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| Wyodrębnianie działań do wykonania | Jakość zadań i działań następczych wynikających ze spotkania | 5/5 | 0/5 | 4/5 | 0/5 | 3/5 | 0/5 |
| Automatyczne podział na rozdziały / sekcje | Czy streszczenie dzieli spotkanie na przydatne części? | 5/5 | 0/5 | 5/5 | 0/5 | 5/5 | 0/5 |
| Suma częściowa dotycząca jakości spotkań w praktyce | 45/45 | 24/45 | 30/45 | 24/45 | 38/45 | 17/45 |
Spośród wszystkich sześciu narzędzi tl;dv maksymalną liczbę punktów we wszystkich kategoriach dotyczących jakości spotkań w rzeczywistych warunkach, osiągając wynik 45 na 45. Kolejne miejsca zajęły: Notta z wynikiem 38, Tactiq 30, Rimo i CLOVA – po 24, a Google Gemini 17.
W dużej mierze różnice w wynikach sprowadzają się do jednego czynnika: czy dane narzędzie w ogóle wygenerowało przydatne podsumowanie spotkania w języku japońskim. W przypadku braku podsumowania w ramach testowanego planu narzędzie uzyskało 0 punktów w kategoriach jakości podsumowania, zadań do wykonania oraz podziału na sekcje. Odzwierciedla to to, co narzędzie oferuje w standardowej konfiguracji, a nie jakość podsumowań, jakie mogłoby wygenerować w ramach innego planu.
Diarizacja i przypisywanie wypowiedzi poszczególnym mówcom
tl;dv maksymalną liczbę punktów za prawidłowe przypisanie mówców i identyfikację poszczególnych wypowiedzi. CLOVA , Notta i Gemini w środkowej części tabeli, natomiast Tactiq najgorzej, przypisując jednego mówcę do kilku różnych etykiet.
Podsumowania, działania do wykonania i podział na sekcje
W tym zakresie różnice między rozwiązaniami są najbardziej wyraźne. tl;dv, Tactiq i Notta wygenerowały streszczenia w języku japońskim, które zostały ocenione pod kątem jakości – najwyższą tl;dv . Usługi Rimo, CLOVA i Gemini żadnych Gemini w ramach testowanego scenariusza: funkcja CLOVA jest dostępna wyłącznie w języku koreańskim, usługa Rimo wymagała płatności, a Gemini żadnych Gemini . Wynik odzwierciedla dostępność, a nie jakość streszczeń.
Możliwości i funkcje
Asystent spotkań oparty na sztucznej inteligencji to znacznie więcej niż tylko narzędzie do sporządzania notatek ze spotkań – oferuje wiele funkcji i elementów, które podnoszą jakość generowanych transkrypcji oraz usprawniają związane z nimi działania. Przyjrzeliśmy się niektórym z najbardziej godnych uwagi dostępnych funkcji i ustaliliśmy, czy dane narzędzie je posiada, dostosowując punktację tak, aby zmierzyć korzyści płynące z każdej z nich oraz ich wpływ na komfort użytkowania.
| System metryczny | Jak przyznawane są punkty | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Automatyczne rozpoznawanie mówców | Automatyczne rozpoznawanie prawdziwych rozmówców w aplikacjach Meet, Zoom i Teams | 5/5 | 0/5 | 1/5 | 0/5 | 0/5 | 0/5 |
| Rozpoznawanie głosu | Możliwość przeprowadzenia treningu rozpoznawania głosu dla własnego głosu użytkownika | 5/5 | 0/5 | 0/5 | 0/5 | 5/5 | 0/5 |
| Nagrywanie bez botów | Nagrywa za pomocą wbudowanego systemu audio bez włączania bota do rozmowy | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | 0/5 |
| Synchronizacja CRM | Tryb natywny i synchronizacja automatyczna | 3/3 | 0/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Notatki niestandardowe / szablony | Formaty podsumowań z możliwością dostosowania a stały format wyników | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Szkolenie w zakresie niestandardowego słownictwa / encji | Nauczaj terminów branżowych i skrótów | 5/5 | 5/5 | 0/5 | 5/5 | 5/5 | 0/5 |
| Lokalizacja japońskiego interfejsu użytkownika | Czy sam interfejs produktu jest dostępny w języku japońskim | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 | 5/5 |
| Zakres integracji | Slack, kalendarz, Zapier, API | 3/3 | 0/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Szybkość przetwarzania | Czas od zakończenia spotkania do gotowego zapisu | 3/3 | 2/3 | 1/3 | 0/3 | 3/3 | 0/3 |
| Śledzenie słów wypełniających | Śledzenie słów wypełniających – śledzi „um”, „eh” i „este” bez podwajania dźwięków spowodowanego jąkaniem. Zapewnia pełną przejrzystość transkrypcji wypowiedzi, zamiast nadmiernego wygładzania tekstu | 3/3 | 0/3 | 0/3 | 0/3 | 0/3 | 0/3 |
| Dokładność znacznika czasu | Sprawdź wyrywkowo, czy znaczniki czasu odpowiadają właściwym momentom | 3/3 | 3/3 | 2/3 | 2/3 | 3/3 | 0/3 |
| Dostępność tłumaczeń | Czy potrafi przetłumaczyć notatki ze spotkania i na ile języków? | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Wyszukaj w transkrypcji | Wyszukiwanie w treści spotkania i w bibliotece | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 | 0/3 |
| Interfejs użytkownika do edycji transkrypcji | Czy można łatwo poprawić transkrypcję po fakcie? | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 |
| Formaty eksportu | SRT, VTT, TXT, DOCX i podobne | 0/3 | 3/3 | 3/3 | 3/3 | 3/3 | 0/3 |
| Transkrypcja na żywo / w czasie rzeczywistym | Czy podczas spotkania wyświetlany jest na żywo zapis rozmowy? | 0/3 | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 |
| Zasięg platformy konferencyjnej | Omówienie usług Zoom, Meet, Teams i Webex | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 0/3 |
| Przechwytywanie z aplikacji mobilnej | Czy umożliwia nagrywanie spotkań stacjonarnych za pomocą aplikacji mobilnej? | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 | 0/3 |
| Wbudowany serwer MCP | Własny serwer, umożliwiający asystentom AI przeszukiwanie biblioteki spotkań | 5/5 | 0/5 | 5/5 | 0/5 | 0/5 | 0/5 |
| Edycja etykiet głośników | Czy można zmienić nazwy i przyporządkowanie głośników po zakończeniu konfiguracji? | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 | 0/3 |
| Suma częściowa: możliwości i funkcje | 66/72 | 47/72 | 46/72 | 32/72 | 59/72 | 11/72 |
Istnieje wiele funkcji, które odróżniają dedykowane narzędzie do prowadzenia spotkań od podstawowego programu do transkrypcji spotkań, a tl;dv na pierwszym miejscu w tej kategorii pod względem wszystkich z nich. Na szczególną uwagę zasługują dwie z nich
Wbudowany serwer MCP
tl;dv jednym z zaledwie dwóch narzędzi wyposażonych w natywny serwer MCP, który umożliwia asystentom AI bezpośredni dostęp do biblioteki spotkań. Większość konkurentów uzyskała w tym zakresie zero punktów. Jest to funkcja, która łączy nagrane spotkania z szerszym zestawem narzędzi AI, z których zespół już korzysta, zamiast pozostawiać transkrypcję w zamkniętym systemie.
Odcisk głosu
tl;dv również jednym z zaledwie dwóch narzędzi oferujących funkcję rozpoznawania głosu, obok Notta. Aplikacja uczy się na podstawie Twojego głosu, dzięki czemu coraz lepiej rozpoznaje Cię podczas spotkań – ta zaleta staje się coraz bardziej widoczna w miarę korzystania z niej.
Zaufanie, bezpieczeństwo i wartość
Wybierając narzędzie do nagrywania spotkań w języku japońskim, należy zwrócić uwagę przede wszystkim na takie kwestie, jak zaufanie, bezpieczeństwo i stosunek jakości do ceny. Wiele z tych cech można zapewnić dzięki wysokiej jakości rozwiązaniu do transkrypcji, wyposażonemu w doskonałe funkcje i zapewniającemu użyteczne wyniki, jednak istotnym czynnikiem jest podejście firmy do przetwarzania danych wrażliwych. Przeanalizowaliśmy każde z narzędzi, aby dowiedzieć się więcej o ich statusie oraz stanowisku w kwestiach takich jak bezpieczeństwo, zgodność z przepisami oraz lokalizacja danych.
| System metryczny | Jak przyznawane są punkty | tl;dv | Rimo | Tactiq | ClovaNote | Notta | Google Gemini |
|---|---|---|---|---|---|---|---|
| Lokalizacja danych / hosting regionalny | Regionalne opcje hostingu, np. hosting w Japonii na żądanie | 3/3 | 3/3 | 0/3 | 0/3 | 0/3 | 3/3 |
| Bezpieczeństwo i zgodność z przepisami | SOC2, ISO 27001, RODO | 3/3 | 3/3 | 3/3 | 0/3 | 3/3 | 3/3 |
| Szkolenie modelu AI na podstawie nagrań audio użytkowników | Czy to pozwala uniknąć szkolenia sztucznej inteligencji na Twoich nagraniach audio (brak szkolenia oznacza maksymalną liczbę punktów)? | 3/3 | 3/3 | 3/3 | 0/3 | 0/3 | 3/3 |
| Kontrola przechowywania danych | Kontrola nad okresem przechowywania nagrań i transkrypcji | 3/3 | 0/3 | 0/3 | 0/3 | 3/3 | 3/3 |
| Przejrzystość cen | Ceny planów są publikowane, a nie podawane wyłącznie na zapytanie | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 | 3/3 |
| Pakiet bezpłatny / limity | Dostępność bezpłatnego planu (sama bezpłatna wersja próbna otrzymuje 0 punktów) | 3/3 | 0/3 | 3/3 | 3/3 | 3/3 | 0/3 |
| Suma częściowa: zaufanie, bezpieczeństwo i wartość | 18/18 | 18 grudnia | 18 grudnia | 18 czerwca | 18 grudnia | 15/18 |
To konkretne kryterium wykracza poza samą transkrypcję i dotyczy sposobu, w jaki każde narzędzie przetwarza dane, co ma szczególne znaczenie dla japońskich organizacji.
Japońska lokalizacja danych na żądanie
W Japonii nie ma prawnego wymogu przechowywania danych dotyczących spotkań na terytorium kraju. Wymagane jest natomiast staranne obchodzenie się z wszelkimi danymi osobowymi przesyłanymi za granicę: zgodnie z ustawą APPI przekazanie danych podmiotowi zewnętrznemu w innym kraju zazwyczaj wymaga uprzedniej zgody osoby, której dane dotyczą, natomiast przechowywanie tych danych u dostawcy w Japonii zwalnia z tego obowiązku. Dla wielu japońskich przedsiębiorstw przechowywanie danych w kraju jest również po prostu kwestią zaufania i wewnętrznej polityki.
tl;dv przechowywanie danych w Japonii na żądanie, dzięki czemu organizacje, które tego potrzebują, mogą przechowywać dane ze swoich spotkań w Japonii, zamiast domyślnie przetwarzać je za granicą.
Twoje dane pozostają Twoją własnością
tl;dv uzyskało tl;dv maksymalną liczbę punktów w zakresie stanu bezpieczeństwa, mechanizmów kontroli przechowywania danych oraz faktu, że modele sztucznej inteligencji nie są trenowane na nagraniach głosowych klientów. Podsumowując, ten poziom odzwierciedla narzędzie zaprojektowane tak, aby spełniało standardy, jakich oczekuje japońskie przedsiębiorstwo, zanim nagrania z spotkań opuszczą pomieszczenie.
Test dokładności spotkań w Japonii: Metodologia
Nasze porównanie opiera się na kontrolowanym teście, w którym porównujemy produkty o identycznych parametrach, tak aby zapewnić każdemu narzędziu takie same warunki.
Zestaw testowy
Podstawę porównania stanowiły trzy wcześniej nagrane webinaria, z których każde trwało około godziny. Pobrano pliki źródłowe i przetworzono je za pomocą funkcji przesyłania dostępnej w każdym z narzędzi. Większość narzędzi akceptowała pliki MP4 bezpośrednio; dwa wymagały konwersji do formatu M4A przed przesłaniem. Wszystkie trzy webinaria przetestowano w każdym z sześciu narzędzi w jednym z dwóch formatów, przy czym CLOVA Gemini w formacie M4A.
Recenzja
Wyniki zostały ocenione przez nasz zespół złożony z native speakerów: Mioko, Oji i Hiromi, którzy pracowali anonimowo i przyznawali punkty za pozytywne aspekty oraz zalety każdego wyniku. Wyniki te zostały zsumowane w celu uzyskania ostatecznych ocen. Dane dotyczące cech i atrybutów pochodziły z dokumentacji dostępnej w domenie publicznej.
Zestaw narzędzi
Wybór oparto na popularności i powszechnym zastosowaniu na rynku japońskim. Gemini wersja na komputery stacjonarne, przeznaczona do odtwarzania nagranych materiałów z webinarów; uwzględniono ją ze względu na jej dostępność oraz fakt, że opiera się na silniku Google. Tactiq ze względu na deklarowaną obecność tej platformy na rynku japońskim. CLOVA do CLOVA , czyli koreańskiej wersji CLOVA .
Podział silnika i planu
Każde z tych narzędzi działa w ten sposób, że wykorzystuje silnik, który przetwarza nagranie i przekształca je w transkrypcję. Każde narzędzie ma swoją własną wersję – choć wiele z nich korzysta z silnika tej samej firmy, to sposób ich konfiguracji jest różny. Ponadto wiele narzędzi oferuje różne silniki w zależności od wybranego planu. Dla porównania, wszystkie spotkania w języku japońskim w serwisie tl;dv obsługiwane przez ten sam silnik, niezależnie od tego, czy jest to konto płatne, czy bezpłatne, co zapewnia spójność niezależnie od wysokości poniesionych kosztów.| Narzędzie | Silnik bazowy / dostawca | Własne lub na licencji | Typ silnika | Plan |
|---|---|---|---|---|
| Rimo | Własny model mowy oparty na głębokim uczeniu, opracowany w języku japońskim. Interfejs API OpenAI wykorzystywany jest wyłącznie w edytorze i warstwie podsumowującej. | Wewnętrzny (rozpoznawanie), licencjonowany (edytor) | Dedykowany ASR | Bezpłatna wersja próbna |
| tl;dv | ElevenLabs | Posiada licencję | Dedykowany ASR | Biznes |
| Notta | Nienazwany japoński partner zewnętrzny | Posiada licencję | Dedykowany ASR | Opłacone, jeden miesiąc |
| Tactiq | Napisy na platformie konferencyjnej w trybie na żywo. W tym teście wykorzystano funkcję przesyłania plików, więc Tactiq własną transkrypcję procesu przesyłania, która nie została publicznie udokumentowana. | Zróżnicowane, częściowo nieujawnione | Napisy na platformie (na żywo) lub przesłanie pliku ASR | Bezpłatny |
| CLOVA | NAVER CLOVA | Wewnętrzne (NAVER) | Dedykowany ASR | Bezpłatna (wersja CLOVA przeznaczona na rynek koreański) |
| Google Gemini | Google Gemini | Wewnętrzne (Google) | LLM | Samodzielna Gemini (konto Business Starter) |
Zakres i zastrzeżenia
- CLOVA nie została przetestowana, ponieważ dostęp do niej został zablokowany z powodu problemu z weryfikacją telefoniczną.
- Konwersja do formatu M4A może spowodować niewielkie różnice w porównaniu z plikiem przesłanym w formacie natywnym.
- Dane dotyczące funkcji należące do domeny publicznej odzwierciedlają stan opublikowany w momencie przeprowadzania testów i mogą ulec zmianie.
Każde narzędzie przetestowano na identycznych plikach źródłowych, oceniono przez ten sam zespół ekspertów i przyznano mu punkty według tych samych kryteriów, aby zapewnić jak największą obiektywność porównania.
Jakie jest najlepsze oprogramowanie do transkrypcji spotkań w Japonii?
We wszystkich przeprowadzonych przez nas testach, we wszystkich czterech obszarach, tl;dv pierwsze tl;dv . Potrafi identyfikować mówców po imieniu, poprawnie odtwarzać wszystkie nazwy własne i jest jednym z nielicznych narzędzi oferujących funkcję rozpoznawania głosu, wbudowany serwer MCP z ChatGPT i Claude oraz przechowywanie danych w Japonii na żądanie. Każda z tych cech sprawia, że jest to silny kandydat do miana doskonałego narzędzia do transkrypcji spotkań w języku japońskim.
Pozostałe narzędzia mają swoje mocne strony – Notta oferuje doskonałe funkcje, choć zapewnia nieco gorszą jakość transkrypcji. Podobnie Rimo wypadło dobrze pod względem transkrypcji, ale miało mniej praktycznych funkcji i nie posiadało funkcji tworzenia streszczeń, co oznacza, że w wielu obszarach uzyskało wynik 0. CLOVA oferowała CLOVA streszczenia w języku koreańskim, więc nie byliśmy w stanie ich przetestować.
Tactiq transkrypcję, która na pierwszy rzut oka wyglądała na rzetelną, ale dla naszego panelu złożonego z osób, dla których język japoński jest językiem ojczystym, była praktycznie nieczytelna i zawierała kilka wyraźnych błędów. Gemini całego materiału audio, co oznaczało, że wszelkie zalety tej transkrypcji zostały praktycznie zniwelowane, ponieważ nie nadawała się ona do wykorzystania jako kompletny wynik.
W przypadku konkretnie japońskich spotkań, podczas których wiele elementów i różnych głosów współdziała w dyskusjach dotyczących ważnych spraw, tl;dv się podczas wszystkich trzech przeprowadzonych przez nas sesji.
Jeśli Twój zespół prowadzi spotkania w języku japońskim i potrzebuje solidnego, niezawodnego narzędzia do nagrywania spotkań, wyposażonego w dodatkowe funkcje, dzięki którym zapis spotkania stanie się czymś więcej niż tylko transkrypcją – czymś, co wzbogaca i przyspiesza Waszą pracę – to tl;dv najlepszym wyborem.
Wypróbuj tl;dv i przekonaj się, jak radzi sobie z nagrywaniem Twoich spotkań w języku japońskim w Google Meet, Zoom oraz za pomocą naszej aplikacji komputerowej – bez botów – na dowolnej innej platformie do spotkań.
Najczęściej zadawane pytania dotyczące dokładności transkrypcji języka japońskiego
Jak dokładna jest transkrypcja języka japońskiego generowana przez sztuczną inteligencję?
Spotkanie poświęcone sztucznej inteligencji w języku japońskim transkrypcja jest wystarczająco dokładna, by większość spotkań biznesowych, a najlepsze narzędzia generują tekst, który może zaakceptować przy minimalnych poprawkach. W naszych testach tl;dv pierwsze miejsce pod względem dokładności w języku japońskim. Najczęstsze błędami w innych językach są: niewłaściwe kanji dla homofonów, imiona zapisane w katakana oraz pominięte lub połączone .
Dlaczego wiele narzędzi ma trudności z transkrypcją języka japońskiego?
Większość narzędzi do transkrypcji została pierwotnie stworzona z myślą o języku angielskim, dlatego opierają się one na takich wskazówkach jak odstępy między wyrazami, których w języku japońskim nie ma. Język japoński nie jest sam w sobie trudniejszy, po prostu działa inaczej – zawiera homofony zapisywane różnymi znakami kanji oraz trzy systemy pisma odpowiadające jednej wymowie. Lepsze narzędzia to te, które zostały zaprojektowane z myślą o obsłudze tych cech, a nie opierają się na założeniu, że język źródłowy to angielski.
Jakie jest najlepsze narzędzie oparte na sztucznej inteligencji do transkrypcji języka japońskiego?
Właściwy wybór zależy od rodzaju spotkania, ale tl;dv pierwsze tl;dv we wszystkich testowanych przez nas kategoriach. W przypadku spotkań z udziałem kilku osób tl;dv jedynym narzędziem, które oznaczało mówców z imienia i nazwiska, dzięki czemu transkrypcja nadaje się do użytku bez konieczności ręcznego poprawiania jej później.
Czy transkrypcja oparta na sztucznej inteligencji radzi sobie z keigo i japońskimi formami grzecznościowymi?
Większość narzędzi poprawnie rozpoznaje keigo, ale następnie spłaszcza lub „koryguje” formę honorową, zmieniając rejestr wypowiedzi. Transkrypcja nadal brzmi jak płynny japoński, więc łatwo przeoczyć tę zmianę. W naszej ślepej ocenie przeprowadzonej przez native speakerów tl;dv te subtelne szczegóły językowe bardziej rzetelnie niż pozostałe narzędzia.



