Nahlásit chybu / žádost o funkci

Proslov k textu

Přepsat audio a video do textu s AI. Podporuje 99 jazyků, timesmarks, a detekci reproduktorů.

Zaregistrovat se zdarma

Odeslat audio nebo video

Přetáhněte váš soubor sem, nebo Procházet

Podporuje MP3, WAV, FLAC, OGG, M4A, MP4, WebM. Volný až 500 MB · Pro až 2 GB.

Nebo záznam z mikrofonu.

00:00

Nastavení

Vzor

Jazyk

Zahrnout časová razítka

Diarizace reproduktorů

1,000/min znaky — Zaregistrovat se pro sledování využití

Transkripce

Nahrajte audio soubor a klikněte na Transcribe začít

Jak to funguje

1. Upload Audio

Nahrajte svůj audio nebo video soubor. Podporujeme formáty MP3, WAV, FLAC, OGG, M4A, MP4, a WebM až 100MB.

2. AI transcribes

Naše modely AI zpracovávají váš zvuk, detekci jazyka, identifikaci reproduktorů a generování přesného textu s časovými známkami.

3. Získejte svůj text

Zkopírujte svůj přepis nebo jej stáhněte do formátu TXT nebo SRT. Upravte a vylepšujte podle potřeby.

Pouzdra na použití

Proslov k textu pro každý průmysl a pracovní postup

Setkání a konference

Automaticky přepsat Zoom, Teams, a Google Meet nahrávky. Už nikdy nenechte ujít akční položku. Exportujte jako seznamovací poznámky nebo titulky.

Rozhovory a žurnalistika

Transcribe interview pro články, výzkumné dokumenty a dokumenty. Mluvčí diagnostika identifikuje, kdo řekl, co pro snadné přiřazení.

Podcasty a média

Generovat přepisy a zobrazit poznámky pro podcast epizody. Vytvořit vyhledávatelné archivy vašeho audio obsahu. Přidat titulky do video podcasty.

Přednášky a vzdělávání

Převést nahrané přednášky do studijních poznámek. Zpřístupnit vzdělávací obsah s přesnými popisky. Podpora studentů s poruchou sluchu.

Lékařské diktace

Konzultace mezi doktorem a pacientem, klinické poznámky a lékařský diktát. Šetřete hodiny manuální dokumentace s přesností na AI.

Právní jednání

Depozice, slyšení a schůzky klientů. Přesné časové značky pro právní referenci. Export ve formátech vhodných pro soudní dokumentaci.

Srovnání modelu STT

Whisper

Robustní model rozpoznávání řeči OpenAI podporující 99 jazyků.

99 jazyků
Překlad
Časové značky
Robustní k hluku

OpenAI

Faster Whisper

4x rychlejší než Whisper s optimalizací CTranslate2, stejná přesnost.

4x rychleji
Nižší paměť
Všechny velikosti modelu
Zpracování šarže
Filtrování VAD

SYSTRAN

SenseVoice

Model porozumění řeči s detekcí emocí, 50+ jazyky.

50+ jazyky
Detekce emocí
Audio události
Analýza reproduktorů
Bohatá metadata

Alibaba (FunAudioLLM)

Plány mluvení na text

Start zdarma, upgrade, když potřebujete více

Volné

1-minutový audio limit
Rychlejší model šeptání
Základní přepis
100+ jazyků

Nejoblíbenější

Volný účet

30 minutový zvuk + 15 000 znaků
Všechny modely STT
Časové značky na úrovni slov
SRT & VTT export titulků
Diarizace reproduktorů

Zaregistrovat se zdarma

Pro

2-hodinové audio soubory
Přepis č. š.:
Prioritní zpracování
Přístup API
Vlastní slovní zásoba

Upgrade

Často kladené otázky

Proslov k textu (STT), také tzv. automatické rozpoznávání řeči (ASR), přeměňuje mluvený jazyk na psaný text. Naše modely používají AI přesně přepsat audio ze setkání, rozhovorů, podcastů, přednášek a dalších.

Rychlejší šeptání se doporučuje pro většinu případů použití. Je to 4x rychlejší než původní Whisper při zachování stejné přesnosti. Použijte SenseVoice, pokud potřebujete detekci emocí nebo detekci zvukových událostí spolu s přepisem.

Podporujeme MP3, WAV, M4A, OGG, FLAC, WEBM, a nejčastější audio/video formáty. Maximální velikost souboru je 50MB. Pro větší soubory, zvažte rozdělení zvuku jako první.

Bezplatní uživatelé mohou přepsat až 5 minut zvuku. Placené plány podporují audio soubory do 2 hodin. Pro delší nahrávání použijte naše API se zpracováním šarží.

Naše modely dosahují 95%+ přesnosti na jasném anglickém projevu. Přesnost se liší podle jazyka, kvality zvuku a hluku pozadí. Rychlejší Whisper a Whisper podporují 99 jazyků s různými úrovněmi přesnosti.

Ano, naše pokročilé transkripční režimy mohou identifikovat a označit různé reproduktory v audio. Speaker diarizace je zvláště užitečné pro setkání přepisy, rozhovory, a multi-person podcasty, kde potřebujete vědět, kdo řekl co.

Transkripce streamingu v reálném čase je k dispozici prostřednictvím našeho API pomocí rychlejšího Whisperu. Audio je zpracováno v kouscích, jak dorazí, přináší částečné přepisy s nízkou latencí. To je ideální pro živé titulkování a real-time poznámky.

Ano, náš transkripční výstup obsahuje textové časové značky, které lze exportovat jako SRT, VTT nebo ASS soubory titulků. To je ideální pro přidání titulků do YouTube videí, on-line kurzů a obsahu sociálních médií.

Ano, všechny výsledky přepisování zahrnují výchozí časové značky na úrovni segmentů. K dispozici jsou také časové značky na úrovni Word, které zobrazují přesný čas startu a konce pro každé slovo v audio.

Rychlejší Whisper je vyškolen na různé zvuky a zvládá mírný zvuk pozadí dobře. Pro velmi hlučné nahrávky, doporučujeme spustit zvuk prostřednictvím našeho Audio Enhancer jako první zlepšit jasnost před přepisem.

Ano, nahrané zvukové soubory jsou zpracovávány na našich zabezpečených GPU serverech a automaticky smazány po dokončení přepisu. Neukládáme, nesdílíme ani nepoužíváme váš zvuk pro účely výcviku. Všechny přenosy jsou zašifrovány.

Bezplatní uživatelé mohou přepsat až 5 minut zvuku bez nákladů. Placené plány používají znaky na základě trvání zvuku: přibližně 1000 znaků za minutu zvuku. Podívejte se na naši cenovou stránku pro podrobné informace o plánu a znakové balíčky.

5.0/5 (1)

Přepsat Audio s AI

Získejte přesné přepisy v 99 jazycích. Zaregistrujte se zdarma a získat 15,000 znaků začít.

Zaregistrovat se zdarma Zobrazit ceny

Proslov k textu

Odeslat audio nebo video

Nastavení

Transkripce

Jak to funguje

1. Upload Audio

2. AI transcribes

3. Získejte svůj text

Pouzdra na použití

Setkání a konference

Rozhovory a žurnalistika

Podcasty a média

Přednášky a vzdělávání

Lékařské diktace

Právní jednání

Srovnání modelu STT

Whisper

Faster Whisper

SenseVoice

Plány mluvení na text

Často kladené otázky

Co je řeč k textu (STT)?

Který transkripční model je nejlepší?

Jaké audio formáty mohu nahrát?

Je nějaký časový limit pro přepis?

Jak přesné je přepisování?

Podporuje řeč k textu diarizaci řečníka?

Můžu dostat přepis v reálném čase?

Mohu generovat titulky nebo SRT soubory?

Zahrnuje přepisy časové značky?

Jak nástroj zvládá hluk v pozadí?

Jsou moje audio data v soukromí?

Kolik stojí řeč k textu?

Přepsat Audio s AI