VibeVoice

Speaker 2

Arferol Saesneg Neutral VibeVoice

Mae Speaker 2 yn lais neutral AI a bwerir gan y model testun-i-leferydd VibeVoice. Mae'r standard-level lais hwn yn siarad Saesneg ac yn darparu cyfansoddiad lleferydd stiwdio-quality. Gyda chyflymder creu yn agos-yn-un-amser a gradd ansawdd o 5/5, mae Speaker 2 yn addas iawn ar gyfer podcasts, dialogues, long-form narration, multi-speaker content. Mae'r peiriant VibeVoice wedi ei ddatblygu gan Microsoft under the MIT license, gan ei wneud yn ddiogel ar gyfer defnydd masnachol. Mae'r galluoedd allweddol yn cynnwys: multi-speaker, long-form (90 min), podcast generation, dialogue, low latency.

Dim graddau eto

VibeVoiceGwybodaeth Model

Model VibeVoice
Datblygwr Microsoft
Ansawdd
Cyflymder Cyflym
Trwydded MIT
Clonio Dim ar gael
o Fawrth Arferol (2 credyd/1K o nodau)
Paramedrau 1.5B
Pensaernïaeth LLM + DAC
Data Hyfforddi 100000 awr
Blwyddyn 2025

Casgliadau Defnyddiol Speaker 2

Cymhwysiadau a argymhellir yn seiliedig ar y llais yma

Llyfrau Sain a ChyflwyniadName

Defnyddiwch Speaker 2 i ddweud cynnwys ffurf hir gydag ysgrifennu naturiol a mynegiant.

Llywio Fideo

Ychwanegu naws broffesiynol i fideos YouTube, hysbysebion, a chynnwys cyfryngau cymdeithasol.

Cymhwysiadau a Hygyrchedd

Mae'r creu cyflym yn gwneud y llais hwn yn berffaith ar gyfer rhaglenni amser real, darllenwyr sgrin, ac offer hygyrchedd.

Podiau a Chyhoeddi

Allbwn ansawdd stiwdio addas ar gyfer podlediadau, radio, a darlledu proffesiynol.

Mwy VibeVoice Llais

Llygaid eraill o'r un model TTS

Speaker 1

Saesneg Neutral

Speaker 1 (Chinese)

Tsieinëeg Neutral

Speaker 2 (Chinese)

Tsieinëeg Neutral

Speaker 3

Saesneg Neutral

Speaker 4

Saesneg Neutral

Cwestiynau a Ofynnir yn Aml

Mae VibeVoice gan Microsoft yn dod mewn dau fath: model 1.5B ar gyfer cynnwys ffurf hir (hyd at 90 munud, 4 siaradwr) a model Realtime 0.5B ar gyfer llifogydd gyda ~200ms o'r cylchfa sain gyntaf. Mae'r model 1.5B yn rhagorol ar gyfer podiau a llyfr sain gyda chysondeb siaradwr dros rannau hir. Noder: Tynnodd Microsoft y cod TTS o'r storfa a chynhwysai'r sain a gynhyrchwyd ddiddymiadau AI clywadwy.

Datblygwyd VibeVoice gan Microsoft ac mae'n cael ei ryddhau o dan drwydded MIT (ynteu ymchwil-yn-unig), sy'n caniatáu defnydd masnachol o sain a gynhyrchir.

Mae VibeVoice yn cynnal 1 iaith: Saesneg.

Mae VibeVoice yn y lefel Uwch — 4 credyd am bob 1,000 o nodau. Gallwch ragolygu unrhyw lais VibeVoice am ddim cyn creu sain lawn.

Mae gan VibeVoice gyflymder creu canolig. Mae creu yn cymryd ychydig eiliadau yn dibynnu ar hyd y testun.

Mae VibeVoice wedi ei raddio 5/5 am ansawdd sain ar TTS.ai. Mae'n darparu swn fel siarad dynol ar radd stiwdio.

Na, defnyddia VibeVoice set gadarn o lais mewnol. I glwstio llais, ceisiwch modelau fel CosyVoice 2, GPT-SoVITS, neu Chatterbox.

Ydy, mae VibeVoice yn cael ei argymell yn benodol ar gyfer newyddion, llyfr sain, cynnwys aml-seinydd ffurf hir. Mae ei alluoedd aml-seinydd, hyd at 90 munud, creu newyddion yn ei wneud yn ddewis rhagorol ar gyfer y defnydd hwn.

Ydy, mae VibeVoice wedi ei drwyddedu o dan drwydded MIT (yn bwriadu ymchwil yn unig), sy'n caniatáu defnydd masnachol. Gellir defnyddio sain a gynhyrchir gyda lleisiau VibeVoice mewn fideos, podlediadau, cymwysiadau, gemau, a phob prosiect masnachol arall.

Ydy, mae pob llais ar TTS.ai yn defnyddio modelau ffynhonnell agored gyda thrwydded fasnachol (MIT, Apache 2.0). Eich llais chi yw'r sain a gynhyrchir i'w ddefnyddio mewn fideos, podiau, rhaglenni, gemau, a phob rhaglen fasnachol arall.

Anfonwch gais POST i /api/v1/tts/ gyda'r enw model a'r ID llais. Gweler ein tudalen Dogfennaeth API am enghreifftiau o godau mewn Python, JavaScript, Go, a cURL.

Ie, cliciwch y botwm chwarae ar y dudalen hon i glywed enghraifft. Gallwch hefyd deipio testun addasiedig ar y dudalen Testun- i- Leferydd a chreu rhagolwg am ddim gydag unrhyw lais.

Ceisio Speaker 2 Nawr

Teipiwch unrhyw destun a'i glywed yn cael ei ddweud gan Speaker 2. Am ddim i'w ddefnyddio.