Darwin TTS ТТС

A Qwen3-TTS variant whose talker FFN weights are blended from the Qwen3 language model for sharper cross-lingual cloning.

0/500 Аломатҳо · Бақайдгирӣ барои 5000 дар як насл →

Бақайдгирӣ барои 5000 аломат маҳдудият

Ҳолати SSML (Синтезатори гуфтугӯи Markdown барои идоракунии дақиқName)

Матнро дар SSML тегҳо барои идоракунии дақиқ гузоред:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Мавзӯъ/ Услуби тегҳо

Барчаспҳо, ки аз тарафи намунаи интихобшуда фаҳмида мешаванд - барои гузоштани яке аз онҳо дар матни худ, ки дар он ҷо рӯй медиҳад, пахш кунед:

Луғат

Муайян кардани талаффузи оддӣ (калима = талаффуз):

& Баландии овоз 0

-12 +12

Диалоги диаграммаи формат: Истифодаи [S1] ва [S2] тегҳо барои нишон додани баландгӯякҳои гуногун. Мисол:

[S1] Салом! [S2] Салом, шумо чӣ гуна ҳастед?



                

                
                
                    
                    
                        Намунаи AI
                        
                    

                    
                    
                        
                            & Забон
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Забонҳо
                        
                    

                    
                    
                        Андозаи хурӯҷ
                        
                    

                    
                    
                        
                            Суръат
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Озод бо Piper, VITS, MeloTTS



        
        
            
                Дар ин ҷо садои эҷодшудаи шумо пайдо мешавад. Намунаро интихоб кунед, матнро ворид кунед ва пахш кунед Эҷод кунед.
            
            
            
                
                
                    Наметавонам эҷод кунам
                    
                
            
        

            
                
                    
                        
                            Аудио бо муваффақият эҷод шуд
                            
                        
                        






    
        
            
                
                
                
                0:00
                
                    
                    
                        
                    
                
                
                    
                
                
            
        
    



                        
                            
                                Боргирии аудио
                            
                            
                                Боргирӣ
                            
                            
                            
                            Мӯҳлати пайванд баъди 24 соат ба итмом мерасад
                            
                                
                                
                                
                                
                                
                            
                        
                        
                        
                            Шаблон:Шаҳристон Лицензияи тиҷоратӣ аз $5/мо
                        
                        
                    
                
            
        

        
        
            
                
                    Аломатҳои озод ба итмом расиданд
                    200K ҳарфҳоро ҳар моҳ гиред — $5/мо
                    ё як бор 100K баста барои $5
                
            
            
                
                    Ин овозро овози худ созед
                    Нусхаи овоз дар 30 сония
                    
                
            
        

        

    
        
            
                
                    Шумо TTS.ai-ро дӯст медоред? Ба дӯстонатон бигӯед!





    
        
            
                ✨ Модули овози Premium
                
            
            
                Ин як намунаи овози Premium мебошад, ки дар ҳар як нақшаи пардохтшаванда дастрас аст. Шумо метавонед овозҳоро бо истифодаи тугмаи бозикунии дар канори интихобкунандаи овоз пешнамоиш кунед.
                
                    Кушодани овозҳои Premium — $5/мо
                    Муқоисаи нақшаҳо
                
            
        
    





    
        
            
                
                
                    & Хариди аломатҳои иловагӣ
                    
    Бе реклама
    Истифодаи бемаҳдуд
    Пуштибонии пешрафт
    Дастрасии пешакӣ ба хусусиятҳои нав


                
                

                
                    
                        Гирифтани аломатҳои иловагӣ






    
    
        
            Дар бораи Darwin TTS
            Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B with an unusual construction: 84 of its talker-FFN tensors (about 8.6% of them) are blended at a 3% ratio with the matching tensors from Qwen3-1.7B-Base, all without any retraining. The result is a model that produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese — its four core languages. It operates in zero-shot voice-clone mode, needing only about three seconds of reference audio to capture a speaker. Darwin is best suited to transferring a single reference voice across those four languages, for example dubbing or multilingual narration with consistent speaker identity.
            
            Беҳтарин барои: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice
            
            Баррасии ҳама Darwin TTS овозҳо
        
        
            
                
                    Дар як назар
                    
                        Тайёркунанда
FINAL-Bench
                        Иҷозатнома
Apache 2.0
                        & Тағйиротҳо
standard
                        Суръат
medium
                        Тасвири овоз
& Тасвир
                        Забонҳо
English, Korean, Japanese, Chinese
                        Аломатҳои зиёд
2000
                    
                
            
        
    

    
    
    Darwin TTS овозҳо
    
        
        
            
                
                    
                        
                            Default
                            English
                        
                        
                        
                        
                    
                    
                        & Стандартӣ
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default (Chinese)
                            Chinese
                        
                        
                        
                        
                    
                    
                        & Стандартӣ
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default (Japanese)
                            Japanese
                        
                        
                        
                        
                    
                    
                        & Стандартӣ
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default (Korean)
                            Korean
                        
                        
                        
                        
                    
                    
                        & Стандартӣ
                        Neutral
                    
                    
                    
                    
                
            
        
        
    
    

    
    
    Darwin TTS Саволҳои зиёд
    
        
        
            
                
            
            
                Darwin starts from Qwen3-TTS-1.7B but blends a small fraction of its talker-FFN weights with the matching weights from the Qwen3-1.7B base language model. This training-free blend sharpens cross-lingual voice cloning rather than changing the base voices.
            
        
        
        
            
                
            
            
                English, Korean, Japanese, and Chinese. The FINAL-Bench release specifically markets its cross-lingual blend for those four, and the deployed model ships voices for them.
            
        
        
        
            
                
            
            
                About three seconds. It works in zero-shot mode, so no fine-tuning or training is required — you provide a short reference clip and it generates new speech in that voice.
            
        
        
    
    

    ← Ҳамаи овозҳо

Darwin TTS ТТС

Шумо TTS.ai-ро дӯст медоред? Ба дӯстонатон бигӯед!

Дар бораи Darwin TTS

Дар як назар

Darwin TTS овозҳо

Default

Default (Chinese)

Default (Japanese)

Default (Korean)

Darwin TTS Саволҳои зиёд

How is Darwin TTS different from Qwen3-TTS?

Which languages does Darwin TTS handle?

How much reference audio does Darwin need to clone a voice?