国产产一区二区三区久久毛片国语 ,91九色李宗瑞在线观看

OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-21 07:58:59 瀏覽：194次

導(dǎo)讀：OpenAI最近總是喜歡搞突襲。昨晚11點(diǎn)的時(shí)候突然發(fā)了一個(gè)預(yù)告，4秒鐘的音頻的大概意思，就是太平洋時(shí)間10點(diǎn)我們發(fā)個(gè)產(chǎn)品。然后就在北京時(shí)間凌晨1點(diǎn)，開(kāi)了一場(chǎng)直播，發(fā)了一些新玩意�？偨Y(jié)一下就是：2個(gè)比Whisper更好的語(yǔ)音轉(zhuǎn)文本的STT模型：gpt-4o-transcribe和gpt-4o-mini-transcribe，1個(gè)文本生成語(yǔ)音的TTS模型 :gpt-4o-mini-tts。這些模型都提供了API的接入方式。沒(méi)了。一個(gè)一 ......

OpenAI最近總是喜歡搞突襲。昨晚11點(diǎn)的時(shí)候突然發(fā)了一個(gè)預(yù)告，4秒鐘的音頻的大概意思，就是太平洋時(shí)間10點(diǎn)我們發(fā)個(gè)產(chǎn)品。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

然后就在北京時(shí)間凌晨1點(diǎn)，開(kāi)了一場(chǎng)直播，發(fā)了一些新玩意。總結(jié)一下就是：2個(gè)比Whisper更好的語(yǔ)音轉(zhuǎn)文本的STT模型：gpt-4o-transcribe和gpt-4o-mini-transcribe，1個(gè)文本生成語(yǔ)音的TTS模型 :gpt-4o-mini-tts。這些模型都提供了API的接入方式。沒(méi)了。一個(gè)一個(gè)說(shuō)。1. STT模型：gpt-4o-transcribegpt-4o-transcribe和gpt-4o-mini-transcribe說(shuō)是兩個(gè)，其實(shí)也就是一個(gè)了，后者是前者的小參數(shù)版。這個(gè)模型的作用跟當(dāng)年的Whisper是一樣的，跟大家在剪映里用的一鍵生成字幕的作用也是一樣的，就是把一段語(yǔ)音，轉(zhuǎn)成對(duì)應(yīng)的正確的文本。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

我們一般把他們稱(chēng)為，STT（Speech-to-Text）模型。這個(gè)模型的核心，就是就是識(shí)別文字的準(zhǔn)確率有多高，我相信大家在用剪映生成字幕的時(shí)候，一定會(huì)出現(xiàn)很多文字識(shí)別錯(cuò)誤的情況，所以評(píng)判一個(gè)ASR模型效果咋樣，就看正確率。他們的跑分是這樣的。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

這個(gè)是OpenAI的幾個(gè)STT模型在FLEURS數(shù)據(jù)集上的詞錯(cuò)率（Word Error Rate, WER）的對(duì)比表現(xiàn)。縱坐標(biāo)表示詞錯(cuò)率，越低代表模型的轉(zhuǎn)錄準(zhǔn)確性越高；橫坐標(biāo)代表不同語(yǔ)言。詞錯(cuò)率的意思就是用于衡量語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確性，它通過(guò)計(jì)算模型轉(zhuǎn)錄文本與人工參考文本之間的錯(cuò)誤比例來(lái)得出，錯(cuò)得越少，WER越低，模型的表現(xiàn)也就越好。中文是從左往右數(shù)第五個(gè)，cmn，可以看到突出了一個(gè)小山丘，錯(cuò)誤率一下子就都上來(lái)了，比隔壁幾個(gè)都要高一些，中文還是難。。。最后那幾個(gè)一柱擎天的語(yǔ)言都比較小眾，比如bn是孟加拉語(yǔ)、mr是馬拉地與、最高的那個(gè)ml是馬拉雅拉姆語(yǔ)。。。他們除了跟自己比外，又放了一個(gè)跟別人家模型相比的圖。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

Gemini是google的，scribe是Anthropic的，在對(duì)比的這些里面，確實(shí)達(dá)到了SOTA，但是不知道沒(méi)比的模型里面，有沒(méi)有比OpenAI更強(qiáng)的。我自己也做了一下實(shí)測(cè)，把我的兩個(gè)口播視頻去識(shí)別了一下，識(shí)別出來(lái)的效果在此，大家可以對(duì)比一下。標(biāo)紅的就是識(shí)別錯(cuò)誤的地方。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

其實(shí)都大差不差，這么一看，GPT-4o-mini-transcribe的性?xún)r(jià)比感覺(jué)非常突出。GPT-4o-transcribe這個(gè)系列的兩個(gè)模型，有一個(gè)蠻不錯(cuò)的特點(diǎn)，就是會(huì)自動(dòng)清噪和去除非主線(xiàn)人物的語(yǔ)音識(shí)別。比如這個(gè)案例。

這個(gè)片段是剪輯完的成片，所以有音樂(lè)，甚至在19秒以后，還有BGM里面的別人唱歌的聲音，這些其實(shí)都是噪音，GPT-4o-transcribe幾乎全部剔除了，在整個(gè)轉(zhuǎn)錄里，我?guī)缀鯖](méi)看到什么錯(cuò)誤，除了把我的名字，卡茲克識(shí)別成了卡斯克。。。我又試了一段粵語(yǔ)的，效果居然還可以，大致的好像是對(duì)的，就是細(xì)節(jié)這塊我不太能驗(yàn)證了，有懂粵語(yǔ)的朋友可以看一下。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

最后價(jià)格這塊提一下。gpt-4o-transcribe是每分鐘大概$0.006，也就是人民幣0.004元/分鐘；gpt-4o-mini-transcribe是每分鐘大概$0.003，也就是人民幣0.002元/分鐘.整體不算貴了。2. TTS模型：gpt-4o-mini-ttsOpenAI的一個(gè)新的TTS模型。在英語(yǔ)效果和聲音上，聽(tīng)了下，還算不錯(cuò)，不過(guò)畢竟這是國(guó)內(nèi)，所以其實(shí)我更關(guān)注的是中文的生成效果。我隨手跑了一個(gè)，就，你們聽(tīng)聽(tīng)這個(gè)效果。。。情緒什么的其實(shí)講道理，還可以的，就是這個(gè)中文發(fā)音，真的一股子大佐味，這到底用的什么數(shù)據(jù)集啊。。。11Labs也有這個(gè)問(wèn)題，中文根本沒(méi)法聽(tīng)，太違和了。對(duì)比一下海螺（現(xiàn)在產(chǎn)品也更名叫Minimax了），他們的Audio生成出來(lái)的同文字的中文是這個(gè)效果。在發(fā)音上，根本就不是一個(gè)級(jí)別的，中國(guó)人的語(yǔ)音模型，還是得看中國(guó)制造。。。英語(yǔ)上，感覺(jué)很純正，日語(yǔ)發(fā)音上，也感覺(jué)有點(diǎn)怪怪的。。。這次OpenAI給gpt-4o-mini-tts做了一個(gè)小小的功能演示網(wǎng)站，約等于免費(fèi)給大家用了。還挺有意思的。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

網(wǎng)址在此：https://www.openai.fm/最上面的VOICE是固定的音色，音色你是沒(méi)辦法克隆也沒(méi)辦法自定義的，所以只能選這些。下面的VIBE比較有意思，大概的意思就是情緒基調(diào)，有N多的預(yù)設(shè)模板，同時(shí)你也可以用Prompt自己捏。OpenAI給了官方模板，是這個(gè)樣子的：

Voice:High-energy, upbeat, and encouraging, projecting enthusiasm and motivation.Punctuation:Short, punchy sentences with strategic pauses to maintain excitement and clarity.Delivery:Fast-paced and dynamic, with rising intonation to build momentum and keep engagement high.Phrasing:Action-oriented and direct, using motivational cues to push participants forward.Tone:Positive, energetic, and empowering, creating an atmosphere of encouragement and achievement.翻譯過(guò)來(lái)就是：聲音（Voice）：充滿(mǎn)活力、熱情洋溢且積極鼓勵(lì)，聲音要能傳遞出熱情與動(dòng)力。

標(biāo)點(diǎn)（Punctuation）：使用短小有力的句子，并通過(guò)適當(dāng)停頓，保持興奮感和清晰度。

語(yǔ)速（Delivery）：語(yǔ)速較快、富有變化，并用升調(diào)增加節(jié)奏感與吸引力，確保聽(tīng)眾持續(xù)投入。

措辭（Phrasing）：直接明了、強(qiáng)調(diào)行動(dòng)，使用鼓勵(lì)性的語(yǔ)言來(lái)推動(dòng)聽(tīng)眾積極參與。

語(yǔ)調(diào)（Tone）：積極向上、充滿(mǎn)能量與力量感，營(yíng)造鼓勵(lì)與成功的氛圍。

所以我們是能看到，有5個(gè)可以自己去捏的參數(shù)。你可以隨便自定義。但是這玩意，說(shuō)實(shí)話(huà)寫(xiě)起來(lái)也非常麻煩，我試了一下后，不如直接交給AI，這玩意誰(shuí)特么手搓啊= = OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

幾秒鐘，一段定制好的prompt就OK了，我們?nèi)拥街暗木W(wǎng)頁(yè)里。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

再用一段我很喜歡的《反叛的魯魯修》里面的臺(tái)詞去試一下。大家自己判別吧。在價(jià)格上，gpt-4o-mini-tts是$0.015/分鐘，大概1毛錢(qián)人名幣1分鐘，說(shuō)實(shí)話(huà)，已經(jīng)幾乎是最低價(jià)了。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

11labs的價(jià)格大概是每分鐘1塊3人民幣。Minimax已經(jīng)算是價(jià)格屠夫了，大概也要1毛8人民幣1分鐘。 OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了

寫(xiě)在最后這就是OpenAI今天的發(fā)布了。如果你是開(kāi)發(fā)者，想知道怎么接入，一切都在他們的API文檔里。https://platform.openai.com/docs/guides/audio這次還蠻方便的，10行代碼就可以接了。STT模型gpt-4o-mini-transcribe我還是蠻推薦用的，實(shí)測(cè)下來(lái)感覺(jué)性?xún)r(jià)比最高，差距不是很大，價(jià)格還低一半。TTS模型gpt-4o-mini-tts如果你是做英文場(chǎng)景的語(yǔ)音，還是值得一用的，畢竟便宜是真便宜，效果也還不錯(cuò)，中文的話(huà)不推薦用，因?yàn)闆](méi)法用，中文我還是無(wú)腦推薦Minimax的Audio模塊，不僅中文效果好，性?xún)r(jià)比高，海外版還可以語(yǔ)音克隆。網(wǎng)址在此：https://www.minimax.io/audio以上就是這一次OpenAI的全部發(fā)布了，熬夜肝完，為大家?guī)?lái)最新鮮的實(shí)測(cè)。好了，我要去睡兩小時(shí)了，預(yù)約的早上9點(diǎn)醫(yī)院做手術(shù)

...大家晚安~以上，既然看到這里了，如果覺(jué)得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)～謝謝你看我的文章，我們，下次再見(jiàn)。

>/ 作者：卡茲克、dongyi

>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@gmail.com

相關(guān)熱詞： openai tts 語(yǔ)音模型 gpt whisper trans

OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-21 07:58:59 瀏覽：194次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI深夜發(fā)布3個(gè)全新的語(yǔ)音模型，一手實(shí)測(cè)都在這了 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-21 07:58:59 瀏覽：194次