網(wǎng)友評分:
5分
微軟神經(jīng)網(wǎng)絡(luò)語音合成工具是一款專為語音合成所推出的輔助軟件。它適用于配音、講解、說書、廣告等場景,還有各種語音種類、風(fēng)格、語速、語調(diào)等你調(diào)整,讓你可以合成出更加完美的語音,免費下載。
已累計支持129種語言,330多種神經(jīng)網(wǎng)絡(luò)聲音,是迄今為止做的最自然、最貼近人聲的語音合成技術(shù)。
1. 開發(fā)理由
雖然語音合成技術(shù)很早就有,唯一的缺點就是很少有面向普通人的可視化操作工具,一方面開發(fā)這種工具變現(xiàn)困難,另一方面這些可視化工具以往依賴于最底層的C類編程語言,不過都2022年了,許多跨端技術(shù)的出現(xiàn),比如fluent、webview2等,使得以往全棧開發(fā)者都可以降維開發(fā)桌面跨端app。這也是我開發(fā)這套工具的技術(shù)基礎(chǔ)。
本次開發(fā)借助wails工具,實現(xiàn)了go后端+vue前端合并開發(fā),最終體積只有3.6Mb,里面包含15種音頻預(yù)覽。這種組合開發(fā),既可以全前端wasm實現(xiàn),也可以用go實現(xiàn),自由度非常高。除此之外,微軟亞洲研究院也詳細(xì)介紹了fastspech模型和相關(guān)文獻(xiàn)資料,對科研工作者的故事和背景做了詳細(xì)報道,反觀國內(nèi)互聯(lián)網(wǎng)企業(yè),涉及技術(shù)性的東西從來只是強堆概念,微軟亞洲研究院在這方面做的就很開放和自由,帶給閱讀者更多啟發(fā)。
2. 為什么做paper2gui?
當(dāng)今世界,技術(shù)再牛,如果沒有簡單的可視化操作入口,只能塵封。價值來源于廣泛的使用,挖掘那些論文里被塵封的潛在價值,就是半年前我創(chuàng)建paper2gui的初衷,讓更人工智能產(chǎn)物更簡單直接的面向普通大眾。
3. 反內(nèi)耗后的研究思路
在書寫代碼的風(fēng)格里,類yaml格式最符合人腦,也最受歡迎,比如python、pug、stylus,在項目范疇上,通用倉庫更容易獲得青睞,比如antfu大佬寫的unplugin系列遠(yuǎn)比unocss受歡迎,后者頂多只能做到類tailwindcss這樣的分流主線,有著創(chuàng)始人意味,而unplugin系列包羅萬象,這種兼容性極強的工具,就會成為類vue或vite,成為萬千喜愛的大眾項目。
國內(nèi)很多新手眼界很窄,從來不想想跨領(lǐng)域的事情,只覺得眼下就是一切,一葉障目很危險的。像我,不僅廣泛瀏覽和思考全球優(yōu)秀的UI設(shè)計,同時也全棧開發(fā)一些網(wǎng)頁,還有降維操作的桌面app,實時查看GitHub感興趣的倉庫代碼變更,從源頭理清開發(fā)者思路,雖然不能主動提出科研問題,卻可以按月實現(xiàn)一個自己的小靈感。越是前沿、越是國際化的東西,實際上最終都是通用的,讓你感受到的痛點和爽點,在程序領(lǐng)域總有類似的群體感覺,所以日常更新迭代就可以逐步趨向大同。
假如你持久跟隨在這些頂尖開發(fā)者的邏輯,漸漸的你就有了他們視角之外的想法,從而提出改進(jìn)意見或者干脆自己提個pull。在追逐nuxt3的更新里,我認(rèn)識了國內(nèi)antfu大佬,老外怒贊他一個人頂十個,精力無限靈感無限,更重要的是人家樂意為開源服務(wù)。在追逐ncnn項目時,我認(rèn)識了nihui這樣的大佬,雖然不像antfu那樣高產(chǎn),但確實把論文變成普通人使用的工具上有很突破,本次的微軟神經(jīng)網(wǎng)絡(luò)語音合成,讓我認(rèn)識了Xu Tan譚旭這樣的國內(nèi)人工語音合成領(lǐng)域的高手。追逐這些頂尖高手的過程,很有趣,見識也大漲,不懼怕失敗,也不懼怕錯誤,面對全新的想法付出實踐時,如果沒有99%的失敗,證明的你的工作毫無創(chuàng)意。這也是我連續(xù)數(shù)月不斷挑戰(zhàn)多個領(lǐng)域,每月一個新品的現(xiàn)實行動,高產(chǎn)出,高實踐,高挫折,同樣帶給我無限的喜悅、興奮和自豪。
標(biāo)簽: 微軟
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 m.daaijiaoyu.cn.All rights reserved.
浙ICP備2024132706號-1 浙公網(wǎng)安備33038102330474號