我做夢也沒想到,華語樂壇竟以這種形式復興了_風聞
差评-差评官方账号-05-01 08:30
本文原創於微信公眾號:差評 作者:差評君
華語樂壇,難道要重生了?!
最近差評君我在刷B站視頻的時候,突然發現出現在我推薦頁上的老歌手們又多了起來。
這類視頻大多是以唱歌為主,有周杰倫的,有孫燕姿的,林俊杰的,甚至還有丁真郭德綱什麼的。
只不過在這些視頻的標題裏,都會帶有一個“AI”標籤。

這類視頻不僅非常多,關鍵是它們的播放量都還不差。
AI鄧麗君的一首《反方向的鐘》,喜獲50萬+播放。

AI周杰倫的一首“日系新歌”《單相思》,也是獲得了80萬+的播放量。

而且曾經6年不發新專的杰倫,因為這個AI替身,在這一兩個月裏發的“新歌”的量,估摸着已經超過前十年發的量的總和了。。。

至於曾經的“冷門歌手孫燕姿”,更是靠着AI替身,以一首《下雨天》,榮獲超83萬的播放量。

而且,這個AI孫燕姿,各種各樣的風格曲目都有,從流行到搖滾,就沒有AI孫燕姿掌控不了的曲風。

哪曾想到,原本已經脱離歌壇很久的孫燕姿,到了2023年,自己居然靠着AI替身,再次火了一把。一下子從曾經那個“冷門歌手”,變成了“2023最火爆華語歌手”。

可能也是看着現在華語歌壇有點拉,就連相聲界的郭老師,都來湊熱鬧了,直接來了一首《 a lot 》。
把相聲的基本功,“説、學、逗、唱”中的“説唱”演繹的淋漓盡致。

匪幫説唱配上于謙和郭德綱老師的“匪幫梗”,整個視頻立馬就有了一種“德雲社廠牌”的氣質,還有網友在評論裏戲稱郭老師為“ GodGang ”。。。

整個形勢,就好像要回到20几几年那會的華語樂壇大爆發時代。
如果説,現在的新四大天王,把華語樂壇整成了華語哥譚。

那這個 AI 替身,可是真的把華語樂壇曾經的一絲輝煌給重現了。
所以這類 AI 視頻到底是個啥東西?為什麼在這兩個月的時間裏突然就爆發了?
差評君我仔細研究了一下,最後得出結論,讓AI華語樂壇出現爆發式生長的,離不開這麼一個開源項目:
So-vits-svc。
So-vits-svc源於21年的另一個叫做Vits的開源項目。
Vits是一種語音合成方法。
簡單來説,就是可以對人的聲學特徵進行模擬,然後就可以直接用文本生成你模擬好的語音。

這個Vits雖然開源的早,但它沒火起來只有一個原因,就是對普通用户來説,太難用了。
由於是文本生成語音,首先就得對需要訓練的語音進行文本標記,特別不巧的是,訓練Vits的模型又需要大量的語料才能獲得比較好的效果,這個數量大概在數千至上萬條5-10秒左右的音頻。
所以,Vits效果好是好,但願意折騰它的普通用户也不多。
到了2022年,一位叫“Rcell”的B站用户在Vits的基礎上,結合了soft-vc、VIsinger等一系列項目,So-vits-svc就此誕生。

和Vits不同的是,So-vits不能通過文本直接合成語音,而是需要一段原始音頻,然後利用這個原始音頻,擬合成你想要的人的音色。
不過So-vits在訓練聲學特徵時,需要的訓練數據也相對較少,最短十幾分鍾,就能訓練出一個能用的模型了。
到了今年三月,這個So-vits的項目迭代到4.0版本,更加易用,效果更好,再加上很多UP自發整理的整合包,這才讓B站的AI視頻出現了大爆發的趨勢。
那這個So-vits項目易用到了什麼程度呢?
差評君這裏給大家做一個演示。
咱們直接把差評君的嘴替,蛋不利多醬的配音拿來訓練,首先這些音頻要經過切片和預處理,方便訓練。
一切準備完畢後,就可以開始訓練需要的聲學模型啦,直接點擊文件裏面的推理,整個訓練過程就開始了

在訓練完成後,就能得到這樣的聲學模型。

有了模型就可以對音頻進行推理了,我們先準備一段咱們需要擬合的幹音,在這裏就是一段唱歌的聲音。
然後按照提示輸入數值,等待推理完成即可。

最後在/results裏的.flac文件,就是咱們通過訓練蛋蛋的模型擬合出來的聲音了。
之後我還找到了一個叫d-id的網站,這是一個可以將輸入文本或音頻轉化為嘴型動畫的網站,直接把圖片和音頻上傳,就能在短時間內生成符合音頻信息的視頻。

把音頻和視頻合成,製作就結束了,整個過程幾乎涉及不到什麼有難度的點。
給大家看看成品,雖然這個過程花費時間不多,但整體的唱歌效果也還行,除了這選的曲子有點一言難盡之外。。
其實使用別人的聲音來唱歌也不是一件稀奇的事情。
B站的鬼畜視頻大家應該都看過吧?
鬼畜視頻和這類AI視頻有個共同點,就是它們都是用別人的聲音來調教音頻從而達到唱歌的效果。

但是傳統鬼畜的方式,製作過程繁雜,最後出來的效果也和個人調音技術有很大的關係。
而這類AI視頻,製作流程不但簡單,聲音的擬合效果也只取決於你訓練的模型的好壞。
那這一對比下來,別的先不説,鬼畜區以後不得被AI視頻幹爆啊?
在一些AI視頻下面,甚至已經有些網友在評論區哭喊,調音鬼畜要被AI代替了。。。

但差評君在詢問了B站小編後,發現其實現在很多人對AI類的視頻並沒有很大的擔憂。

小編認為技術服務於創意,AI帶來的生產力提升也是一件好事,單調的AI原詞現在也就是圖個新鮮勁,不會對鬼畜區造成長遠的影響。
這類AI視頻,雖然在聲音的還原上,相比傳統鬼畜有極大優勢,但是在內容多樣性上,卻遠遠不如傳統鬼畜的方式。
咱就以最近很火的鬼畜素材 “ 泰褲辣 ” 舉例。

整段原視頻不過幾十秒,比較有梗的也就是這句“泰!褲!辣!”。
在傳統鬼畜的製作流程中,只需要把音頻截下來,然後對一些比較有梗的詞語進行重組拼貼,再進行調音。
然後對上口型的畫面,一個鬼畜視頻就完成了。
但如果想要用AI來做視頻的話,對這類素材,首先就是音頻素材量不夠,短短几十秒的音頻素材,完全不足以支撐訓練出聲學特徵。
其次就是無法還原“梗”,最有梗的這句“泰!褲!辣!”,AI****擬聲完全沒辦法保留素材的原味。
就算你能訓練出聲學模型,當你把聲音擬合到這個幹聲上時,你所有的語氣,唱調,歌詞,都會變成和原始幹聲一樣。
這就少了很多樂趣了。
我們再回過頭來看看鬼畜區的大部分視頻,很多鬼畜視頻的素材也就是一小段比較有趣的對話,比如九轉大腸,雞湯來了還有華強買瓜。

這些短短幾分鐘的素材全都不足以支撐AI訓練出聲學模型,自然也就沒人會拿這些素材去做AI鬼畜了。
能被拿來做AI訓練的,一般都是擁有很多音頻訓練集的人物,比如一些主播、配音演員還有歌手。

那這些歌手和主播就能被替代嘛?
只能説,目前可能還很難,但未來,誰也説不準。
B站就有一位翻唱區的UP,自己把自己的聲音練了一個AI模型出來。
在聽了最終的效果之後,直呼被AI版的自己爆殺。

評論區的觀眾更是發出驚歎,本來以為AI最不能取代的就是藝術類了,結果,現在最可能被取代的,就是藝術類工作。。。

不過,差評君之所以説現在還比較難取代的原因,主要是因為,目前的AI還不能做到對聲音的完全定製化。
比如歌手在唱歌的時候經常會有一些臨時的歌詞改編啊,轉調啊等等,這些AI目前還無法做到。
而且AI視頻還有一點致命的缺點,你想要用AI唱歌,你首先得擁有這首歌的幹音。。。
這個幹音要麼你自己唱,要麼有歌手自己放出來,要麼靠自己慢慢去調音,但這麼一來,這些歌不還是人唱的嘛。。。
另外,AI工具潛藏着的使用安全問題,可能也會在日後讓人們限制它的使用範圍,由於這類AI工具簡單易用,這也就意味着它降低了某些人利用這些軟件做壞事的門檻。
在軟件的命令行界面,從作者為了規範責任,寫了這麼一大串使用細則來看就知道,他們是真的怕!

你想想看,只要獲取了你數十分鐘的音頻錄音,我就能通過這個軟件來模擬出你説話的聲音。
那麼通過這種方式來進行電信詐騙的話,可信度就提升了很多,畢竟再怎麼防,也很難會想到自己的身邊熟人的聲音,居然是用AI合成的。
不過工具畢竟只是工具,有人拿它來電信詐騙,也有人會拿它來紀念親人。
而且這類的視頻也已經不少了,許多UP自己通過AI技術把已故藝術家們“復活”,比如這個使用AI技術讓相聲大師馬三立來講新相聲的視頻。

在評論區裏有不少人聽着聽着,就流淚了。
感慨科技就應該在這個方向上使用。

還有UP,因為想念自己已故的奶奶,於是通過這種方式“復活”了她。
和自己的奶奶進行了一個隔空對話。

在AI鄧麗君的唱歌視頻下面,也有很多人對這種數字生命表達了感慨。
從嘲笑,到理解到愛上,最後成為數字生命。

這種種例子,不免讓人感慨,技術不同的使用方式,帶給人的是不同的體驗。
隨着AI技術的發展,我們可以大膽暢想,在不遠的將來,或許我們也能擁有這樣的數字生命,把已故的親人保留下來,哪怕只是和他對上幾句話,那也足夠慰藉了。
圖片、資料來源:
bilibili
Github
