【雜談】虛擬歌手雜談／歌曲推薦（二）：CeVIO的十年沉潛

　　【雜談】虛擬歌手雜談／歌曲推薦（二）：從〈CITRUS〉到〈キュートなカノジョ〉，CeVIO的十年沉潛

　　＊和上一篇一樣，長文注意。

　　＊「背後的故事－虛擬歌手的技術」這一節，可能有一點閱讀難度

　　＊系列連結：虛擬歌手雜談（零）（簡介）、虛擬歌手雜談（一）（寫給老Vocaloid歌迷的）

　　## 前言

　　卻說我上次那篇虛擬歌手雜談（一），其實主要還是圍繞在NPSS的貢獻。但事實上，這並不是一個十分準確的說法。那可能帶有一些敘事陷阱，讓人認為這個題目就只有Bonada等人在做，但事實並非如此。而這點在這一篇文章，也就是這系列雜談的第二篇裡面，會有具體的描述。

　　不過在這邊，我還是得要為自己辯駁一下──我在兩個月前，決定寫虛擬歌手背後，隱藏的歌聲合成的故事時，心裡想的是把一個「故事」講好。既然是故事，自然要有個主角，而內容則會圍繞這主角而行。我憑個人喜好，認為NPSS在歌聲合成的領域上，具有決定性的意義，而選了NPSS作為第一篇文章的主角，一切只是如此。

　　好了，鋪陳就到這邊。就像前一篇文章我以自己在2017年的所見所聞來鋪墊，在這邊我刻意提這主角配角之論，敘事陷阱之說，也算有其意義。今天我要聊的，就是關於CeVIO，一個曾經被淹沒的配角，一個令人驚嘆的成功。

　　## CeVIO

　　時間推回……不，跟上次不一樣，這次不必回推太久，只要回到2020年初就好，即兩年前。如果在那時做個調查，問有聽虛擬歌手的人，「你是否聽說過CeVIO這個歌聲合成軟體」或「你是否聽過CeVIO的虛擬歌手唱的歌」，得到的答案，想必十之八九是否定的吧。「那是啥？」「我只聽過V家跟U家」，不需要回到過去，光從數據面來看，便很容易猜出這樣的結果。

　　噢，話說回來，以防大家不知道，簡單說一下，CeVIO [1] 是一個歌聲合成軟體，由Techno-Speech公司 [2] 開發，在2013年推出。

　　至於數據面？這麼說吧，時序邁入2020年的那一刻，CeVIO所有虛擬歌手唱的歌當中，達到一百萬點閱的歌曲（傳說曲）僅有一首，即Orangestar的〈CITRUS〉[3]。考慮到〈CITRUS〉這首歌是由Vocaloid的歌手IA與CeVIO的歌手ONE合唱，這一榮譽還得分一半給IA。從這情形看來，CeVIO在當初的知名度之低，可見一斑。

　　當然，按照萌娘百科的紀錄 [4]，我們知道在幾天後，ナナホシ管弦楽団的〈おねがいダーリン〉[5] 也將達到百萬點閱，但那也僅是第二首歌而已。

　　## CeVIO << Vocaloid ???

　　好吧，如此看來，CeVIO必是一個很不堪的歌聲合成軟體吧，至少要遠差於Vocaloid，否則如何能解釋這情況！但事實真是如此嗎？這邊我推薦大家去聽一遍〈CITRUS〉，看看在這歌曲當中，究竟ONE跟IA的歌聲究竟如何。以我自己聽來（那首歌我自己也聽過幾十遍了吧），兩個人的表現真是相去不遠。也許ONE歌聲的表現力稍微差了一點，但她不只可以歌唱，又可講話，歌曲中還秀了一段獨白。整體來說，我絕不認為兩個軟體之間的差距有這麼懸殊。

　　但現實是殘酷的，幾年前我自己曾搜尋過其他CeVIO歌手演唱的歌曲，卻沒有一首真的稱得上有名。從CeVIO引擎推出的2013年，一路到2019年，或甚至是2020年，在虛擬歌手的漫長歷史中，人來人往，潮起潮落，「CeVIO」這個名詞卻總是被寫在最不起眼的角落，不曾被真正注意到。

　　## 轉機：CeVIO AI、可不

　　風風雨雨的2020年過去。2021年1月29日，一個CeVIO的後繼者，被稱做CeVIO AI的歌聲編輯器，踏上了虛擬歌手這個舞台 [6]。然而，那絕對不是一個萬眾矚目的產品。即使是那個時候，許多人仍然對CeVIO感到陌生，更遑論這被冠上了「AI」一詞的後繼者了。

　　好吧，一切好像就到此為止了。一個沒沒無聞的軟體，冠上了AI稱號，歌聲合成的方式也算是脫胎換骨了，卻依然擺脫不了沒沒無聞的本質……嗎？

　　大概是2021年7月左右，忽然間，好像從一個什麼都沒有的虛空，蹦出了一堆CeVIO AI的歌手「可不」[7] 唱的歌 [8], [9]。到2021年11月，即我寫第一篇虛擬歌手雜談的時候，不管是在niconico還是Youtube，可不的聲勢，簡直已經凌駕在傳統Vocaloid歌手之上了。

　　只花了不到一年的時間，形勢就這樣翻轉。論名曲的點閱數，若限制在2021年投稿的範圍內，可不一人竟幾乎能與整個Vocaloid圈相抗衡。走過了沒沒無聞的八年的CeVIO，知名度也跟著水漲船高。

　　## 背後的故事

　　在講下去之前，還是要先打個預防針。前面那一段的描述，或許讓人有種鬥蟲民的感覺，但這部分我必須要說，那絕對不是我的本意。我不想爭V家還是C家比較好，也沒有要捧一個踩一個的意思。事實上，我自己現在也有聽新的V家歌曲，也不覺得那些歌就很爛。只是在這裡我想講述的，是關於CeVIO在這短暫的一年以內，究竟如何進到人們的眼球，取得成功而已。

當然，這絕非偶然，也不是一朝一夕就發生的事情。這故事有兩條線可以講，第一條是虛擬歌手的技術，第二條是可不。

　　### 虛擬歌手的技術

　　就像Yamaha在開發Vocaloid時，是與西班牙Voctro Labs合作（參見我虛擬歌手雜談的第一篇 [10]），CeVIO的開發（當然也包括CeVIO AI），背後也有跟學術界合作。事實上，這個開發CeVIO的Techno-Speech公司，就是從名古屋工業大學的「徳田・南角・橋本研究室」[11] spin-off出來的公司。當然，兩者之間的合作也十分密切。

　　至於這個「徳田・南角・橋本研究室」的主要研究內容，正是開發語音、歌聲合成的相關技術。領導實驗室的徳田恵一教授（以下稱作Tokuda） [12]，早在上個世紀末就開始研發相關的技術，同時擁有IEEE Fellow與ISCA Fellow的身分。從相關研究的資歷來看，他就和Jordi Bonada一樣，做這方面研究已做了至少二十年之久。不過早期Tokuda做的是語音的合成，而不像Bonada一樣（和Yamaha合作）做歌聲合成，這是一大差異。

　　Tokuda早期的研究方法，乃是以hidden Markov model（隱藏式馬可夫模型、HMM）[13] 的方式達到語音或歌聲的合成。相關的研究結果被Techno-Speech公司商業化，成為了CeVIO軟體的核心。

　　由於這篇文章的寫作方向，並非面向有專業知識的讀者，所以我不會具體談HMM的細節。如果讀者對此有興趣，可參考台大李琳山教授「數位語音處理概論」課程的投影片 [14]。李琳山教授乃是台灣語音處理的大師，中文語音辨識的先驅，同樣身兼IEEE Fellow與ISCA Fellow，亦是中研院院士，他的投影片或教學影片，值得有興趣的讀者一看。

　　總之，2013年的CeVIO軟體，主要採用的就是HMM的方法。這個方法可以大幅降低模型的大小，且還有其他額外的好處，但如果單論合成歌聲的品質、表現力，它並沒有比Vocaloid使用的concatenative-based方法（也就是把事先錄好的歌聲進行重組、調整，進而合成目標歌聲的方法）還要好。事實上，HMM合成的歌聲最被詬病的一點，正是缺乏表現力。因為模型可能沒有能力完全模仿一個歌手的聲音，而造成所謂over-smoothing的狀況 [15]。

　　這個狀況可以用以下的例子解釋：假設一個人有兩種聲音，快樂與悲傷。但模型卻太過簡單，只能記錄一種聲音的特徵，那麼模型所學到的歌聲，就會介於快樂與悲傷之間，既不快樂，又不悲傷，自然就失去了表達力。

　　時間快轉來到2016年，深度學習的技術，逐漸被應用到各個領域上面，並取得了許多成功。那年的Interspeech 2016會議上，Tokuda實驗室發表了一個新的想法。他們訓練了一個深度神經網路（Deep Neural Networks, DNN），並用它取代了一大部份的HMM（當然也在一定程度上，緩解了over-smoothing的問題），打造了可能是史上第一個引入了NN的歌聲合成模型 [16]，論文名稱如下：

　　M. Nishimura, K.Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Singing voice synthesis based on deep neural networks,” in Proceedings of Interspeech 2016, pp. 2478–2482, 2016.

　　等等，先停一下。說到這裡，各位可能有些疑問，因為就在上一篇虛擬歌手的雜談 [10] 當中，我就提到了NPSS的劃時代的意義，它使用NN的方式訓練歌聲合成模型，啟發了後來的人們……欸，但NPSS是Interspeech 2017啊，這篇論文豈不是正好早了一年嗎？

　　完全沒錯。問題是，Nishimura這篇（注意這篇的第一作者是Nishimura，而Tokuda則是掛在作者的最後一位。因此我接下來會用「Nishimura這篇」指稱），並沒有完全使用NN。當時Nishimura的這個DNN模型，雖然可以預測出不錯的結果，但或許是因為，它沒辦法很好地處理時間序列上的關聯（而事實上這點就是HMM的長處之一），所以還是得與傳統的HMM方法結合在一起，各取所長，才能在歌聲合成的效果上，取得進步。相對地，NPSS所使用的NN則有辦法處理這一問題，而不必借助於HMM的技術。

　　也就是說，以我們五年後的後見之明，Nishimura這篇論文所描述的方法，只是一個過渡性的手段，是從傳統HMM過渡到深度學習的一大步。

　　但時間已經開始轉動，一切已經埋下了伏筆。

　　2018年底，一篇Techno-Speech的文章 [17] 吸引了我的注意。運用更新而更好的歌聲合成技術，Techno-Speech公布了一些demo音檔，其歌聲的真實度與表現力，均遠遠超過了他們過去的模型。這邊我推薦大家去聽聽看〈爱情转移〉與〈Rolling In The Deep〉這兩首。

　　從現在的角度，去評價這首〈爱情转移〉翻唱的自然程度，只怕大家會覺得「唉，也不過爾爾嘛」。但回到2018年底，那真的是令我十分震撼的。那年年底，SynthV剛剛公開，Vocaloid的時代依然屹立不搖，而NPSS的成功還沒被引入Vocaloid（Vocaloid AI是2019年才出來的，詳見我上一篇雜談 [10]）。如果要我評比，我會說Techno-Speech的demo，是超越其他軟體（注意，不是論文，因為論文實作成軟體需要時間）一年以上的。需要等到NEUTRINO或SynthV AI推出（都是2020年），才有辦法打平這個demo的成果。

　　更進一步，2019年4月16日，Youtube頻道「藤本健」投稿了號稱「世界上第一首AI合成的CD」（AI歌声合成による世界初のCDリリース）的其中一首歌〈いつかかならず〉[18]，由さとうささら與IA演唱。聽到這首歌的時候，比起震撼，我甚至有一點感動。對啊，即使需要走過多少年，即使是多麼困難的目標，總有一天，那一天，一定會來臨的，對吧。

　　「いつかキミに届く日が（deep deep learning）

　　来ると信じていて（keep keep going）

　　たとえ何年もかかっても（shape my future）

　　必ずその時が来るよ（day by day）

　　私の声を感じて（deep deep learning）

　　私の歌ううた（keep keep going）

　　誰にも負けない　代われない　キミにつたわるはずだよ」

　　──多田彰文〈いつかかならず〉

　　話雖如此，這邊還是有桶冷水，非得潑下去不可。事實上，這首歌並不是全自動讓機器合成的，而是有經過後續專家的修正、調整。但是，那並不影響一個事實──構成CeVIO AI雛形所需的技術的盡頭，已經能夠被看見了。具體從技術上來說，他們新的方法讓NN可以應付時間序列上的關聯性，且效果更好，遠遠超出了2016年他們自己論文的效果 [19]。

　　後續，當然Tokuda實驗室還有繼續作研究，繼續投稿論文，繼續推出更好的歌聲合成方法。我不知道最後用在CeVIO AI上的技術，具體是來自於哪一篇論文，但那或許也不重要。重要的是，2018年底的那一刻，或在那之前，質的轉變已經發生了。

　　### 可不

　　雖然講了這麼多技術的事情，但一個軟體，或一個虛擬歌手能不能夠吸引人們的注意力，並不只是技術夠好即可，否則CeVIO與Vocaloid在2019年以前的人氣差距，就不會是如此一面倒了。

　　雖然我個人比較願意講技術面的革新，而不想討論這些，但我也不得不承認，CeVIO AI或可不的成功，絕對不只是因為合出來的人聲足夠真實而已。事實上，Vocaloid的爆紅，本來也就不是Vocaloid有多麼真實，而是初音未來帶起的一波旋風。這點甚至連Bonada自己也承認了（笑）[20]。

　　可不，一個由花譜 [21] 作為聲音提供者的虛擬歌手，其成功與花譜的知名度絕對脫不了關係。花譜，一個被稱作Vsinger的人物（注意這個Vsinger不能跟Vocaloid搞混。花譜是一個真人，不是虛擬歌手），神椿studio（KAMITSUBAKI STUDIO）[22] 所屬，自從2018年10月出道至今，Youtube頻道已有63萬訂閱（回溯到2021年7月可不正式發售的時間點，大概也已破50萬訂閱了）。憑藉著自己獨特的歌聲，優秀的唱功，與神椿所屬的眾多知名創作者的協助（包含カンザキイオリ、Guiano等許多早已打響名號的P主），至今已發行多張專輯，舉辦多場演唱會，取得巨大的成功。事實上，筆者身邊就有認識不少觀測者（花譜的粉絲的稱呼），這點讓我十分驚訝。

　　（附帶一提，據說此人最近才剛滿18歲。若真是如此，那她所取得的成就，更是令人驚嘆。想想我18歲的時候到底做了什麼……）

　　總之，這樣一位在網路上著名的人物，將被作成CeVIO AI的聲庫，自是未演先轟動。2020年底左右，神椿方面對觀眾作了一個調查，他們提出三個可能的「可不」的聲線給大家票選。雖然最後他們按花譜本人的意願，選擇了沒有獲得最高票的聲線，但從當時參與投票的人數之多，可看出可不已初步打開了知名度。

　　其後，在聲庫正式發售前，眾多有名的P主被邀請去創作了可不的歌曲。傑出的一手！這種demo曲充分讓虛擬歌手得到了曝光度，將可不與CeVIO AI優秀的表現力展現給了大眾，當然也包括許多P主。最後，再加上花譜身為Vsinger的一大好處──她可以翻唱可不的歌曲，甚至與可不合唱──的推波助瀾之下，嘩！一年下來，在niconico上已有了三首傳說曲 [8], [9], [23]。忽然間世界就翻轉了。

　　但你要說這是偶然嗎？或者只是炒熱度？我的想法自然是否定的。無論是前面所提到的技術進步，或是花譜個人的成就、神椿的推波助瀾，那可不是隨便一個人，一個計劃可以達到的成功。

　　## 小結

　　從2015年的〈CITRUS〉到2021年的〈キュートなカノジョ〉，或甚至回推到2009年12月25日，當名古屋工業大學的歌聲合成demo網站「Sinsy」[24] 正式上線的時刻（即CeVIO的前身），那已是長達12年的漫長歲月。當Sinsy正式上線的時候，或CeVIO正式推出的時候，看著這一切的Tokuda，會料想要很久很久以後，CeVIO AI將會取得這樣的成功嗎？

　　我想他或許不會太過在意吧，甚至連對那些未來的想法，都不曾思考過。那與學術無關。更何況在學術層面上，Tokuda早已收穫了無數的榮譽。只是，就像Bonada的團隊在毫不知情的情況下，回過頭來，竟然發現自己所創造出的，並不只是一個普通的歌聲合成器，還包括那綿延了一整個世代，或甚至二個世代的Vocaloid文化──很久很久以後，當這些CeVIO AI的推手回頭一看，或許也會發現，其實自己所孕育出的，真的不只是一個優秀的歌聲合成軟體而已。

　　CeVIO AI的歷史還短。如果讓我以自己的期待作為結論，我會說，我不希望CeVIO AI取代Vocaloid，但我確實希望親眼看著，CeVIO AI的出現，究竟會為世界，尤其是這些虛擬歌手的音樂，帶來怎樣的改變。與Vocaloid橫空出世的2007年相比，2021年的世界，充滿了以前不能想像的事物。誰會知道，未來究竟會變得如何呢？

　　當然，我也期待「音楽的同位体」可不，究竟會為這虛擬與現實逐漸交融的世界，帶來怎樣的影響。

　　## 歌曲推薦

　　（考慮到本文描寫的內容，本篇主要會以CeVIO AI的歌為主）

　　格式：影片上傳者feat. 虛擬歌手 (歌聲合成引擎)〈歌曲名稱〉,引擎發布年份/虛擬歌手發布年份/歌曲發布年份

　　一二三 feat. 可不（CeVIO AI）〈ただいま、貴方〉, 2021/2021/2021

　　https://www.youtube.com/watch?v=I67QVyKnbmM

　　個人評論：我喜歡這首歌音高的調整方法。

　　Guiano feat. 可不（CeVIO AI）〈いつもシミュレーション〉, 2021/2021/2021

　　https://www.youtube.com/watch?v=89-WoW9R7Fs

　　個人評論：我喜歡這種合唱的感覺。真人跟虛擬歌手之間的合聲，我只能說非常舒服，令我一聽再聽。

　　傘村トータ feat. 可不（CeVIO AI）〈ちゃんとあるよ〉, 2021/2021/2021

　　https://www.youtube.com/watch?v=h5amxhRgsRQ

　　個人評論：表現力很強。比起自然度，這首選擇了表現力。就結果而言，我相信是優秀的。

　　芳田 feat. 初音ミク（Vocaloid）〈スパイラル・デイズ」〉, NA/NA/2020

　　https://www.youtube.com/watch?v=LI386NjCiK0

　　個人評論：hmm，很難相信這是初音能唱出的歌聲。我不知道這是V4還是V5引擎，所以無法給引擎發布年份，但說真的，不管是怎樣，這都很值得一聽。歌曲本身讓我有種夢迴2010年代前半的感覺。

　　Chinozo feat. 可不（CeVIO AI）〈エリート〉, 2021/2021/2021

　　https://www.youtube.com/watch?v=YznQjwMjDKw

　　個人評論：我可以說這首純粹是我的個人喜好嗎？這首真的太洗腦了啦！而且我超喜歡「常識は守って暮らせよハッハ」這句，哈哈。

　　##參考資料

　　[1] https://cevio.jp/

　　[2] https://www.techno-speech.com/

　　[3] https://www.nicovideo.jp/watch/sm25950409

　　[4] https://zh.moegirl.org.cn/CeVIO%E4%BC%A0%E8%AF%B4%E6%9B%B2

　　[5] https://www.nicovideo.jp/watch/sm26099756

　　[6] https://cevio.jp/products_cevio_ai/

　　[7] https://kaf-u.kamitsubaki.jp/

　　[8] https://www.nicovideo.jp/watch/sm38300091

　　[9] https://www.nicovideo.jp/watch/sm38833751

　　[10] https://home.gamer.com.tw/creationDetail.php?sn=5315806

　　[11] https://www.sp.nitech.ac.jp/

　　[12] https://ja.wikipedia.org/wiki/徳田恵一

　　[13] L. Rabiner and B. Juang, “An introduction to hidden Markov models,” IEEE ASSP Magazine, vol. 3, no. 1, 1986.

　　[14] https://speech.ee.ntu.edu.tw/DSP2021Autumn/

　　[15] M. Blaauw and J. Bonada, “A neural parametric singing synthesizer modeling timbre and expressionfrom natural songs,” Applied Sciences, vol. 7, no. 12, 2017.

　　[16] M. Nishimura, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Singing voice synthesis basedon deep neural networks,” in Proceedings of Interspeech 2016, pp. 2478–2482, 2016.

　　[17] https://www.techno-speech.com/news-20181214a-en

　　[18] https://www.youtube.com/watch?v=xRknlXIHkmI

　　[19] K. Nakamura, K. Hashimoto, K. Oura, Y. Nankaku, K. Tokuda, “Singing voice synthesis based onconvolutional neural networks,” arXiv:1904.06868 [eess.AS], 2019.

　　[20] https://www.youtube.com/watch?v=ie5CJW8DeaY

　　[21] https://kamitsubaki.jp/artist/kaf/

　　[22] http://kamitsubaki.jp/

　　[23] https://www.nicovideo.jp/watch/sm39217773

　　[24] https://www.sinsy.jp/

　　## 一點點後記

　　剛剛把第一個版本傳上巴哈，總覺得還想說些什麼。嘛，文章真的很長，長得遠遠超乎我本來的想像。我本來只想寫三千字（這是我覺得比較舒服的文章長度），最後卻寫到五千多字。本來只想講CeVIO AI－可不這條線，結果把許多事情扯了進來。

　　不過，這裡面的一些事情，真是勾起了我不少回憶就是了。2018年底那個Techno-speech的文章，我真的是在2018年結束之前就看到了。當下我真的很震撼，也很期待那個demo背後的歌聲合成模型，正式被搭載到軟體上。某種意義上，那篇文章，和隨後的〈いつかかならず〉真的讓我有很深的感受。現在回想，那或許也改變了之後我的人生。

　　很高興CeVIO AI最後發售了，而且可不的成功讓人們看見了它。故事還沒結束，一切都在繼續，但我已經十分滿意。不過，這些人們的目標，所描繪的未來，肯定不像我一樣那麼簡單就被滿足吧。

　　btw，我真的很喜歡這篇列的五首歌曲。去年11、12月的時候，這些歌真的伴我走過了一段很艱苦的時光（也因此我直到兩個月後才發布了雜談的第二篇）。其中可不的那幾首，那真的是只有可不才能唱出來的。

　　york 2022.01.25

LINE 分享

留言

2023-04-16 23:23土衛六：
得找個時間拜讀一下您的《虛擬歌手雜談／歌曲推薦》系列文，您似乎對這方面很有研究（！）
其實從一開始掃過您的文章就準備問，結果自己歪樓了。
因為，一般等級的V家廚不會、或者沒有基礎知識追本溯源至斯，甚至嚴謹到引經據典。
正如幾天前，在下用半開玩笑語氣說的：當年我們都只是追著nico榜單、挖著隱沒良曲、偶爾做點翻譯。
以為再怎麼追求神調教的P主，也僅是研讀軟體使用技巧罷了。

事實上那句迷因式的玩笑，正是因為對在下而言，這很沉重。縱然想寫，也寫不出這等文章。
好似一介紙上談兵的歷史愛好者，遇到司馬遷或希羅多得本人那樣。
不知您當初、以至於現在是否會原諒、甚至賜教。
但（發現您頗親切之後）還是好奇想問。哪怕剩下的人生不會用到。

您是理工科系的嗎？或者英文能力很好？
是如何找到這些學習管道？又為何會想探究呢？

雜談：CeVIO角色中，其實個人反而較不喜歡可不的聲線。
儘管他的中之人（花譜），的確強到讓我們有「18歲的時候在做什麼」之嘆，
但以虛擬歌手而言，居然是他紅到帶起風潮，而非さとうささら或小春六花，甚至不是已有Vocaloid受眾和資本的IA和結月緣！
當然在下沒資格評判這樣不好，但仍有點不可置信。

事實上，在下還私藏了一首CeVIO黃咲愛里的隱沒良曲：〈月の交点と彼女の海〉。
https://www.nicovideo.jp/watch/sm26341132
不巧，寫在一個（以知名度而言）確實CeVIO << Vocaloid的年代，憾哉。
儘管歌詞不算難，當年還是只翻譯了說明文。是不是又對不起一位創作者了……
當年Color Voice系列聲庫的幾個角色，設定都算完備，如今卻沒進一步發展……抑或只是在下還沒認真搜尋，或者時機未到罷了。
2023-04-17 00:40york：唔，我稍微能透露一下的是，對我來說，以科普來說，我覺得我這些寫得還不夠好，還不夠水準（所以才會停下來，想說等我的學識更好的時候再繼續寫，一停就是停一年了。期間我也算是有一點長進，回想這一系列，甚至有點黑歷史的感覺了）

然後我的學習管道算是讀論文+查網頁。但對我來說讀論文反而更簡單，麻煩的是不能只讀論文。有很多虛擬歌手真正重要的東西，都不是論文裡面可以看出來的。
一個例子是，孕育SynthV的Kanru Hua大大（也是SynthV的公司的老闆），其實他的論文寫得只是普普通通（這個我不怕在這邊講。本來去年預計下一篇就是講SynthV，所以遲早我會說出這個論點），但他跟SynthV系列的成就，大家是有目共睹。

然後當初CeVIO << Vocaloid，這個真的是沒辦法......當時以合成效果而言，C家也沒有遠超過V家，所以C家的創作者就相對弱勢很多，要說的話可能就跟Utau差不多，這就比較遺憾一點...
現在就真的是百家爭鳴了。從2023年的時間點看來，現在SynthV AI, CeVIO AI風潮都有起來，很有趣。
2023-04-17 00:47york：啊，然後就是，在我看來可不帶起風潮，以馬後炮來說，倒是有點理所當然
純虛擬歌手，已經不太可能再有人掀起跟初音一樣的風潮了。要引起風潮，終究需要其他的因素，譬如花譜本人的名氣，還有神椿那些創作者的推波助瀾等等...

btw，像是小春六花最近的名氣，有一點搞不好還是《孤獨搖滾》帶起來的...因為小春六花的中之人就是配這部動畫的主角「ぼっちちゃん」的聲優，所以會出現不少這種創作：
https://www.youtube.com/watch?v=MKM1cKzfNjA
這也算不太上是小春六花「本身」的影響...
2023-04-17 16:11土衛六：
1.小弟這邊也是超長文。
2.而且是半廢文。剛稍加詳細理清您第零集的論述，若有能力在那邊打一篇argue其實會營養得多
只是這篇先打完，所以先貼（畢竟自己手指暫時負荷不起更多長文了）。

首先，請您莫要覺得自己寫得不夠有水準！

1.這是網路啊。若寫得再細膩專業一點，您直接投稿學術期刊、或最少科普期刊不就更好？（還是您本就是學術期刊常客？）
因為若您足以評判同領域的論文優劣時，大概已經接近第一線研究了。
反過來說，全專業論文放在論壇，要面對字數過多、業餘和外行人看不懂等問題。還沒有稿費。
想想，您的文章可說已跨足到基礎性研究了，又是偏理工的領域。音樂、文學或藝術專家（aka名P主）可不見得能夠、或願意跨行學到這麼深入。
儘管有了跨行的專業與扎實的基礎研究，對創作仍有助益，可大部分的創作者，光實戰技能（操作現買的軟體、經營社群等）就夠學一輩子了。
好比一名水電工，可能不必學到大學等級的電磁學或流體力學，尤其是基礎性研究。在工地能應變突發狀況等技能會更實用。

2.讀論文也有智商和耐心的門檻，大大可能超過太多，所以這門檻矮到可以無視。
像如果在下要讀論文，就會面對沒上過大學（因此對研究方法的瞭解不夠嚴謹）、不擅長向人學習和筆記（沒有一步一步親自示範甚至模仿不來）、某些論文被著作權部分或完全遮蔽（需要付費或徵得同意才可能解鎖）、還沒學會任何一種程式語言（現代人必備的第二外語）、英文幾乎比日文還差、對於抽象名詞往往過目即忘……等等。

3.「有很多虛擬歌手真正重要的東西，都不是論文裡面可以看出來的。」您這句寫得挺玄妙。
在下（作為聽眾）的理解，是像V家史（歷史）、創作者與翻唱者履歷（歷史/心理學）、詞（文學/哲學）、曲（音樂）、圖（藝術）、動畫（軟體操作）、角色形象與行銷（經濟）、社群經營（管理/心理）、多媒體合作（剛剛才破完はるまきごはん世界觀的手遊XD）等東西。
喔，還有主觀的好惡（各種文藝批評學），儘管某種意義上是最容易的。反正總有好運人，在網路發些淺薄乃至無理之論，卻不妨礙其名聲（ry

雖然直覺列舉的領域已經極多，但感覺還是有疏漏。似乎就是對您來說「反而比較簡單」的、在下近乎一無所知的數理工那部分。基礎研究那部分。
可仍不敢確定您是不是這個意思。或者您早已想到更meta的層次了？
仰之彌高、鑽之彌堅。望您能詳加解說。
2023-04-17 17:12york：1.沒有啦，我是覺得自己寫得太複雜。沒有把事情講更清楚，也沒有講到實務的情況（像我就從來沒用過CeVIO系列的軟體）這個就比較遺憾一點。

2.這個確實沒錯。著作權那個很麻煩。可能圖書館之類的地方可以拿到，大概。再不行就要跑大學，大學通常會有訂這些期刊。

3.你說的沒錯。這些內容很容易被研究者忽略，當然也幾乎不會出現在學術論文上面。我之前倒是有讀過特別討論初音的論文，但那個應該是少數。

另外有一點其實非常容易被忽略：一篇論文的好壞，跟論文裡面實作的系統到底有多實用，不一定100%相關。看論文的好壞，還需考慮論文裡面有提出什麼新的想法、新的洞見等等（這些可以啟發其他的研究者，就像讀一本好書一樣！），而這些跟系統（e.g., 歌聲合成模型）的實用性不一定有關。
2023-04-17 16:26土衛六：
其次，您提到「當時以合成效果而言，C家也沒有遠超過V家」。是沒錯，但至今似乎也沒有到那種地步。
況且C家比下有餘，即使剛出來時，同樣條件下（總不能用新手音樂人跟Cillia比吧）擬真度還是強過UTAU。
然而人家UTAU還有亞沙扛線，次有青谷、はるふり、4ma15等，外加Cillia（Kyaami）様的神調教翻唱。而專戰C家的名P……
CeVIO實力在前，卻名氣居後。可能U家先發優勢太顯著了吧。
在10年代後半以前，熱愛C家到堅持用其創作的P主，這裡不得不致上深深哀悼。

其三是您提到「純虛擬歌手，已經不太可能再有人掀起跟初音一樣的風潮了。」
想想Vocaloid正宗(?)也逃不掉這命數，初音風潮後五六年終須一變。10年代前半，靠V3大型系列曲＋外傳小說、動畫；10年代後半後靠唱見轉職詞曲、詞曲者更常現場演唱、多語化；20年代前半又開了大規模音遊《世界計畫》，以及Vtuber翻唱老歌。
以上三者也一度引發風潮，好比說第一次有陽炎廚、第二次有更多日本（至少東亞）以外的音樂人進場、第三次有手遊和Vtuber度過童年的孩子，接著他們才會問道「初音是誰」、「虛擬歌手是什麼」。
有些害怕的是，這些創意終有極限，就像人類注定無法親眼感受紫外線、或未經轉換就聽超音波頻段的樂器。
這圈子（其實在上個十年）已經把人類所能窮盡的文化藝術，幾乎都排列組合過了（如上文列舉的那些點，也許正是很多人喜歡V家的一個原因）。
「多媒體」不過如此。剩下的好像就是創造需求、廣告行銷爾。
畢竟到AI能自行塑造形象並包辦寫歌到銷售的那天，他們能欣賞紫外線PV，聽超音波音樂，血肉之軀能嗎？
也許到時會有人純粹為了解讀那種境界的藝術，輕易接受cyborg改也難說（苦笑）。
2023-04-17 17:15york：另外C家要錢U家不用這個也是個很大的因素。UTAU的免費讓很多人選擇它。我就認識一個人是因為免費才用UTAU的。

至於未來的事情，這個我倒是不知道，不過我很期待未來AI會帶來什麼新的改變www
2023-04-17 16:26土衛六：
題外話，這是曾和別人的真實對話：
『你都聽哪種類型的歌啊？』
「現在很少了，但幾年前主要是Vocaloid吧。」
『那個是什麼？』
「呃、簡而言之，你有聽過初音未來嗎？」
『喔，所以是動漫類的歌囉？』
「勉強算是（內心炸裂）」

不知大大是否有類似的經驗（笑）？在這個層面上，《世界計畫》可以說是佛心遊戲了；期盼下一代人，會因此無須面對這種尷尬。

大大若耐心讀到此，小弟再獻上C家祭品吧：さとうささら〈泣かないと約束するから〉
https://www.nicovideo.jp/watch/sm23722973
因為作者regulus様音樂造詣太一流，所以當時在下說明文＋歌詞翻譯包辦，可惜推不上去就是推不上去。
事實上正因這首歌，在下喜歡上さとうささら的聲線，並瞭解到C家調教完全可以不輸V家，即使在那麼早的年代（前文之可哀，在此盡顯）。
在此也感謝另一名翻譯君：swallow327，讓在下認識這位隱沒P主。
2023-04-17 17:22york：www你那個對話我深有所感。早期真的是這樣，現在也可能是這樣。所以我真的要講的話，多半會說「我聽虛擬歌手的歌」。至少望文生義，可以知道那是什麼東西（雖然我平常也不會到處宣揚就是了。我通常都只講說：我聽日文歌www）

聽完這首，我不禁感慨：14年那個時候用C家，真的是勇氣可嘉
光是標題掛【さとうささら】跟掛【初音ミク】，讓當時的人想點進去的機率，搞不好就差很多倍了......我自己到20年為止，真正記得的C家的歌，也就只有〈Citrus〉那首...而且還是因為創作者的緣故...
2023-04-17 23:00土衛六：
1.「看論文的好壞，還需考慮論文裡面有提出什麼新的想法、新的洞見等等」理解了，回想起以前國中教過。
意思是Kanru Hua大大寫的程式模型論文比較難開創衍生性、進一步的研究，但反正軟體好用就好了，對嗎（笑）

2.「寫得太複雜」……原本以為您說「還不夠水準」是指「還不夠精深」呢XD
雖然在下極少讀論文，至少還算常看〈科學人〉、〈國家地理〉、〈科學月刊〉那類雜誌，延緩和社會脫節的速度。
您的文章和科普雜誌上的比較，預估如下：
2-1.中段大學以上（不分科系）、或中學數理資優生程度，只要不是毫無興趣，還是可以一看就懂。
2-2.後段大學生、中學一般生、以及對虛擬歌手有相當程度的認識、但以前都專注在藝文層面的人（像小弟這種），微微偏難；
需要多讀幾遍、劃重點，才會讀懂。如果要拿來考試，就得做筆記。但還不到天書的程度。
2-3.知識和理解力在中段中學生以下者、全無理工背景者、幾乎或完全不認識何謂虛擬歌手者，那真的就頗生硬了。
不過和那種一頁就好幾條數學定理的文章相比，還是勉強好些。
（據說史蒂芬‧霍金寫〈時間簡史〉時，出版社告訴他「書裡每多加一條公式，讀者就會少一半」。結果整本書裡只有一條E = mc²。
以在下之見，科普文章每新增一個英文簡寫，讀者可能就會少一成。）
2-4.好啦說實在，若非是稍有了解（很擦邊的級別）的主題，您又不厭其煩願意談，大概一開始就會嚴厲地抱怨複雜了。
可這純粹是因為在下並非好學之人，錯不在您。

所以說，對於認真想學的人其實還好。這個等級的文章，儘管絕非親民，但也絕不算無法跨越的屏障。
惟有些尚未解釋清楚的名詞，可能要在以後的續集解釋清楚。
例如，單寫一篇表列式文章，逐條白話註釋HMM、Tacotron、FastSpeech這些模型架構，並用日常中的例子來類比等等。
雖說並非自己想學，卻去建議他人辛苦寫文章不甚負責；
但是個人認為，這樣做也許是最容易讓外行人（文組、藝術出身）進入狀況的方法之一。
2023-04-17 23:09土衛六：
3.「我就認識一個人是因為免費才用UTAU的。」很好，您現在認識兩個了（逃）

4.在下推的歌您能喜歡真是太感謝了。
因為在多數情況，在下的人際關係都是都是「想要的我卻不能夠給你我全部/我能給的卻又不是你想要擁有的」XD
何況在下知道的早期C家良曲應該就這兩首而已。如果用心找一下ONE和C家IA，頂多再翻出一兩曲吧。

相對而言，目前正在試聽您推的〈スパイラル・デイズ」〉。
因為作者－芳田大大很眼熟，果然是以前聽過的〈篝火のように〉作者無誤！多巧啊。
之前掃過一遍芳田樣的其他幾首歌，旋律都有中上以上的格調。惟在下喜愛悲歌勝過歡歌，所以當時沒太珍惜。
既然您推了其中一首，或許有其深意。拜受。

5.就新一代C家角色而言，在下只服小春六花。
私以為可不和星界聲線都有點太軟。就算拿紅牙拍板，唱「楊柳岸曉風殘月」都不太夠力。也可能沒什麼P主想要調成強氣聲線。
不過那首卸影椎大大cover的〈地球最後の告白を〉倒感覺平凡了。
可能因為這首神曲，在小弟心目中是永遠的V家第二，對曲子本身的期望高過頭了吧。
（好事去搜尋了可不cover的〈地球最後〉，果然沒有讓人期望。沒打錯字喔。）
若您有其他很推薦的小春原創曲，自由分享無妨。

6.相對的，您似乎還沒提到Gynoid。最近才認識的、這家公司推出的角色鳴花ヒメ・ミコト可受推薦，雖然有點冷門。
這裡獻祭兩首：〈梅〉和〈柳〉
https://www.youtube.com/watch?v=2B78FKpAZoE
https://www.youtube.com/watch?v=WOfKUxuKz8A
同一位韓國P主所寫，卻是日文；前者曲好、後者詞深。

真不好意思，您每次都願意詳加回覆呢。為了手指和心智的健康，幾天之內應不會打擾。頓首。
2023-04-18 16:19york：沒，我那時候推的只是純粹看調教（畢竟這就是我這篇文的主題），不看歌曲好不好，不一定有什麼深意XD
2023-04-18 16:20york：cover的歌，如果聽過原曲通常會覺得很平凡
不過單論那個歌聲的真實程度，就還是值得一提就是了
2023-04-19 00:15土衛六：
異議あり！
在下以為，縱然只看調教（限虛擬歌手、不得re-arrange、不得remix，再修正技術會隨年代進步、以及創作者手上的工具等級），仍至少有四種比較無可爭議、但cover超越原唱的情況：

（很多人認為講「超越原唱」什麼的很不禮貌。在此預警，路人若有不喜者，懇請迴避而非檢舉。）
2023-04-19 00:19土衛六：
2.原曲調教普通至中上，但運用的聲庫（角色）的聲線與人設，和其所演唱的詞曲不搭。
論說（諷刺）曲通常比較不在乎聲線，但敘事曲有時就得考量角色形象。抒情歌會有些更微妙難言的差異。

翻遍了珍藏的音樂，但還真沒什麼人犯過這樣的錯。（←見識鄙陋又不嚴格）
真要說的話，就是拿可不或星界的柔軟聲線，去唱エグい風格的狂氣快歌的那群人。
因為兩者都很不對胃口＋已經是在下淡出虛擬歌手圈的時代，所以連曲名都沒記。

或許還是太抽象了，這樣吧。
2023-04-19 00:19土衛六：
反例：指選調的角色非常切合該詞曲。
赤髮P的〈Leave〉、〈黒猫〉都用Gumi調。
因為Gumi的非官方設定就是不斷失戀的歹命人，所以讓她唱這種離別、單戀的歌曲完全契合。
はるまきごはん大寫的〈地球をあげる〉使用了LUMi。
其聲線很軟，但因為P主的專長就是用童稚、簡單的字詞，去暗指宏大深沉的事物。所以同樣合適。
（但得強調，其風格還是有一定的柔中帶剛。私以為很多cover之所以不如原唱，主因就是真把聲線、斷句調到有氣無力的程度。）

假設例：請想像以下歌曲的作者突然腦洞大開，選了個奇怪的角色來調教。
※假若〈余命3日少女〉、じん大的〈アヤノの幸福理論〉是用Kaito調？
這兩者歌都是女性第一人稱視角，翻唱其實還好說，但若原曲就用男性聲線，請想像多不協調。
※假若はるまきごはん大的〈地球をあげる〉、〈みかげ日記〉是用Kaito或巡音調？
這兩首曲子都是偏柔和的。〈みかげ日記〉的歌詞甚至不斷強調主角多麼弱小無用。
若讓強氣角色來唱這些歌，內心獨白的氣氛就直接打折。
※試想まふまふ的〈戯曲とデフォルメ都市〉和ヒツジ〈冥海の電車〉用結月緣調？
這兩首高音都超高，前者節奏還極快。這都不是結月的強項（結月唱高音而能聽的歌，小弟只知一首隱沒良曲而已）。
※試想卯花ロク大的〈暇潰し、だれかの命〉和〈ピエロ様、ご覧よ無様〉用IA調？
這兩首都是身為校園霸凌者、第一人稱視角的歌曲。
可在小弟心目中（非但是非官方設定，還是個人主觀設定。雖然有憑據就是了），IA總是個尋求理想和正義的中二少女。（母公司：）
若您能認同這樣的IA形象，那麼唱受害者視角的〈雁首、揃えてご機嫌よう〉或許勉強可以，但要一個善良角色去詮釋惡人，難免不搭。
※Deco大的〈愛言葉〉系列都寫到IV了，他能用新一代的角色形象（可不、星界、Saki、Fukase等）來闡述自己對虛擬歌手的愛嗎？
顯然只能選擇元老級、代表性的角色。那答案就呼之欲出了。
※傘村大的〈贖罪〉等歌，其多人合唱和對位法為整首歌增色不少。
儘管詞曲完全沒有禁止單人唱的意思，問題是伴奏已經夠樸素了。一旦連聲線都單薄，整首歌勢必失色許多。

這段礙於見識、且日久而生疏，寫得頗為複雜和沒信心，還望大大理解和諒解。
2023-04-19 00:23土衛六：
3.原曲沒有犯以上兩種錯誤，但cover版提出了一個新的歌曲詮釋方式。

雖說在禁止改動其他部分的情況下，這是極困難的；但剛巧最近有個好例子：
用U家（カゼヒキ）調的〈それがあなたの幸せとしても〉。
推cover作者Pei大，以一介台灣創作者算很狂了。

因為從原曲發佈開始，在下就直覺認定這就是一首感情極其強烈的歌，需要很堅實、強悍、甚至帶著嘶吼的聲線才是最佳解。
韓國真人歌手Raon的翻唱版，可以說把這一點拉到極致了。
https://www.youtube.com/watch?v=kxMksegLczs
其實巡音原有那個潛能，但在1.那邊說過了。原作（ry

然而Pei大竟然用虛擬歌手界最沙啞最朦朧的聲線之一，角色官方設定甚至就是病弱！
所以聽到前幾個字，原本心涼了一半；但越聽越覺得，這不就是另一種詮釋嗎？
這難道不也凸顯歌者是發自內心的祈使嗎？其實和激動派是殊途同歸。而這種詮釋角度，沒聽過其他已知的cover這樣做。

一言以蔽之：「打破框架、打破常識、創意可嘉」。

4.cover者真的就是怪物，period。
在下只想到kyaami大神，但此例再妥當不過了。
考慮到他以西方人的標準，算很早入坑；而且很多時候，他用的是U家。接著把U家調到超越大多數同時代V家、C家，甚至一票真人的水準。
好似一名現代都市人，去山裡親手打獵、採野菜、鑽木取火、砍竹木為支架，吊上自己拉胚燒製的瓦釜烹煮，結果卻比連鎖火鍋店更好吃一樣。狂。

喔對，芳田大的調教實力大概也都有中上啊XD所以才覺得您選擇有深意。
2023-04-27 15:42york：沒，老實說，我真的沒什麼深意。當時（21年11月）我的狀況是這樣的：我當時還算是有半個腦袋停在以前Vocaloid的時代，忽然感覺到這個世界上出了一大堆神調教，基本上就是劉姥姥進大觀園那種感覺。
那之前我已經有一小段時間沒聽虛擬歌手的新歌，大概一年左右吧。所以一聽到這些歌，每一首都驚為天人，每一首都好想推薦，好想讓大家知道，現在虛擬歌手這邊竟然有這麼多新的東西，就是這個狀態XD 也因此才會有這一系列的文章。
因此這些推薦的歌曲，純粹也只是我自己以粉絲的角度去選的，並沒有什麼很嚴謹的評比，也沒有想很多。如果你也覺得好聽那當然很好，不好聽的話就當作踩到雷了吧XD

所以我也很歡迎你在這邊推薦歌曲XD
2023-04-28 21:44土衛六：
喔喔，感謝您花了這麼長時間仍耐心回覆我。看來又不得不打篇長文（住手

其實您一年沒聽新歌算短的啦。在下其實2016-2018就慢慢淡出了。大概到2020年後幾乎就沒聽了（沒聽「幾乎所有類型的音樂」！偶爾複習老歌罷了），直到幾個月前。
儘管仍有不錯的曲子，但大多是10年代就認識的P主寫的。
私以為，這幾年重新席捲風潮，手遊帶動的下一代真的功不可沒啊。（當然，您提到的C家、Synth V彎道超車（？）興許也是原因；您讓我長知識了。）
感覺上，20年後的曲子如果純論數量，可能已經與之前十幾年的總和不相上下了。沒辦法細細品評優劣，因此在我的yt頻道乾脆全丟一個播放清單（苦笑）。

雖有少許例外，但新歌、特別是調教，反倒沒有讓我覺得特別驚為天人。可能新一代C家的聲線都太柔了，或者我日文退步太多，或者跟不上時代了（哭）

您知道的，光學過日文，就可以大略分出調教好不好。至少到10年代中的曲子有效。
剛開始入坑時還不會日文，調教再不自然也分不太出來；可聽慣真人講日文（含動畫配音）、多聽翻唱（無論真人或軟體）還有自己試唱，基本的高下就清楚了。

話說回來，虛擬歌手最早的那幾年，那時的神調、良調，多是溢美之詞爾。大概沒幾個日文母語者，會真心期待車欠骨豐唱得比真人動聽吧。
那年代眾人注重的，主要還是填補真人物理上的缺陷（太快、太高、太長的歌曲），還有不入J-pop大雅之堂的作品（長篇敘事、搞笑歌）。
到了2010年代中，真‧神調教才算普遍了些，當然還是以車欠骨豐的標準而言。對於非日文母語者來說已經幾無異於真人了，但母語者仍可能聽出些許差距。
到20年代，ベタ打ち大概已經相當於十幾年前的良調、甚至神調了，而大神（應該）已能達到無法分辨真假的境界。V2的天花板，竟成V4、V5的地板了。

結果反而是在虛擬歌手圈打滾太久的人分得清楚：我們聽了十幾年，還認不出初音的聲線嗎XD

小屋創作

日誌2022-01-25 00:32
【雜談】虛擬歌手雜談／歌曲推薦（二）：CeVIO的十年沉潛

相關創作

【可不・ゲキヤク】天使の翼。【中、日、羅歌詞】

V.I.P-機械の声歌詞中文翻譯

【可不】infpの自己紹介【中、日、羅歌詞】

留言

日誌2022-01-25 00:32【雜談】虛擬歌手雜談／歌曲推薦（二）：CeVIO的十年沉潛

相關創作

【可不・ゲキヤク】天使の翼。【中、日、羅歌詞】

V.I.P-機械の声 歌詞中文翻譯

【可不】infpの自己紹介【中、日、羅歌詞】

留言

日誌2022-01-25 00:32
【雜談】虛擬歌手雜談／歌曲推薦（二）：CeVIO的十年沉潛

V.I.P-機械の声歌詞中文翻譯