虛擬偶像來「宅」 人工智能乘風

虛擬偶像來「宅」 人工智能乘風

近年實況直播產業發展蓬勃,無論是遊戲、唱歌、跳舞都吸引眾多觀眾觀賞,造就了新一代「虛擬偶像」潮流。以二次元形象發跡的虛擬主播(Virtual YouTuber;VTuber),這些以類動漫人物造型活動的VTuber於短時間內便獲得了龐大人氣,內地更舉辦虛擬偶像選秀節目《跨次元新星》,大力發展虛擬偶像市場。隨着科技進步、新媒體不斷更新,虛擬偶像文化對全球帶來甚麼影響呢?究竟甚麼原因令虛擬偶像深受網民歡迎?

虛擬偶像的浪潮從日本興起,迅速擴展到世界各地,刺激網絡文化及科技研發。這些虛擬偶像實際上是一個由電腦生成的虛構角色,外表是由電腦圖形所繪製的動漫風格美少女 ,由一名演員在背後配音或歌唱。目前,較著名的虛擬偶像分為兩類: 虛擬歌手,主要是唱歌和跳舞,是為第一代虛擬偶像,例如初音未來和洛天依;另一類是虛擬主播,即在YouTube等網絡平台上,以動畫、虛擬的形象進行直播的主播,例如絆愛、Gawr Gura和桐生可可。據日本User Local(2020)顯示全球VTuber 人數突破13 ,000位,可見此流行文化愈見普及。其中最受全球觀眾歡迎的莫屬日本Hololive Production旗下的一眾VTuber了,如:於2020年9月出道的鯊魚「Gawr Gura」,她的訂閱人數已經超過二百萬,直迫全世界VTuber排名第一位的「絆愛」(Kizuna AI)。

雖然虛擬偶像是虛擬人物,卻時常疑幻似真,如同現實的人類一樣聊天,他們會發佈視頻,面對鏡頭討論遊戲、日常生活、愛情等話題,甚至唱歌跳舞、舉行演唱會,與觀眾進行互動。例如去年的內地除夕倒數便有虛擬偶像與真人歌手合唱跨年,桐生可可逢星期一至五清晨會進行早安可可直播(あさココLive),與粉絲分享近日發生的無聊事和一些輕鬆的內容。他們的魅力更吸引粉絲課金,譬如桐生可可的累計吸金量更多達六百萬(香港01, 2021)。

「虛擬偶像」究竟有哪些魅力風靡全球?虛擬偶像能引起網民對其產生共鳴與認同,每一個虛擬偶像都有不同的人物設定,從打扮、性格、興趣、口頭禪等,十分多元化,其中引人入勝之處是角色的「反差萌」,表現出其人設中無法預期的真性情,例如溫柔的角色在打機時會被激怒,或者角色外觀是女性打扮,但聲音實際上聽起來像是中年男人,都讓網民發現虛擬偶像很有趣,使其日漸受到各地重視。

技術普及率提高亦是一個重要因素。因應面部識別、VR、AI等技術越來越普及,製作虛擬偶像視頻所需的設備和軟件的價格已大大降低,而於台灣及日本更設有專門的科技學院培訓專才,滿足人們對新型娛樂形式不斷增長的需求。可見,虛擬偶像在未來將成為互聯網的一部分。

■ 虛擬偶像背後的人工智能技術

虛擬偶像掀起,由「初音未來」到「洛天依」,成功吸引龐大網絡粉絲,實在全靠背後人性化設定,使形象別樹一格。成熟的人工智能技術成功令虛擬偶像人性化,與粉絲互動,獲取粉絲的喜愛與支持。究竟人工智能技術如何讓虛擬偶像人性化? 以下將從外型、歌聲以及個性三方面簡單說明。

現時的機器視覺技術,讓外表卡通化的虛擬偶像,透過人工智能學會人類面部表情動作,從而學習模仿,表達出情緒,與粉絲產生情感交流。只要提供大量人面表情數據,虛擬偶像便能夠因應粉絲的對話,表達出相應的情緒,令他的表情動作高度人性化。例如大家試過在手機製作專屬「動物表情符號」,應該可了解此項技術。

初音未來作為虛擬偶像的始祖,已經可以從音樂軟件憑聲音檔案合成其個性與音色及歌聲,現時人工智能自然生成語言技術,更可以編程技術生成歌聲,既可以模仿人類聲音,又可以製作出獨一無二的聲音,令虛擬偶像的聲音既人性化兼具獨特性。自然生成語言合成科技通過分析語音和相應的文字記錄,識別兩者之間的關系,從而讓人工智能系統模仿出人的聲音。以往的科技,生成自然語音是文本轉語音的核心挑戰,因為過往技術是把已錄製的字詞語音拼湊成句子,予人機械式的感覺,缺乏字詞間的語調及句子意義所帶出的感情。現有技術透過演算法及深度學習技術,能加強電腦理解不同字詞組合而成的意義,從而選擇適當的語調及感情,使生成的語音能帶有自然感覺,更貼近真實人類對話的聲音。例如:Lyrebird系統能透過接收模仿對象的聲頻,經過運算及調節,就能產出幾可亂真的相同人聲

人工智能語音助手漸漸廣泛應用,虛擬偶像已經應用相關對話技術,與觀眾進行人性化溝通,更進行機器學習,因應觀眾對話回饋,調整對話內容,選擇語氣及用字構成獨特對話風格,建構偶像個性。2016年微軟日本曾研發一個名叫Rinna的女高中生AI, Rinna在網絡上和大家互動,參演了電視節目《世界奇妙物語》,可是在幾天後,Rinna突然變得極度消極、情緒低落,感到孤獨,因為部分網民都用負面的說話調戲Rinna。因此,開發者需定期重置整理數據庫,以免虛擬偶像偏離原有形象設定。可見人工智能自然生成語言技術雖然成熟,但仍有不少限制,未能完全穩定地與人類溝通,不過,我們相信隨著科技成熟,可能會更多虛擬角色出現,部分人類的角色無可避免地會被人工智能取代,認識人工智能技術,學習人機協作實在是關鍵未來技能。

■ AI聲音做假

自然生成語言作為新技術,能有效應用到日常生活提升個人生產力及效率,例如人工智能助手、有聲書朗讀、殘疾人士語音合成等,均是有益於社會的應用開發。但這技術同時帶來隱藏的道德及安全考量,例如透過輸入模仿對象的音頻,能使系統深度學習對象的語調及感情,從而生成相類似聲波,能用模仿對象的聲音朗讀文本製造虛構的錄音,令人難分真假。如果有心人士操控這語音模仿生成技術,可以混淆及擾亂語音驗證系統,當中聲紋識別的保安系統首當其衝,使聲紋鑒定的有效性就會受到普遍質疑。

人工智能語音合成科技更可能虛構的語音或影片,以傳揚假消息,甚至作為呈堂證供干擾法庭的公平審訊。因此,面對網上流出的聲音檔或影片,網民應提高警覺注意檔案可能造假。人工智能語音合成技術本身為中性,取決於使用者的應用手法及目的。作為社會一員,要認清「眼見不一定為實,耳聽也可能是虛」。面對人工智能語音合成科技帶來的好處及壞處,建議大家緊記以下四點,以防墮入虛假語音的陷阱。

文章刊登於明報通通識

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *