魏澤人教授(國立陽明交通大學 智慧科學暨綠能學院)

 

演講時間:111年10月25日下午2點
演講地點:A813


講題:聲音模仿及音樂生成

摘要: 現今生成模型,除了圖片的生成外,在聲音、動畫、音樂、立體的內容,也都不斷進步。本次演講內容,我們會介紹我們最近在聲音轉換以及音樂生成方面的一些成果。在語音部份,我們改進及設計了一套語音轉換的系統,稱為 ASGAN-VC, 能以 zero-shot 的方式,將一個人的說話聲音轉成另外一個人的聲音。利用現代的架構和元件整合,轉換的品質在客觀及主觀的評量下,在聲音自然度以及對象相似度方面,較過去的轉換系統有更強的表現。而在音樂部份,我們設計的音樂生成系統,分析了過去一些系統的問題,加以改善,經由客觀及主觀評比,也在聲音品質及自然度方面,較過去系統有更好的表現。並且能指定情緒來生成音樂。

講題資訊網站 : https://deeptricklab.github.io/