宝博游戏|时域音频分离模型登GitHub热榜,效果超传统频域方法

2020-01-11 12:47:32

宝博游戏|时域音频分离模型登GitHub热榜,效果超传统频域方法

宝博游戏,晓查 发自 凹非寺 量子位 报道 | 公众号 qbitai

用ai对歌曲音轨的分离研究很多,不过大多数都是在频域上进行的。这类方法先把声音进行傅立叶变换,再从频谱空间中把人声、乐曲声分别抽离出来。

比如,上个月在github上大热的spleeter,就是这样。

但是由于要计算频谱,这类工具存在着延迟较长的缺点。虽然之前也有一些对声音波形进行处理的方法,但实际效果与频域处理方法相差甚远。

最近,facebook ai研究院提供了两种波形域方法的pytorch实现,分别是demucs和conv-tasnet,而且测试结果均优于其他常见的频域方法,目前登上了github日榜

话不多说,我们先来听听这段30s音频的分离实测效果。

这两种方法在musdb上的训练结果已经接近了频域方法的最优结果,加入150首额外的训练数据后,总体信号失真比(overall sdr)达到了6.3,超过了其他所有方法。

先将代码下载到本地,根据自己用cpu还是gpu来选择不同的安装环境:

在代码库的根目录下运行以下代码(windows用户需将python3换为python.exe):

其中—dl将自动下载预训练模型,-n后的参数代表选用的预训练模型类型:

demucs:表示在musdb上进行训练的demucs;demucs_extra:使用额外数据训练的demucs;tasnet:表示在musdb上进行训练的conv-tasnet;tasnet_extra:使用额外数据训练的conv-tasnet。

在—shifts=shifts执行多个预测与输入和平均他们的随机位移(又名随机等变稳定)。这使预测shifts时间变慢,但将demucs的精度提高了sdr的0.2点。它对conv-tasnet的影响有限,因为该模型本质上几乎是等时的。原始纸张使用10的值,尽管5产生的增益几乎相同。默认情况下禁用它。

demucs是facebook人工智能研究院在今年9月提出的弱监督训练模型,基于受wave-u-net和sing启发的u-net卷积架构。

研究人员引入了一个简单的卷积和递归模型,使其比wave-u-net的比信号失真比提高了1.6个点。

上图是demucs的完整框架结构,右侧是编码器和解码器层的详细表示。

与之前的wave-u-net相比,demucs的创新之处在于编码器和解码器中的glu激活函数,以及其中的双向lstm和倍增的通道数量。

conv-tasnet是哥大的一名中国博士生yi luo提出的一种端到端时域语音分离的深度学习框架。

conv-tasnet使用线性编码器来生成语音波形的表示形式,该波形针对分离单个音轨进行了优化。音轨的分离则是通过将一组加权函数(mask)用于编码器输出来实现。

然后使用线性解码器将修改后的编码器表示形式反转回波形。由卷积的一维扩张卷积块组成的时间卷积网络(tcn)查找mask,使网络可以对语音信号的长期依赖性进行建模,同时保持较小的模型尺寸。

conv-tasnet具有显着较小的模型尺寸和较短的延迟,是脱机和实时语音分离应用程序的合适解决方案。

项目地址:https://github.com/facebookresearch/demucs

测试结果论文:https://hal.archives-ouvertes.fr/hal-02379796/document

demucs论文:https://arxiv.org/abs/1909.01174

conv-tasnet论文:https://arxiv.org/abs/1809.07454

大小球滚球牛人

随机推荐

回到顶部