基于NMF与CNN联合优化的声学场景分类

doi:10.12305/j.issn.1001-506X.2022.05.01

[1]

PASEDDULA

C

, GANGASHETTY

S V

.

Late fusion framework for acoustic scene classification using LPCC, SCMC, and log-Mel band energies with deep neural networks

[J]. Applied Acoustics, 2021, 172, 107568.

DOI:10.1016/j.apacoust.2020.107568 [本文引用: 1]

[2]

刘立芳, 杨海霞, 齐小刚.

基于线性判别分析的时频域特征提取算法

[J]. 系统工程与电子技术, 2019, 41 (10): 2184- 2190.

DOI:10.3969/j.issn.1001-506X.2019.10.05 [本文引用: 1]

LIU

L F

, YANG

H X

, QI

X G

.

Time-frequency domain feature extraction algorithm based on linear discriminant analysis

[J]. Systems Engineering and Electronics, 2019, 41 (10): 2184- 2190.

DOI:10.3969/j.issn.1001-506X.2019.10.05 [本文引用: 1]

[3]

MCDONNELL M D, GAO W. Acoustic scene classification using deep residual networks with late fusion of separated high and low frequency paths[C]//Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2020.

[本文引用: 3]

[4]

SONG H W, HAN J Q, DENG S W, et al. Acoustic scene classification by implicitly identifying distinct sound events[C]//Proc. of the Interspeech, 2019: 3860-3864.

[本文引用: 1]

[5]

WANG M, WANG R, ZHANG X L, et al. Hybrid constant-Q transform based CNN ensemble for acoustic scene classification[C]//Proc. of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 2019: 1511-1516.

[本文引用: 1]

[6]

BISOT

V

, SERIZEL

R

, ESSID

S

, et al.

Feature learning with matrix factorization applied to acoustic scene classification

[J]. IEEE/ACM Trans.on Audio Speech & Language Processing, 2017, 25 (6): 1216- 1229.

[本文引用: 2]

[7]

SPRECHMANN P, BRONSTEIN A M, SAPIRO G. Supervised non-euclidean sparse NMF via bilevel optimization with applications to speech enhancement[C]//Proc. of the Hands-free Speech Communication and Microphone Arrays, 2014: 11-15.

[本文引用: 1]

[8]

PODWINSKA Z, SOBIERAJ I, FAZENDA B M, et al. Acoustic event detection from weakly labeled data using auditory salience[C]//Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2019.

[本文引用: 1]

[9]

姚琨, 杨吉斌, 张雄伟, 等.

基于多分辨率时频特征融合的声学场景分类

[J]. 声学技术, 2020, 39 (4): 108- 114.

URL [本文引用: 1]

YAO

K

, YANG

J B

, ZHANG

X W

, et al.

Acoustic scene classification based on multi-resolution time-frequency feature fusion

[J]. Acoustic Technology, 2020, 39 (4): 108- 114.

URL [本文引用: 1]

[10]

LEE

S

, PANG

H S

.

Feature extraction based on the non-negative matrix factorization of convolutional neural networks for monitoring domestic activity with acoustic signals

[J]. IEEE Access, 2020, 8, 122384- 122395.

DOI:10.1109/ACCESS.2020.3007199 [本文引用: 2]

[11]

BISOT V, SERIZEL R, ESSID S, et al. Supervised non-negative matrix factorization for acoustic scene classification[C]//Proc. of the IEEE International Evaluation Campaign on Detection and Classification of Acousitc Scenes and Events, 2016.

[本文引用: 6]

[12]

SALAMON

J

, BELLOJ

P

.

Deep convolutional neural networks and data augmentation for environmental sound classification

[J]. IEEE Signal Processing Letters, 2017, 24 (3): 279- 283.

DOI:10.1109/LSP.2017.2657381 [本文引用: 1]

[13]

杨浩聪, 史创, 李会勇.

保留立体声相位信息的声音场景分类系统

[J]. 信号处理, 2020, 36 (6): 871- 878.

URL [本文引用: 1]

YANG

H C

, SHI

C

, LI

H Y

.

Sound scene classification system preserving stereo phase information

[J]. Signal Processing, 2020, 36 (6): 871- 878.

URL [本文引用: 1]

[14]

BODDAPATI

V

, PETEF

A

, RASMUSSON

J

, et al.

Classifying environmental sounds using image recognition networks

[J]. Procedia Computer Science, 2017, 112, 2048- 2056.

DOI:10.1016/j.procs.2017.08.250 [本文引用: 1]

[15]

DOAN T, NGUYEN H, NGO D T, et al. Acoustic scene classification using adeeper training method for convolution neural network[C]//Proc. of the International Symposium on Electrical and Electronics Engineering, 2019: 63-67.

[本文引用: 1]

[16]

曹毅, 黄子龙, 张威, 等.

N-DenseNet的城市声音事件分类模型

[J]. 西安电子科技大学学报, 2019, 46 (6): 9- 16.9-16, 94

URL [本文引用: 1]

CAO

Y

, HUANG

Z L

, ZHANG

W

, et al.

Urban sound event classification model based on N-DenseNet

[J]. Journal of Xidian University, 2019, 46 (6): 9- 16.9-16, 94

URL [本文引用: 1]

[17]

李伟, 李硕.

理解数字声音——基于一般音频/环境声的计算机听觉综述

[J]. 复旦学报(自然科学版), 2019, 58 (3): 269- 313.

URL [本文引用: 1]

LI

W

, LI

S

.

Understanding digital sound: a review of computer hearing based on general audio/ambient sound

[J]. Journal of Fudan University (Natural Science Edition), 2019, 58 (3): 269- 313.

URL [本文引用: 1]

[18]

KOMATSU T, SENDA Y, KONDO R. Acoustic event detection based on non-negative matrix factorization with mixtures of local dictionaries and activation aggregation[C]//Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2016: 2259-2263.

[本文引用: 1]

[19]

GIANNOULIS P, POTAMIANOS G, MARAGOS P. Multi-channel non-negative matrix factorization for overlapped acoustic event detection[C]//Proc. of the 26th European Signal Processing Conference, 2018: 857-861.

[本文引用: 1]

[20]

MAIRAL

J

, BACH

F

, PONCE

J

.

Task-driven dictionary learning

[J]. IEEE Trans.on Pattern Analysis & Machine Intelligence, 2012, 34 (4): 791- 804.

[本文引用: 1]

[21]

RAKOTOMAMONJY

A

.

Supervised representation learning for audio scene classification

[J]. IEEE/ACM Trans.on Audio, Speech, and Language Processing, 2017, 25 (6): 1253- 1265.

DOI:10.1109/TASLP.2017.2690561 [本文引用: 1]

[22]

PHAM L, MCLOUGHLIN I, PHAN H, et al. A robust framework for acoustic scene classification[C]//Proc. of the Interspeech, 2019: 3634-3638.

[本文引用: 1]

[23]

LI X Y, CHEBIYYAM V, KIRCHHOFF K. Multi-stream network with temporal attention for environmental sound classification[C]//Proc. of the Interspeech, 2019: 3604-3608.

[本文引用: 1]

[24]

KONG Q, CAO Y, IQBAL T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: Dcase 2019 baseline systems[EB/OL]. [2021-05-28]. http://arxiv.org/abs/1904.03476v3.

[本文引用: 1]

[25]

SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale imagerecognition[EB/OL]. [2021-05-28]. http://arxiv.org/abs/1409.1556v6.

[本文引用: 1]

[26]

MCDONNELL M D. Training wide residual networks for deployment using a single bit for each weight[EB/OL]. [2021-05-28]. http://arxiv.org/abs/1802.08530.

[本文引用: 1]

[27]

MESAROS A, HEITTOLA T, DIMENT A, et al. DCASE 2017 Challenge setup: tasks, datasets and baseline system[C]//Proc. of the Detection and Classification of Acoustic Scenes and Events Workshop, 2017: 85-92.

[本文引用: 2]

[28]

WANG H L, ZOU Y X, CHONG D D. Acoustic scene classification with spectrogram processing strategies[C]//Pro. of the Detection and Classification of Acoustic Scenes and Events Workshop, 2020.

[本文引用: 1]

[29]

WANG C, SANTOSO A, WANG J. Acoustic scene classification using self-determination convolutional neural network[C]//Proc. of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 2017: 19-22.

[本文引用: 1]

[30]

DANG A, VUT H, WANG J. Acoustic scene classification using convolutional neural networks and multi-scale multi-feature extraction[C]//Proc. of the IEEE International Conference on Consumer Electronics, 2018.

[本文引用: 1]

Late fusion framework for acoustic scene classification using LPCC, SCMC, and log-Mel band energies with deep neural networks

1

2021

... 声学场景分类(acoustic scene classification, ASC)旨在从不同音频片段中识别出各自包含的场景信息并加以分类.相比利用图像或视频信息实现场景分类, ASC技术具有全向性, 且不会受遮挡和光线条件的影响, 在智能穿戴设备、物联网音频监控、巡检机器人等领域有着广泛的应用前景^[1-2]. ...

基于线性判别分析的时频域特征提取算法

1

2019

... 声学场景分类(acoustic scene classification, ASC)旨在从不同音频片段中识别出各自包含的场景信息并加以分类.相比利用图像或视频信息实现场景分类, ASC技术具有全向性, 且不会受遮挡和光线条件的影响, 在智能穿戴设备、物联网音频监控、巡检机器人等领域有着广泛的应用前景^[1-2]. ...

基于线性判别分析的时频域特征提取算法

1

2019

... 声学场景分类(acoustic scene classification, ASC)旨在从不同音频片段中识别出各自包含的场景信息并加以分类.相比利用图像或视频信息实现场景分类, ASC技术具有全向性, 且不会受遮挡和光线条件的影响, 在智能穿戴设备、物联网音频监控、巡检机器人等领域有着广泛的应用前景^[1-2]. ...

3

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

... 目前ASC任务主要采用CNN型深度神经网络对二维时频特征进行分类^[22-23].通过NMF得到的二维特征同样包含丰富的分类信息, 可使用相似的网络结构^[10].在模型的搭建上, 一方面, 由于各时间片段里包含的声学事件有所不同, 为使模型充分学习到这些声学事件的有效特征, 应适当减少在时间轴上的池化.另一方面, 网络中的卷积层数目对识别效果也有一定影响^[24].数目过少可能导致网络的拟合程度不高; 数目过多则可能因梯度消失问题降低SNMF特征的修正效果.为得到适合SNMF特征的模型, 并验证网络层数对分类效果的影响, 在视觉几何组网络(visual geometry groupnet work, VGGNet)^[25]和文献[3]的基础上分别搭建卷积层数目为8、10、12的CNN8、CNN10和CNN12模型进行实验. ...

... 模型结构与参数如表 1所示, 其中@符号表示Conv2D卷积层.优化器使用随机梯度下降算法, 批大小为16, 模型的训练与SNMF特征的修正交替进行.为避免因网络收敛过快而导致修正幅度较小, 选择每训练10轮模型修正1次SNMF特征.每10轮间模型的学习率按热重启学习率策略^{[3, 26]}从5×10^-3以余弦下降方式衰减到5×10^-5, 使用交叉熵损失函数共训练70轮^[11]. ...

1

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

1

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

Feature learning with matrix factorization applied to acoustic scene classification

2

2017

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

... 对音频样本进行短时傅里叶变换得到声谱图v ∈ R₊^F×T, 其中F表示频带数, T表示时间帧数.将所有训练集样本的声谱图扩展得到矩阵V ∈ R₊^F×NT, 其中N表示训练集样本的总数.NMF算法的目的是在给定矩阵V下, 利用乘性更新法则找到基矩阵W ∈ R₊^F×K和权值矩阵H ∈ R₊^K×NT, K≤FNT/(F+NT).可表示为如下优化问题^[6]: ...

1

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

1

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

基于多分辨率时频特征融合的声学场景分类

1

2020

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

基于多分辨率时频特征融合的声学场景分类

1

2020

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

Feature extraction based on the non-negative matrix factorization of convolutional neural networks for monitoring domestic activity with acoustic signals

2

2020

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

... 目前ASC任务主要采用CNN型深度神经网络对二维时频特征进行分类^[22-23].通过NMF得到的二维特征同样包含丰富的分类信息, 可使用相似的网络结构^[10].在模型的搭建上, 一方面, 由于各时间片段里包含的声学事件有所不同, 为使模型充分学习到这些声学事件的有效特征, 应适当减少在时间轴上的池化.另一方面, 网络中的卷积层数目对识别效果也有一定影响^[24].数目过少可能导致网络的拟合程度不高; 数目过多则可能因梯度消失问题降低SNMF特征的修正效果.为得到适合SNMF特征的模型, 并验证网络层数对分类效果的影响, 在视觉几何组网络(visual geometry groupnet work, VGGNet)^[25]和文献[3]的基础上分别搭建卷积层数目为8、10、12的CNN8、CNN10和CNN12模型进行实验. ...

6

... 实际声学场景通常由多个声学事件组成, 但只有少数声学事件能对场景分析起到关键作用, 因此需要提取足够有效的声学特征.ASC任务中常用的对数梅尔谱(log Mel-spectrogram, LM)^[3-4]和常数Q变换(constant Q transform, CQT)^[5]可以对频带相对固定的音频信号进行有效的时频分析, 但对于结构性较差的声学场景信号表现不佳^[6].于是, 基于自动特征学习的非负矩阵分解(non-negative matrix factorization, NMF)^[7-8]被应用于ASC任务.作为一种基于部分表达整体的方法, NMF能够有效解决由各类声学事件组成的场景分类问题.姚琨等人^[9]将NMF与LM进行特征融合以提高识别率, 但未考虑样本标签对特征提取的辅助作用.Lee等人^[10]提出一种利用标签信息对各类声学场景独立学习基矩阵的方法, 但不同场景可能存在相似的声学事件, 易造成基向量的冗余和混淆.Bisot等人^[11]提出基于逻辑回归的任务驱动型NMF(task-driven NMF, TNMF)算法, 通过分类器修正特征学习的方式有效提升场景分类效果, 但因逻辑回归分类器性能有限而难以得到更有判别性的特征. ...

... NMF作为一种自动特征学习方法, 能够根据不同任务和数据集自动学习到有效特征.在加入标签信息后, NMF可进一步调整特征提取方向, 提高对特定任务的适应性.于是, 在文献[11]的基础上提出一种联合优化算法, 通过引入CNN模型实现NMF与神经网络的联合训练, 提取同时包含生成信息和判别信息^[21]的有监督NMF(supervised NMF, SNMF)特征. ...

... 模型结构与参数如表 1所示, 其中@符号表示Conv2D卷积层.优化器使用随机梯度下降算法, 批大小为16, 模型的训练与SNMF特征的修正交替进行.为避免因网络收敛过快而导致修正幅度较小, 选择每训练10轮模型修正1次SNMF特征.每10轮间模型的学习率按热重启学习率策略^{[3, 26]}从5×10^-3以余弦下降方式衰减到5×10^-5, 使用交叉熵损失函数共训练70轮^[11]. ...

... NMF特征设置: 帧长和帧移分别为1 024和512个采样点, 通过短时傅里叶变换得到512×431的对数声谱图.按文献[11]的方法进行池化操作得到512×108的对数声谱图.扩展所有训练样本的声谱图后进行NMF得到512× K的基矩阵W, K为基向量数及特征维数, 该基矩阵同时用作SNMF特征的初始基矩阵.最后在W上重新投影得到K×108的NMF特征. ...

... 为验证联合优化算法的实际效果, 将SNMF特征与TUT2017数据集的官方基线系统^[27]、无监督NMF特征、以对数声谱图为基础提取的TNMF特征^[11]、CQT特征与LM特征进行对比.其中, NMF特征和SNMF特征的特征维数K=256.为保证所有特征能够拥有适合其自身特点的分类器, 令NMF与SNMF特征的分类器为CNN10模型, TNMF特征的分类器同文献[11], 而LM和CQT特征则选取在2020年声学场景和事件的检测与分类挑战赛(Detection and Classification of Acoustic Scenes and Events, DCASE)中表现优异的类VGGNet模型^[28].获得的分类结果如表 4所示. ...

... =256.为保证所有特征能够拥有适合其自身特点的分类器, 令NMF与SNMF特征的分类器为CNN10模型, TNMF特征的分类器同文献[11], 而LM和CQT特征则选取在2020年声学场景和事件的检测与分类挑战赛(Detection and Classification of Acoustic Scenes and Events, DCASE)中表现优异的类VGGNet模型^[28].获得的分类结果如表 4所示. ...

Deep convolutional neural networks and data augmentation for environmental sound classification

1

2017

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

保留立体声相位信息的声音场景分类系统

1

2020

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

保留立体声相位信息的声音场景分类系统

1

2020

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

Classifying environmental sounds using image recognition networks

1

2017

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

1

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

N-DenseNet的城市声音事件分类模型

1

2019

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

N-DenseNet的城市声音事件分类模型

1

2019

... 如何利用声学特征训练出有效的分类模型是ASC任务的另一个难点.随着深度学习的快速发展, 卷积神经网络(convolutional neural network, CNN)^[12]因为可以识别缩放、移位等空间失真不变性^[13], 在ASC任务中得到广泛应用.Boddapati等人^[14]通过叠加声谱图、梅尔倒谱系数以及相干复原图组成三通道特征, 结合图像识别中两种常用的CNN模型进行环境声音分类.Doan等人^[15]提出一种应用于耳蜗谱图的深度CNN模型, 通过加深卷积层个数学习更丰富的场景信息.曹毅等人^[16]将马尔可夫模型的思想应用于CNN, 提出一种更适合音频分类的N阶密集CNN模型.虽然上述模型尝试从不同角度获取特征图中的分类信息并取得一定的效果, 但均基于一次性提取的无监督特征图, 没有考虑在后续模型训练过程中对特征图本身所包含的信息进行优化. ...

理解数字声音——基于一般音频/环境声的计算机听觉综述

1

2019

... NMF在对原始时频图降维的同时能够提取出声学场景的更好表示^[17].一方面, 对非负声谱图矩阵V进行NMF, 可理解为联合学习非负的基矩阵W与权值矩阵H, 使得V ≈ WH^[18-19].其中, W的列向量代表特定的声学事件, H的列向量对应当前时刻各声学事件所占的比重.由于声学场景是由不同声学事件组成的复杂多源环境, 因此判断特定事件是否发生将有助于分辨不同的场景.另一方面, NMF算法可以与标签信息结合, 不断修正特征提取过程, 促使基矩阵W对环境中声学事件的刻画更加准确, 从而增强NMF特征的表达能力. ...

理解数字声音——基于一般音频/环境声的计算机听觉综述

1

2019

... NMF在对原始时频图降维的同时能够提取出声学场景的更好表示^[17].一方面, 对非负声谱图矩阵V进行NMF, 可理解为联合学习非负的基矩阵W与权值矩阵H, 使得V ≈ WH^[18-19].其中, W的列向量代表特定的声学事件, H的列向量对应当前时刻各声学事件所占的比重.由于声学场景是由不同声学事件组成的复杂多源环境, 因此判断特定事件是否发生将有助于分辨不同的场景.另一方面, NMF算法可以与标签信息结合, 不断修正特征提取过程, 促使基矩阵W对环境中声学事件的刻画更加准确, 从而增强NMF特征的表达能力. ...

1

... NMF在对原始时频图降维的同时能够提取出声学场景的更好表示^[17].一方面, 对非负声谱图矩阵V进行NMF, 可理解为联合学习非负的基矩阵W与权值矩阵H, 使得V ≈ WH^[18-19].其中, W的列向量代表特定的声学事件, H的列向量对应当前时刻各声学事件所占的比重.由于声学场景是由不同声学事件组成的复杂多源环境, 因此判断特定事件是否发生将有助于分辨不同的场景.另一方面, NMF算法可以与标签信息结合, 不断修正特征提取过程, 促使基矩阵W对环境中声学事件的刻画更加准确, 从而增强NMF特征的表达能力. ...

1

... NMF在对原始时频图降维的同时能够提取出声学场景的更好表示^[17].一方面, 对非负声谱图矩阵V进行NMF, 可理解为联合学习非负的基矩阵W与权值矩阵H, 使得V ≈ WH^[18-19].其中, W的列向量代表特定的声学事件, H的列向量对应当前时刻各声学事件所占的比重.由于声学场景是由不同声学事件组成的复杂多源环境, 因此判断特定事件是否发生将有助于分辨不同的场景.另一方面, NMF算法可以与标签信息结合, 不断修正特征提取过程, 促使基矩阵W对环境中声学事件的刻画更加准确, 从而增强NMF特征的表达能力. ...

Task-driven dictionary learning

1

2012

... 通过NMF算法得到基矩阵W, 再对每个样本的声谱图v在W上利用带有正约束的最小角回归算法^[20]进行投影, 得到的权值矩阵h即为该样本的NMF特征. ...

Supervised representation learning for audio scene classification

1

2017

... NMF作为一种自动特征学习方法, 能够根据不同任务和数据集自动学习到有效特征.在加入标签信息后, NMF可进一步调整特征提取方向, 提高对特定任务的适应性.于是, 在文献[11]的基础上提出一种联合优化算法, 通过引入CNN模型实现NMF与神经网络的联合训练, 提取同时包含生成信息和判别信息^[21]的有监督NMF(supervised NMF, SNMF)特征. ...

1

... 目前ASC任务主要采用CNN型深度神经网络对二维时频特征进行分类^[22-23].通过NMF得到的二维特征同样包含丰富的分类信息, 可使用相似的网络结构^[10].在模型的搭建上, 一方面, 由于各时间片段里包含的声学事件有所不同, 为使模型充分学习到这些声学事件的有效特征, 应适当减少在时间轴上的池化.另一方面, 网络中的卷积层数目对识别效果也有一定影响^[24].数目过少可能导致网络的拟合程度不高; 数目过多则可能因梯度消失问题降低SNMF特征的修正效果.为得到适合SNMF特征的模型, 并验证网络层数对分类效果的影响, 在视觉几何组网络(visual geometry groupnet work, VGGNet)^[25]和文献[3]的基础上分别搭建卷积层数目为8、10、12的CNN8、CNN10和CNN12模型进行实验. ...

1

... 目前ASC任务主要采用CNN型深度神经网络对二维时频特征进行分类^[22-23].通过NMF得到的二维特征同样包含丰富的分类信息, 可使用相似的网络结构^[10].在模型的搭建上, 一方面, 由于各时间片段里包含的声学事件有所不同, 为使模型充分学习到这些声学事件的有效特征, 应适当减少在时间轴上的池化.另一方面, 网络中的卷积层数目对识别效果也有一定影响^[24].数目过少可能导致网络的拟合程度不高; 数目过多则可能因梯度消失问题降低SNMF特征的修正效果.为得到适合SNMF特征的模型, 并验证网络层数对分类效果的影响, 在视觉几何组网络(visual geometry groupnet work, VGGNet)^[25]和文献[3]的基础上分别搭建卷积层数目为8、10、12的CNN8、CNN10和CNN12模型进行实验. ...

1

... 目前ASC任务主要采用CNN型深度神经网络对二维时频特征进行分类^[22-23].通过NMF得到的二维特征同样包含丰富的分类信息, 可使用相似的网络结构^[10].在模型的搭建上, 一方面, 由于各时间片段里包含的声学事件有所不同, 为使模型充分学习到这些声学事件的有效特征, 应适当减少在时间轴上的池化.另一方面, 网络中的卷积层数目对识别效果也有一定影响^[24].数目过少可能导致网络的拟合程度不高; 数目过多则可能因梯度消失问题降低SNMF特征的修正效果.为得到适合SNMF特征的模型, 并验证网络层数对分类效果的影响, 在视觉几何组网络(visual geometry groupnet work, VGGNet)^[25]和文献[3]的基础上分别搭建卷积层数目为8、10、12的CNN8、CNN10和CNN12模型进行实验. ...

1

... 目前ASC任务主要采用CNN型深度神经网络对二维时频特征进行分类^[22-23].通过NMF得到的二维特征同样包含丰富的分类信息, 可使用相似的网络结构^[10].在模型的搭建上, 一方面, 由于各时间片段里包含的声学事件有所不同, 为使模型充分学习到这些声学事件的有效特征, 应适当减少在时间轴上的池化.另一方面, 网络中的卷积层数目对识别效果也有一定影响^[24].数目过少可能导致网络的拟合程度不高; 数目过多则可能因梯度消失问题降低SNMF特征的修正效果.为得到适合SNMF特征的模型, 并验证网络层数对分类效果的影响, 在视觉几何组网络(visual geometry groupnet work, VGGNet)^[25]和文献[3]的基础上分别搭建卷积层数目为8、10、12的CNN8、CNN10和CNN12模型进行实验. ...

1

... 模型结构与参数如表 1所示, 其中@符号表示Conv2D卷积层.优化器使用随机梯度下降算法, 批大小为16, 模型的训练与SNMF特征的修正交替进行.为避免因网络收敛过快而导致修正幅度较小, 选择每训练10轮模型修正1次SNMF特征.每10轮间模型的学习率按热重启学习率策略^{[3, 26]}从5×10^-3以余弦下降方式衰减到5×10^-5, 使用交叉熵损失函数共训练70轮^[11]. ...

2

... 实验所采用的数据集为TUT Acoustic Scenes 2017开发数据集^[27].该数据集的录音时长总计13 h, 包括沙滩、公交、咖啡馆/饭馆、汽车、市中心、林荫道、杂货店、家、图书馆、地铁站、办公室、公园、居民区、火车、电车在内的15种声学环境, 每类音频包含312个样本, 总共4 680个样本.样本均为采样率44.1 kHz, 精度24位, 时长10 s的双声道音频.将所有样本降采样到22.05 kHz, 平均左右声道数据以供后续使用.根据官方提供的四折交叉验证方式进行数据集的划分与实验, 使用准确率作为最终的评价指标.实验硬件配置为Intel(R) Core(TM) i5-10400F CPU、16 GB内存、Nvidia GeForce RTX 2060 GPU, 软件环境为Ubuntu18.04系统, Python3.6.11、Tensorflow1.15.0、Keras2.3.1. ...

... 为验证联合优化算法的实际效果, 将SNMF特征与TUT2017数据集的官方基线系统^[27]、无监督NMF特征、以对数声谱图为基础提取的TNMF特征^[11]、CQT特征与LM特征进行对比.其中, NMF特征和SNMF特征的特征维数K=256.为保证所有特征能够拥有适合其自身特点的分类器, 令NMF与SNMF特征的分类器为CNN10模型, TNMF特征的分类器同文献[11], 而LM和CQT特征则选取在2020年声学场景和事件的检测与分类挑战赛(Detection and Classification of Acoustic Scenes and Events, DCASE)中表现优异的类VGGNet模型^[28].获得的分类结果如表 4所示. ...

1

... 为验证联合优化算法的实际效果, 将SNMF特征与TUT2017数据集的官方基线系统^[27]、无监督NMF特征、以对数声谱图为基础提取的TNMF特征^[11]、CQT特征与LM特征进行对比.其中, NMF特征和SNMF特征的特征维数K=256.为保证所有特征能够拥有适合其自身特点的分类器, 令NMF与SNMF特征的分类器为CNN10模型, TNMF特征的分类器同文献[11], 而LM和CQT特征则选取在2020年声学场景和事件的检测与分类挑战赛(Detection and Classification of Acoustic Scenes and Events, DCASE)中表现优异的类VGGNet模型^[28].获得的分类结果如表 4所示. ...

1

... 由表 4还可知, 在不同类别场景下的分类效果方面, SNMF特征在所有类别中准确率的最大值与最小值之间的差值最小, 说明SNMF特征有更好的稳定性.另外, 无论哪一种特征, 在汽车、市中心、办公室、电车等类别的分类上均表现良好, 而在某些类别的分类上性能却不高, 如饭馆、图书馆、公园和居民区.这主要是因为噪声影响使其具有的特定声学事件变得模糊不清, 或是该类声学场景中具有易与其他声学场景造成混淆的相似声学事件^[29-30].而在测试集样本的总预测时间方面, 几种特征没有明显的区别, 都能够满足一般场景下的实时性要求. ...

1

... 由表 4还可知, 在不同类别场景下的分类效果方面, SNMF特征在所有类别中准确率的最大值与最小值之间的差值最小, 说明SNMF特征有更好的稳定性.另外, 无论哪一种特征, 在汽车、市中心、办公室、电车等类别的分类上均表现良好, 而在某些类别的分类上性能却不高, 如饭馆、图书馆、公园和居民区.这主要是因为噪声影响使其具有的特定声学事件变得模糊不清, 或是该类声学场景中具有易与其他声学场景造成混淆的相似声学事件^[29-30].而在测试集样本的总预测时间方面, 几种特征没有明显的区别, 都能够满足一般场景下的实时性要求. ...

名称	CNN8	CNN10	CNN12
输入层	256×108×1	256×108×1	256×108×1
批归一化层, 卷积层	BN, 3×3@64	BN, 3×3@64	BN, 3×3@64
批归一化层, 激活层, 卷积层	BN, ReLu, 3×3@64	BN, ReLu, 3×3@64	BN, ReLu, 3×3@64
池化层	4×2AvgPooling	4×2AvgPooling	4×2AvgPooling
批归一化层, 激活层卷积层	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@128\end{array} \right) \times 2$	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@128\end{array} \right) \times 2$	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@128\end{array} \right) \times 2$
池化层	4×2AvgPooling	4×2AvgPooling	4×2AvgPooling
批归一化层, 激活层卷积层	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@256\end{array} \right) \times 2$	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@256\end{array} \right) \times 2$	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@256\end{array} \right) \times 2$
池化层	—	2×1AvgPooling	2×1AvgPooling
批归一化层, 激活层卷积层	— —	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@512\end{array} \right) \times 2$	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@512\end{array} \right) \times 2$
池化层	—	—	2×1AvgPooling
批归一化层, 激活层卷积层	— —	— —	$\left( \begin{array}{l}{\rm{BN}}, {\rm{ReLu}}\\3 \times 3@1024\end{array} \right) \times 2$
批归一化层, 激活层, 卷积层	BN, ReLu, 1×1@1024
批归一化层, 卷积层, 全局池化层	BN, 1×1@15, Global AvgPooling
全连接层, 输出层	Dense(15), Softmax

SNMF	Fold1	Fold2	Fold3	Fold4	平均
K=64	0.781	0.795	0.771	0.824	0.793
K=128	0.805	0.837	0.793	0.854	0.822
K=256	0.827	0.839	0.814	0.863	0.836
K=512	0.818	0.831	0.807	0.855	0.828

模型	Fold1	Fold2	Fold3	Fold4	平均
CNN8	0.808	0.807	0.778	0.806	0.800
CNN10	0.827	0.839	0.814	0.863	0.836
CNN12	0.811	0.815	0.788	0.861	0.819

场景	基线系统	NMF	TNMF	SNMF	CQT	LM
沙滩	0.753	0.751	0.747	0.835	0.895	0.887
公交	0.718	0.893	0.813	0.928	0.930	0.922
饭馆	0.577	0.618	0.544	0.793	0.611	0.628
汽车	0.971	0.962	0.945	0.942	0.978	0.941
市中心	0.907	0.943	0.867	0.893	0.778	0.920
林荫道	0.795	0.769	0.892	0.925	0.881	0.855
杂货店	0.587	0.801	0.828	0.920	0.883	0.929
家	0.686	0.702	0.662	0.792	0.820	0.663
图书馆	0.571	0.725	0.691	0.658	0.783	0.685
地铁站	0.917	0.742	0.826	0.815	0.852	0.747
办公室	0.998	0.965	0.950	0.941	0.875	0.942
公园	0.702	0.695	0.712	0.705	0.545	0.723
居民区	0.641	0.874	0.774	0.738	0.691	0.764
火车	0.580	0.657	0.768	0.802	0.685	0.712
电车	0.817	0.852	0.847	0.851	0.864	0.876
总体	0.748	0.797	0.791	0.836	0.805	0.813
预测时间/s	-	2.6	1.1	2.7	3.1	3.3

基于NMF与CNN联合优化的声学场景分类

Acoustic scene classification based on joint optimization of NMF and CNN

0 引言

1 特征提取

2 联合优化算法

图1

3 网络模型

4 实验与分析

4.1 实验数据与配置

4.2 参数设置

4.3 结果分析

4.3.1 特征维数和模型层数对准确率的影响

4.3.2 不同特征之间的对比

5 结论

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

基于NMF与CNN联合优化的声学场景分类

Acoustic scene classification based on joint optimization of NMF and CNN

0 引言

1 特征提取

2 联合优化算法

图1

3 网络模型

4 实验与分析

4.1 实验数据与配置

4.2 参数设置

4.3 结果分析

4.3.1 特征维数和模型层数对准确率的影响

4.3.2 不同特征之间的对比

5 结论

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子