【小项目-1】用Python进行人声伴奏分离和音乐特征提取

Python018

【小项目-1】用Python进行人声伴奏分离和音乐特征提取,第1张

比如采样率为22050,音频文件有36s,那么x为长度为22050*36=793800的float。

用到了python库 Spleeter

抽象地了解下原理

参考文章是这篇:Spleeter: a fast and efficient music source separation tool with pre-trained models

原理文章是这篇 SINGING VOICE SEPARATION: A STUDY ON TRAINING DATA

粗略扫了一眼,原理主要是用U-Net进行分割,然后这个Python工具主要是利用了一个pre-trained的model。

参考链接:机器之心的一篇文章

纵轴表示频率(从0到10kHz),横轴表示剪辑的时间。由于我们看到所有动作都发生在频谱的底部,我们可以将频率轴转换为对数轴。

可以对频率取对数。

感觉这个参数蛮有意思的

整个频谱被投影到12个区间,代表音乐八度音的12个不同的半音(或色度), librosa.feature.chroma_stft 用于计算。

先对音频进行短时傅里叶变换

其中每行存储一个窗口的STFT,大小为1025*1551

这里要注意理解怎么基于stft的结果来画频谱图

没太了解,感觉就大概知道有这么个量可以用到就行。

librosa.feature.spectral_centroid 计算信号中每帧的光谱质心:

1. 先理解连续傅里叶变换

2. 再理解离散傅里叶变换

对连续函数进行离散采样

3. 最后进入短时傅里叶变换

是先把一个函数和窗函数进行相乘,然后再进行一维的傅里叶变换。并通过窗函数的滑动得到一系列的傅里叶变换结果,将这些结果竖着排开得到一个二维的表象。

你可以考虑用pyaudio这个库,下面是一个例子。

import pyaudio

import wave

CHUNK = 2

FORMAT = pyaudio.paInt16

CHANNELS = 2

RATE = 44100

RECORD_SECONDS = 3

WAVE_OUTPUT_FILENAME = "output.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,

channels=CHANNELS,

rate=RATE,

input=True,

frames_per_buffer=CHUNK)

print("* recording")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):

data = stream.read(CHUNK)

frames.append(data)

print(int(RATE / CHUNK * RECORD_SECONDS))

print("* done recording")

stream.stop_stream()

stream.close()

p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')

wf.setnchannels(CHANNELS)

wf.setsampwidth(p.get_sample_size(FORMAT))

wf.setframerate(RATE)

wf.writeframes(b''.join(frames))

wf.close()

TensorFlow应该可以做到对采样切片后的声音进行学习,但Python单独对声音的各种操作,目前还没有类似的项目,声音特征处理目前C++还是主流,建议搜索TTS,或许你的要求是TTS+NLP+TensorFlow