【小项目-1】用Python进行人声伴奏分离和音乐特征提取

2023-04-29 17:23:01Python018

【小项目-1】用Python进行人声伴奏分离和音乐特征提取,第1张

比如采样率为22050，音频文件有36s，那么x为长度为22050*36=793800的float。

用到了python库 Spleeter

抽象地了解下原理吧

参考文章是这篇：Spleeter: a fast and efficient music source separation tool with pre-trained models

原理文章是这篇 SINGING VOICE SEPARATION: A STUDY ON TRAINING DATA

粗略扫了一眼，原理主要是用U-Net进行分割，然后这个Python工具主要是利用了一个pre-trained的model。

参考链接：机器之心的一篇文章

纵轴表示频率（从0到10kHz），横轴表示剪辑的时间。由于我们看到所有动作都发生在频谱的底部，我们可以将频率轴转换为对数轴。

可以对频率取对数。

感觉这个参数蛮有意思的

整个频谱被投影到12个区间，代表音乐八度音的12个不同的半音（或色度）， librosa.feature.chroma_stft 用于计算。

先对音频进行短时傅里叶变换

其中每行存储一个窗口的STFT，大小为1025*1551

这里要注意理解怎么基于stft的结果来画频谱图

没太了解，感觉就大概知道有这么个量可以用到就行。

librosa.feature.spectral_centroid 计算信号中每帧的光谱质心：

1. 先理解连续傅里叶变换

2. 再理解离散傅里叶变换

对连续函数进行离散采样

3. 最后进入短时傅里叶变换

是先把一个函数和窗函数进行相乘，然后再进行一维的傅里叶变换。并通过窗函数的滑动得到一系列的傅里叶变换结果，将这些结果竖着排开得到一个二维的表象。

你可以考虑用pyaudio这个库，下面是一个例子。

import pyaudio

import wave

CHUNK = 2

FORMAT = pyaudio.paInt16

CHANNELS = 2

RATE = 44100

RECORD_SECONDS = 3

WAVE_OUTPUT_FILENAME = "output.wav"

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,

channels=CHANNELS,

rate=RATE,

input=True,

frames_per_buffer=CHUNK)

print("* recording")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):

data = stream.read(CHUNK)

frames.append(data)

print(int(RATE / CHUNK * RECORD_SECONDS))

print("* done recording")

stream.stop_stream()

stream.close()

p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')

wf.setnchannels(CHANNELS)

wf.setsampwidth(p.get_sample_size(FORMAT))

wf.setframerate(RATE)

wf.writeframes(b''.join(frames))

wf.close()

TensorFlow应该可以做到对采样切片后的声音进行学习，但Python单独对声音的各种操作，目前还没有类似的项目，声音特征处理目前C++还是主流，建议搜索TTS，或许你的要求是TTS+NLP+TensorFlow

频谱频率原理声音结果

# 上一篇：求7z算法的原理,详细

# 下一篇：电脑怎么发邮件

给您推荐相同类型的内容：

JS正则表达式从字符串中取值并替换
你的目的是把D2 E3 F4的值相加，得到他们的和。这个不需要替换的，js数字直接相加就可以。var D2=5,E3=10,F4=20var str = parseInt(D2)+parseInt(E3)+parseInt(F4) pa
在Javascript中，最大的Number是多少
可以通过 Number.MAX_VALUE来表示 JavaScript 可描述的最大的值。这个属性的值为1.79E+308，大于这个值的数字将被表示成 Infinity。例如，在 Chrome 中，Number.MAX_VALUE
css怎么调用外部字体？
方法如下：@font-face { font-family: SketchRockwell*这里是说明调用来的字体名字* src: url(‘SketchRockwell.ttf’)*这里是字体文件路径* } .my_CSS
js摇奖用js做一个摇奖程序要求在0-10中抽出三个幸运号码且三个号码各不相同代码
var map={}document.write("今日开奖号：&ltbr &gt")for(var i=0i&lt3i++){var r=Math.floor(Math.random()*10
OC与JS交互-WKWebView篇
oc 跟 js 端协议好方法名比如 js 的方法为 Back() 1.oc 对 js 的方法进行监听 [config.userContentController addScriptMessageHandler:self name:
python生成EXE 系统兼容性问题
用py2exe可以将python转化为exe文件转化的时候，生成一个文件夹，文件夹里有exe文件想要给别人执行，就把生成的文件夹，整个拷贝给别人打包有错误，具体看build文件下的warn***.txt文档，里面详细记载了错误的原因。一般都
js防水涂料有哪些厂家？
1、德高（知名品牌）2、东方雨虹（北京知名防水材料品牌）3、固莱（知名防水涂料、瓷砖胶品牌）4、科顺（广东著名品牌）5、卓宝（知名防水涂料品牌）6、汉高（国外知名品牌）7、蒂贝贝尔（新兴防水涂料品牌）8、朗凯奇（安徽防水涂料品
css圆角背景图片怎么弄呀？
一般是用画好的圆角图片充当背景来实现的，用photoshop画好圆角，切成需要的大小来填充背景即可当然也有不要图片的做法，原理就是通过div来模拟像素的拐角，做法太极端，一般不采用。圆角主要是通过border-radius 来实现：bor
如何注释html、css、js代码
不是每行代号都需要注释，但注释代码量要占10% ~ 20%，以免其他人在检测调试代码的时候，不知道这段代码是什么意思，还得从前面开始理解代码，增加别人的工作量。下面，我们来看看如何注释html、css、js代码吧。html注释的格式
css文字换行
用CSS让文字在一行内显示不换行的方法：一般的文字截断(适用于内联与块)：.text-overflow{display:block *内联对象需加*width:31emword-break:keep-a
为什么我的G750js玩游戏会突然卡顿，掉帧
外部问题：1、网络环境差，可通过其他同网络内的机器确认是否有此问题2、机器配置低，通过该游戏的官网或者百度确认游戏对硬件的要求，选择推荐配置参考。如果机器性能较低，可以请调低游戏特效，或者升级硬件(笔记本升级硬件主要就是加装内存和升级固态
z-index:9999在CSS中是什么意思
z-index属性：较大 number 值的对象会覆盖在较小 number 值的对象之上。如两个绝对定位对象的此属性具有同样的 number 值，那么将依据它们在HTML文档中声明的顺序层叠。对于未指定此属性的绝对定位对象，此属性的 num
JS里AJAX的使用--（服务器与客户端数据交换）
使用ajax需要先了解计算机前后端的通信原理，也就是需要了解我们的服务器与客户端数据是如何交换的。DNS的查询过程：（以访问www.qq.com为例）1、在浏览器中输入www.qq.com域名，操作系统会先检查自己本地的hosts
js是哪个国家
江山JS是中国品牌。江山KongSun江山控股有限公司，是一间于1970年在香港主板上市的、以投资为主的老牌控股型企业。近年来，随着全球环境和气候的变化，化石能源存量的不断减少，世界各国纷纷把新能源的发展上升为国家战略，出台相应政策
如何用C语言写贪吃蛇
#include&ltconio.h&gt#include&ltgraphics.h&gt#include&lttime.h&gt#include&ltstring.h&gt#
如何用java编写一个矩阵的转置？
int a[][] = {{1,2,3,4},{1,2,3,4},{1,2,3,4},{1,2,3,4},{1,2,3,4},{1,2,3,4},{1,2,3,4}} int b[][] = new int [4][7]
Java反编译代码解释：
public static String format(long paramLong)paramLong是一个传递进来的long型整数{int i = 60 * 60定义i=60乘60就是3600long l1 = paramLong
到底前端需要CSS框架吗
前端框架指使用广泛的前端开发套件，可以帮助你快速的网站。对于前端工程师来说，他们在完成产品页面时，不仅要保证用户体验感，更要考虑与市面上各大浏览器的兼容性。那么使用框架的优势有哪些？1.前端框架的出现，大大提升了前端开发的效率，简化开发步骤
CSS中超链接前的圆点如何去掉
产生这个圆点可以以下原因：1、是由于li标签默认的标签例如：&ltli&gt&lta href="#"&gt链接&lta&gt&ltli&gt默认情况下
松下ec30和js30
介绍如下：这两款松下js30ax1和ec30ax1都是很不错的产品，功能上都差不多哈，主要还是看个人喜欢哪一款，我自己用的就是松下NR-JS30AX1-W，这个松下NR-JS30AX1-W确实是非常OK的，做工还真挺细腻的，刚买不久的，外形
电脑上的hdmi接口是输出还是输入
电脑上的HDMI接口99.9%视频信号输出。不过也有极少数的电脑配备HDMI输入接口（用了连接其他电脑、DVD、游戏机的HDMI输出），比如戴尔、外星人alienware17等笔记本电脑会配备一个HDMI输入口，一个HDMI输出口。HDM
swt browser 弹出子窗口问题
实现方法:我们只要监听 OpenWindowListener 这个事件当弹出就把新窗口嵌入新定义的一个shell,因为我们没有显示这个shell所有是不可见的,接着关闭这个新窗口shell,取出我们要URL,实现代码如下:brow
python怎么计时
定义在默认的计时器中，针对不同平台采用不同方式。在Windows上，time.clock()具有微秒精度，但是time.time()精度是160s。在Unix上，time.clock()有1100s精度，而且time.time()精度远
CSS里 ul标签怎么居中啊
要实现UL标签水平居中，关键在于CSS中 display:inline 的运用。HTML代码具体示例：&ltdiv id="links"&gt&ltul&gt&ltli&a
为什么直接复制粘贴java不行
因为Java是解释型语言，多数电脑翻译器版本不同，直接复制粘贴会导致错误。Java对软件版本的要求很高，必须要一模一样，一般不能直接复制粘贴。Java是一门面向对象编程语言，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、
CSS样式如何修改
1、引jQuery，然后定义元素的style样式，根据自己的元素来定义，这里随性定义div的style样式。2、接着我们看样式所带来的效果，接着开始设置点击按钮会产生变化颜色等交互效果。3、首先，自然是指定好触发变化颜色的事件，可以是经过触
为什么没有Java实现的Aes加密算法
需要依赖Java加密扩展的支持才能实现。用Java实现AES需要依赖Java加密扩展TheJavaCryptographyExtension，简称JCE的支持主要是在javax下面的一些包。根据描述需要使用的算法为AESCBCNoPaddi
怎么用css的方法将门打开后展示灯笼自上而下的动画？
您可以使用 CSS 动画来实现门打开后展示灯笼自上而下的动画效果。具体步骤如下：1. 在 HTML 中创建门和灯笼的元素，并给这些元素添加类名。例如：&ltdiv class="door"&gt门&a
R语言一直警告达到最大叠代次数怎么停止
R语言一直警告达到最大叠代次数停止方法如下在R语言中使用多元非线性回归（nls函数）时，经常会遇到“Error in nls 循环次数超过了50这个最大值”问题。主要原因在于nls中默认的最大迭代次数为50，此时，只需使用nls.contr
python如何通过命令行输入参数？
形式一：直接在命令行输入参数第一个红色框为命令行参数第二个框为控制台模式（Terminal）形式二：在编译工具中配置参数点击运行：点击红色框编辑配置如下图：红色框即为设置的命令行参数我也是正在学PYthon的基础语法。题主忘记

推荐阅读

热门文章

最新发布

标签列表

【小项目-1】用Python进行人声伴奏分离和音乐特征提取

给您推荐相同类型的内容：