Python 简单的扩音,音频去噪,静音剪切

Python019

Python 简单的扩音,音频去噪,静音剪切,第1张

数字信号是通过对连续的模拟信号采样得到的离散的函数。它可以简单看作一个以时间为下标的数组。比如,x[n],n为整数。比如下图是一个正弦信号(n=0,1, ..., 9):

对于任何的音频文件,实际上都是用这种存储方式,比如,下面是对应英文单词“skip”的一段信号(只不过由于点太多,笔者把点用直线连接了起来):

衡量数字信号的 能量(强度) ,只要简单的求振幅平方和即可:

我们知道,声音可以看作是不同频率的正弦信号叠加。那么给定一个声音信号(如上图),怎么能够知道这个信号在不同频率区段上的强度呢?答案是使用离散傅里叶变换。对信号x[n], n=0, ..., N-1,通常记它的离散傅里叶变换为X[n],它是一个复值函数。

比如,对上述英文单词“skip”对应的信号做离散傅里叶变换,得到它在频域中的图像是:

可以看到能量主要集中在中低音部分(约16000Hz以下)。

在频域上,也可以计算信号的强度,因为根据Plancherel定理,有:

对于一般的语音信号,长度都至少在1秒以上,有时候我们需要把其中比如25毫秒的一小部分单独拿出来研究。将一个信号依次取小段的操作,就称作分帧。技术上,音频分帧是通过给信号加一系列的 窗 函数 实现的。

我们把一种特殊的函数w[n],称作窗函数,如果对所有的n,有0<=w[n]<=1,且只有有限个n使得w[n]>0。比如去噪要用到的汉宁窗,三角窗。

汉宁窗

三角窗

我们将平移的窗函数与原始信号相乘,便得到信号的“一帧”:

w[n+d]*x[n]

比如用长22.6毫秒的汉宁窗加到“skip”信号大约中间部位上,得到一帧的信号:

可见除一有限区间之外,加窗后的信号其他部分都是0。

对一帧信号可以施加离散傅里叶变换(也叫短时离散傅里叶变换),来获取信号在这一帧内(通常是很短时间内),有关频率-能量的分布信息。

如果我们把信号按照上述方法分成一帧一帧,又将每一帧用离散傅里叶变换转换到频域中去,最后将各帧在频域的图像拼接起来,用横坐标代表时间,纵坐标代表频率,颜色代表能量强度(比如红色代表高能,蓝色代表低能),那么我们就构造出所谓 频谱图 。比如上述“skip”发音对应的信号的频谱图是:

(使用5.8毫秒的汉宁窗)

从若干帧信号中,我们又可以恢复出原始信号。只要我们适当选取窗口大小,以及窗口之间的平移距离L,得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...,使得对k求和有:

从而简单的叠加各帧信号便可以恢复出原始信号:

最后,注意窗函数也可以在频域作用到信号上,从而可以起到取出信号的某一频段的作用。

下面简单介绍一下3种音效。

1. 扩音

要扩大信号的强度,只要简单的增大信号的“振幅”。比如给定一个信号x[n],用a>1去乘,便得到声音更大的增强信号:

同理,用系数0<a<1去乘,便得到声音变小的减弱信号。

2. 去噪(降噪)

对于白噪音,我们可以简单的用“移动平均滤波器”来去除,虽然这也会一定程度降低声音的强度,但效果的确不错。但是,对于成分较为复杂,特别是频段能量分布不均匀的噪声,则需要使用下面的 噪声门 技术,它可以看作是一种“多带通滤波器”。

这个特效的基本思路是:对一段噪声样本建模,然后降低待降噪信号中噪声的分贝。

更加细节的说,是在信号的若干频段f[1], ..., f[M]上,分别设置噪声门g[1], ..., g[M],每个门都有一个对应的阈值,分别是t[1], ..., t[M]。这些阈值时根据噪声样本确定的。比如当通过门g[m]的信号强度超过阈值t[m]时,门就会关闭,反之,则会重新打开。最后通过的信号便会只保留下来比噪声强度更大的声音,通常也就是我们想要的声音。

为了避免噪声门的开合造成信号的剧烈变动,笔者使用了sigmoid函数做平滑处理,即噪声门在开-关2个状态之间是连续变化的,信号通过的比率也是在1.0-0.0之间均匀变化的。

实现中,我们用汉宁窗对信号进行分帧。然后对每一帧,又用三角窗将信号分成若干频段。对噪声样本做这样的处理后,可以求出信号每一频段对应的阈值。然后,又对原始信号做这样的处理(分帧+分频),根据每一帧每一频段的信号强度和对应阈值的差(diff = energy-threshold),来计算对应噪声门的开合程度,即通过信号的强度。最后,简单的将各频段,各帧的通过信号叠加起来,便得到了降噪信号。

比如原先的“skip”语音信号频谱图如下:

可以看到有较多杂音(在高频,低频段,蓝色部分)。采集0.25秒之前的声音作为噪声样本,对信号作降噪处理,得到降噪后信号的频谱图如下:

可以明显的看到大部分噪音都被清除了,而语音部分仍完好无损,强度也没有减弱,这是“移动平均滤波器”所做不到的。

3. 静音剪切

在对音频进行上述降噪处理后,我们还可以进一步把多余的静音去除掉。

剪切的原理十分简单。首先用汉宁窗对信号做分帧。如果该帧信号强度过小,则舍去该帧。最后将保留的帧叠加起来,便得到了剪切掉静音部分的信号。

比如,对降噪处理后的“skip”语音信号做静音剪切,得到的新信号的频谱图为:

python对视频进行目标检测如何将训练完的视频播放?那么用Python编程怎么实现呢?

下面,我将用Python代码来一步步演示,希望大家能够举一反三,用Python玩转出属于自己的视频播放器程序!

用Python代码实现视频播放器功能,主要有6步。

第一步:导入需要的依赖库。

这里面主要用到三个库:

(1)tkinter库:用于界面制作

(2)PIL库:用于图片处理

(3)cv2库:用于视频捕获

第二步:定义视频播放器的窗体。

主要是定义一个视频播放器窗体。

第三步:定义并初始化视频显示控件。

主要是定义并初始化一个视频展示的显示控件框。

第四步:定义并初始化播放进度条控件。

主要是定义并初始化一个进度条显示控件条。

第五步:定义并初始化窗体菜单。

(1)定义并初始化菜单。

主要功能是定义文件菜单下的打开和关闭子菜单,然后分别对子菜单关联控制事件:打开播放视频事件和关闭播放视频事件。

(2)定义打开播放视频函数。

主要功能是获取打开视频的文件地址,并读取帧进行显示播放,同时与播放进度条进行关联。

(3)定义关闭播放视频函数。

主要功能是关闭播放的视频,并释放占用资源。

第五步:运行窗体主循环。。

以上就是用Python代码实现一个简易视频播放器的方法,下面给出具体的代码,供大家交流!

前几天我在抖音上刷到一个慢慢变老的视频,播放量居然有 30W+,当时就在想这视频 Python 可不可以做?经过一番搜索,我找到了腾讯云的人脸年龄变化 API,上面介绍说只要用户上传一张人脸图片,基于人脸编辑与生成算法,就可以输出一张人脸变老或变年轻的图片,并支持实现人脸不同年龄的变化。

第一步,在注册账号之后,打开 API 密钥管理页面( https://console.cloud.tencent.com/cam/capi )获取到 SecretId 和 SecretKey。

第二步,安装腾讯云的 SDK

在人脸年龄变化 API 中有一个 AgeInfo 参数,它包含了 Age 和 FaceRect 两个属性,其中 FaceRect 属性必须填人脸在照片中基于左上角的 X、Y 坐标和人脸的高度与宽度。所以先要调用人脸检测与分析 API 得到这些数据。

下面的示例图是在百度图片中截取的。

示例结果

在上面已经得到了各个人脸的 X、Y、Width、Height 属性,加上变老的年龄 Age,就可以请求年龄变化 API 了。

这里需要注意的是 models 模块,人脸检测 models 模块是在 tencentcloud.iai.v20200303 包下,人脸年龄变化的 models 是在 tencentcloud.ft.v20200304 下,两个 models 模块并不兼容。

示例结果

最后的视频可以将图片一张一张插入 PPT 幻灯片,点击保存为视频。

用 Python 制作抖音素材,下一个 30W+ 播放量等着你。