安装语音识别,语音识别器编码,处理Ubuntu服务器,处理WSL。
要运行我们代码的语音识别库,我们首先需要安装语音识别,然后还必须安装PyAudio。首先,我们从主包开始:sudo pip3 install SpeechRecognition安装应该遵循完全相同的格式,但我似乎缺少了让它正常工作的软件包,试图安装PyAudio会出错。这些软件包应该删除该错误。那时我不需要更新apt,但先更新它并不坏处。sudo apt-get install libasound-dev portaudio19-dev libportaudio2libportaudiocpp0有了它,您应该可以安装PyAudio:sudo pip3 install PyAudio语音识别器编码。
运行WSL(Linux版Windows子系统)的Windows机器。它也使用了Ubuntu 16.04,所以安装过程是一样的。不过说到使用麦克风,WSL并不那么简单。为了通过Ubuntu终端应用程序控制麦克风,需要安装PulseAudio。
原文:
Python version
ttslearn のインストール
ttslearn の动作确认
パッケージのインポート
描画周りの设定
NumPy と Torch を用いた配列の作成
numpy.ndarray と torch.Tensor のインタフェースの违い
numpy.ndarray と torch.Tensor の相互変换
numpy.ndarray と torch.Tensor のメモリ共有
scipy.io.wavfile を利用した音声ファイルの読み込み
音声の可视化
窓関数
短时间フーリエ変换の実装
短时间フーリエ変换の结果の可视化
librosa.stft を用いた短时间フーリエ変换
librosa.stftは、STFTを実行する前にデフォルトで信号の冒头と末尾にパディング処理を行います。前述のSTFT実装はこの処理をサポートしていないため、同等のSTFTの结果を得るためには、center=Falseとしてパディング処理を行わないように设定します。
时间解像度と周波数解像度のトレードオフ
逆短时间フーリエ変换による音声の复元
メルフィルタバンク
メルスペクトログラムの计算
Griffin-Lim のアルゴリズムに基づく位相复元
瞬时周波数の可视化 (bonus)
Griffin-Limのアルゴリズムは、位相复元手法です。合成音声と自然音声の瞬时位相(位相の时间微分)を比较することで、位相复元が期待通り行われているかを视覚的に确认できます。
翻译:
Python 版本
ttslearn 的安装
ttslearn 的操作确认
导入程序包
设置绘图格式
使用NumPy和Torch创建数组
numpy.ndarray和torch.Tensor之间的接口差异
numpy.ndarray和torch.Tensor的相互转换
numpy.ndarray和torch.Tensor的内存共享
使用scipy.io.wavfile读取音频文件
语音可视化
窗函数
短时傅立叶变换的实现
短时傅立叶变换结果的可视化
使用librosa.stft的短时傅立叶变换
缺省情况下,librosa.stft在执行STFT(短时傅里叶变换)之前会对信号的开头和结尾进行填充。 由于上面提到的STFT实现不支持此操作,因此要获得等效的STFT结果,请将填充操作设置为center=False。
在时间分辨率和频率分辨率间权衡取舍
通过逆短时傅立叶变换进行语音的复原
邮件过滤器组
计算质谱图
基于Griffin-Lim算法的相位复原
瞬时频率可视化(bonus)
Griffin-Lim的算法是一种相位恢复方法。 通过比较合成语音和自然语音的瞬时相位(相位的时间微分),我们可以直观地看到相位恢复是否按预期进行。
使用 Python 和麦克风进行语音数据采集的流程可能包括以下步骤:
安装并导入相应的库:需要安装并导入 PyAudio 库,这个库可以让你在 Python 中操作麦克风。
打开麦克风:使用 PyAudio 库打开麦克风,并设置采样率,采样位数等参数。
开始录音:使用 PyAudio 库的 read 方法从麦克风中读取语音数据。
存储数据:使用 Python 的文件操作函数将读取到的语音数据存储到本地磁盘上。
关闭麦克风:使用 PyAudio 库关闭麦克风。
处理数据:在结束采集之后可以对音频数据进行处理,比如语音识别,语音合成,语音压缩等.
注意:请确保在你的系统中已经安装好了麦克风驱动,并且在 Python 代码中有足够的权限访问麦克风。