python读取财经数据

Python08

python读取财经数据,第1张

提取日期数据基本语法

from WindPy import w

w.start()

当出现.ErrorCode==-103说明没连接上,要start一下

w.wsd(security, fields, startDate = None, endDate= None , options = None)

opion 可选(period, 日期类型, 货币类型,前后复权)

提取财务数据基本语法

w.wss(security, fields, options = None)

提取板块日序列基本语法

w.wses(sectorCode, fields, startDate = None, endDate = None, options = None)

提取板块日截面数据基本语法

w.wsee(sectorCode, fields, options=None)

提取宏观数据基本语法

w.edb(codes, startDate =None, endDate =None, options=None)

1.日期序列基本语法

ts.get_hist_data(stock,start,end)

注意:1.stock不能是集合,只能单个股票 2.需要带上.sz或.sh 3.没有field,只能取出数据后再切除.

2.pro用法

pro.daily(code, start, end, fields)

tushare引用语句

弊端也很明显,一方面不能stock集合输入,一次只能调取一个股票对应数据,另一方面tushare虽是免费试用,但有权限限制。

基本语法

wb.get_data_yahoo(code, start, end)

wb.DataReader(code, 'yahoo', start, end)

没法添加fields, 虽能集合适用,但出来的索引挺奇怪的

推荐使用定义函数或用for循环批量获取数据

总体感觉wind api最舒服,但需要账号,mac也不能直接调用wind api。还是推荐tushare的pro用法。

小白学习中,请指教=v=

数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。下面就一起看下常用六大步完成数据预处理。

Step 1:导入相关模块

Step 2:获取数据

特征构造

Step 3:处理缺失值

Step 4:分类数据编码

创建虚拟变量

Step 5:划分训练集和测试集

Step 6:特征标准化

数据变换十大秘诀

数据变换[1]是将数据集的每个元素乘以常数;也就是说,将每个数变换为,其中,和都是实数。数据变换将可能改变数据的分布以及数据点的位置。

数据标准化[2](有时称为 z-score 或 standar score)是已重新缩放为平均值为零且标准偏差为1的变量。对于标准化变量,每种情况下的值在标准化变量上的值都表明它与原始变量的均值(或原始变量的标准偏差)的差值。

归一化数据 是将数据缩放到0到1范围内。

Binarizing Data

二值化[3]是将任何实体的数据特征转换为二值化的向量以使分类器算法更高效的过程。在一个简单的示例中,将图像的灰度从0-255光谱转换为0-

1 光谱就是二值化。

Mean Removal

去均值法 是将均值从每一列或特征中移除,使其以零为中心的过程。

One Hot Encoding

独热编码[4]是将分类变量转换为可以提供给ML算法以更好地进行预测的形式的过程。

Label Encoding

标签编码 适用于具有分类变量并将数据转换为数字的数据。

fit

transform

词向量 用于带有标签和数字的数据。此外,词向量可用于提取数据。

获取特征名称

Polynomial Features

多项式特征 用于生成多项式特征和交互特征。它还生成了一个新的特征矩阵数据,该数据是由所有次数小于或等于指定次数的特征的多项式组合组成的。

截距项

填补 (如用均值填补缺失值),它用列或特性数据中的平均值替换缺失的值