R语言数据结构

Python016

R语言数据结构,第1张

阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通

函数matrix()创建矩阵。一般使用格式为

其中vector包含了矩阵的元素,nrow和ncol用以指定行和列的维数,dimnames包含了可选

的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)

还是按列填充(byrow=FALSE),默认情况下按列填充

数组(array)与矩阵类似,但是维度可以大于2, 数组可通过array函数创建,形式如下:

myarray <- array(vector, dimensions, dimnames)

其中vector包含了数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大

值,而dimnames是可选的、各维度名称标签的列表

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更

为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的

数据结构

数据框可通过函数data.frame()创建

其中的列向量col1、col2、col3等可为任何类型(如字符型、数值型或逻辑型)。每一列的名

称可由函数names指定

每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框。由于数据框与分析人员通常设想的数据集的形态较为接近,我们在讨论数据框时将交替使用术语列和

变量

类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现

函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上

对于字符型向量,因子的水平默认依字母顺序创建。这对于因子status是有意义的,因为

“Excellent”“Improved”“Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为

“Ailing”,会有问题,因为顺序将为“Ailing”“Excellent”“Improved”。如果理想中的顺序是“Poor” “Improved”“Excellent”,则会出现类似的问题。按默认的字母顺序排序的因子很少能够让人满意.

你可以通过指定levels选项来覆盖默认排序。例如:

各水平的赋值将为1=Poor、2=Improved、3=Excellent。请保证指定的水平与数据中的真实值

相匹配,因为任何在数据中出现而未在参数中列举的数据都将被设为缺失值。数值型变量可以用levels和labels参数来编码成因子。如果男性被编码成1,女性被编码成2,则以下语句

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合

看看如下网上摘录就会有所了解:在国债市场上,利率期限结构是一个重要的概念。研究我国国债利率期限结构,对于我国有着重要的理论和现实意义。目前,我国正在进行利率的市场化改革,其中基准利率的确定是关键的一步。随着我国国债市场的发展,合理的国债利率期限结构,能为基准利率的确定提供参考。同时,我国正准备大力发展金融衍生产品,金融衍生产品交易所也即将在上海成立。只有准确估计利率期限结构,为衍生产品提供定价基础,获得合理的衍生品价格,才能促进金融衍生品市场的健康发展。

国债市场利率期限结构概述

传统利率期限结构研究有三大理论:预期理论,市场分割理论以及流动性偏好理论。它们的问题是只解释了长短期利率差异的原因,不能准确地说明利率的动态变化。现代的利率期限结构理论把利率的运动假设为随机变动过程,以短期利率或短期利率的波动率为变量建立随机模型来模拟描述现实世界的利率变化。在现代利率期限模型中,通常有两部分所构成:一是所谓的漂移项(draft term),二是所谓的波动项部分(variance term)。通常在大部分的利率结构模型中,认为利率变动的漂移项部分有所谓的均值回归(mean reversion)现象,即短期利率受长期平均利率的吸引:当短期利率上涨时,会有力量自然使其下降,向长期平均利率靠拢;当短期利率下降时,会有力量使其上升,从而不偏离长期利率水平。而在波动项的设定上.较早的模型通常假定利率的波动性是固定的,但由于与实际不符,便开始有模型将利率的波动性假定为利率水平的函数,也就是所谓的利率水平项效应(level effect)。现代随机利率期限结构模型主要有均衡模型和无套利模型。

由于国内的利率市场尚未放开以及债券市场规模不大,利率期限结构方面的研究相对国外来说相对落后,并且多为实证分析。陈雯、陈浪南(2000)首次利用连续复利的到期收益率对中国债券市场的利率期限结构进行了静态估计,但是他们的检验没有将息票债券的到期收益率和无息票债券的到期收益率区别开来。朱世武,陈建恒(2003)用三次多项式样条函数方法对交易所国债利率期限结构进行了实证研究。郑振龙,林海(2003)分别采用息票剥离法,以及多项式样条函数法静态估计了中国市场利率期限结构。范龙振(2003)采用两因子Vasicek模型估计了上交所债券利率期限结构。周荣喜,邱菀华(2004),基于多项式样条函数对利率期限结构模型进行了实证比较。谢赤,吴雄伟(2002)基于Vasicek模型和CIR模型实证分析了中国货币市场利率行为。任兆璋.彭化非(2005)用时间序列模型对我国的同业拆借市场进行了利率期限结构的实证分析。王晓芳.刘凤根.韩龙.(2005)以上交所债券价格隐含的利率期限结构数据作为分析对象,利用三次样条函数构造出了中国的利率期限结构曲线,并对其作了相关的评价。从上面可以看出,国内实证研究多以国债市场为对象。研究方法以多项式样条函数法居多,并且样条函数取三次函数,节点的选取多为3个。这是因为多项式样条函数方法要比理论模型像Vasicek模型更有实用价值,估计的结果更好。

实证模型推导和数据说明

(一)基本概念

1.国债品种结构。目前国债按付息方式可以分为:零息国债和附息国债零息国债在存续期内不支付利息,到期一次还本付息。我国在1996年以前发行的国债均属此类。附息国债的利息一般按年支付,到期还本并支付最后一期利息。

2.债券的价格计算。债券的价格可通过如下的公式来计算。

其中Fi表示第i次支付的现金数目(利息或本金),ti′表示第次付现的时间,m表示付现的次数。P(t,T)表示t时刻到期日为T的债券的贴现价格。Fi,P(T,t),m,T对于每一种债券来说都是已知的确定的,因为我们假设国债是无风险的。只有隐含在债券价格中的贴现函数D(ti)是待估计的。D(ti)=e-r(ti)ti,其中的r(ti)即为以复利形式表示的利率期限结构的表达式。

3.国债各种收益率概念。(1)名义收益率。名义收益率=年利息收入÷债券面值×100%。通过这个公式我们可以知道,只有在债券发行价格和债券面值保持相同时,它的名义收益率才会等于实际收益率。例:某债券面值为100元,年利率为6%,那么债券的名义收益率就是票面利率6%。(2)即期收益率。即期收益率也称现行收益率,它是指投资者当时所获得的收益与投资支出的比率。即:即期收益率=年利息收入÷投资支出×100%。例:某债券面值为100元,票面年利率为6%,发行时以95元出售,那么在购买的那一年投资人即期收益率为100×6%÷95×100%=6.32%。(3)持有期收益率。由于债券可以在发行以后买进,也可以不等到偿还到期就卖出,所以就产生了计算这个债券持有期的收益率问题。持有期收益率=[年利息+(卖出价格-买入价格)÷持有年数]÷买入价格×100%。例:某债券面值为100元,年利率为6%,期限5年,每年付息一次。我以95元买进,我预计2年后会涨到98元,并在那时卖出,要求我的持有期收益率。则我的持有期收益率为[100×6%+(98-95)÷2]÷95×100%=7.89%。(4)到期收益串。到期收益率是指投资者在二级市场上买入已经发行的债券并持有到期满为止的这个期限内的年平均收益率。到期收益率的计算根据当时市场价格、面值、息票利率以及距离到期日时间,也假设所有息票以同样的利率进行再投资。到期收益率是度量不同现金流、不同期限债券的回报串的一个公认指标。

(二)多项式样条法

多项式样条法是由McCulloch[9,10,11)提出的,它的主要思想是将贴现函数用分段的多项式函数来表示。

从上面提到的债券的价格公式,我们知道,要求利率期限结构函数r(ti),首先要估计出D(ti)。

K阶多项式样条函数法假设贴现函数D(ti)具有如下的形式:

其中节点t1t2……的位置和数目的确定,理论上并没有统一的方法。

然后根据节点处要保证k-1阶连续的原则,找出各参数之间的关系,减少参数的个数。满足如下的方程

根据样本估计出D(ti)中所包含的参数,从而求解出债券中隐含的利率期限结构r(ti)。

本文中,我们选定多项式样条函数的阶数为3。因为如果阶数过小,如当多项式样条函数为二阶时,D(t)的导数D(2)(t)是离散的;而当阶数过高时,验证D(t)的三阶或四阶函数是否连续的难度很大。

三阶多项式样条函数的形式如下:

同时,为了保证分段函数的平滑和连续,贴现函数还需满足以下约束条件:

在函数分界点的选取上,我们参照国内国债期限结构实证检验上的一般做法,选取5年和8年作为函数的分界点。这样,再加上约束条件,我们就能确定最终函数的具体形式。

可以看出,多项式样条函数的方法事先假设了贴现函数的.形式,是一种典型的参数估计的方法。为了估计参数,我们使用线性最小二乘法进行估计。

(三)最小二乘法

最小二乘法是估计随机变量参数最基本的方法,也是在计量经济分析中运用最早最广泛的参数估计方法。

最小二乘法的基本原理是根据随机变量理论值与观测值的偏差平方和最小来估计参数。

设y是K个随机变量X1,,…XK的函数,含有m个a1,…,am参数,即

如果,是参数a1,…,am的估计,那么就是y的估计值。如果有n个y和X1,…,XK的样本(X1i, ,…Xki,ut),i=1,…,n,那么代入上面的估计方程y=f(a1,…,…amX1,…,…XK)就可以得到n个。n个和y的偏差情况就反映了参数估计量的好坏。如果一组参数使得估计值和观测值的误差平方和最小,那么这样的参数就称为最小二乘估计参数。

实证研究

(一)数据选取

本文采用上海证券交易所交易所2006年4月28日和5月8日的国债收盘数据做为样本。所有44只国债均为固定利率的,其中有5只为半年支付一次利息,一只为每月付息一次,三只贴现债券,其余均为每年付息一次。

选取的是两天的数据,这样就可得到两条利率期限结构曲线。我们就可以分析五一长假前后,国债市场的期限结构是否发生了改变,发生了怎样的改变。

(二)实验结果以及结果分析

用matlab软件编写程序,并将数据输入,运行程序最终的得到的参数估计值如下:

2006年4月28日

d1=0.000626 c1=-0.008315 b1=-0.004094 d2=-0.000024 d3=0.000003,

2006年5月8日

d1=0.000624 c1=-0.008065 b1=-0.005127 d2=-0.000024 d3=0.000003,

得到如下的利率期限结构如图1所示。可以看出,拟合的结果很好,两条曲线很光滑。国债市场的利率期限结构是一条上凸的曲线,长期利率高于短期利率。并且从4月28日和5月8日两条利率期限结构曲线可以看出,短期利率上升,而长期利率变化不大,三月期利率上升了近40个基点。

由理性预期假说可知,从长期来看,短期利率有上升的预期。可以这样来解释,投资者预期我国整体宏观经济会继续保持良好的运行态势,对经济前景充满信心,投资需求进一步上升,从而对于资金的需求会增加,导致长期利率高于短期利率。

另一方面,今年一季度经济增长过快,一季度GDP增速为10.2%,已经超过全年控制在8%的发展预期。央行有可能采取较为紧缩的货币政策来调控经济,这也在一定程度上导致了短期利率的上升。中国人民银行宣布,从4月28日起上调金融机构贷款基准利率,金融机构一年期贷款基准利率上调0.27个百分点,由现行的5.58%提高到5.85%。虽然国债市场和信贷市场属于两个不同的市场,但是通过影响投资者的资金状况,这一货币政策信号很快地传递到了国债市场,导致了短期利率的上调。

整体来讲,国债市场的利率水平低于人民币贷款利率而稍高于存款利率。以一年期利率为例,国债利率介于1.9和2.0之间,而扣除利息税之后的定期存款利率为2.25*0.8=1.8,相应的贷款利率为5.85。

由于国债是以国家的信用作担保的,在我国当前情况下无违约风险,故国债利率可视为无风险利率。而人民币贷款是有一定违约风险的,故其利率有风险补偿因子,贷款利率高于国债利率是应该的。人民币存款利率同样也是无风险的利率,同时考虑到国债市场的流动性要高于定期存款,理论上来讲国债利率应该和存款利率相差不大,甚至略低于存款利率。因此,如果存款利率放开,其利率水平有上升空间。

(三)利率互换仿真定价:

今年年初的利率市场化改革有很多新举措。最耀眼的当属人民币利率互换的推出。今年1月24日,人民银行发布(关于开展人民币利率互换交易试点有关事宜的通知)。2月9日,人民银行正式推出人民币利率互换试点。2月9日,国家开发银行与中国光大银行完成了首笔人民币利率互换交易。名义本金为人民币50亿元,期限10年,光大银行支付固定利率、开发银行支付浮动利率。3月8日,全国银行间同业拆借中心发布公告称,自3月8日起正式对外发布银行间回购定盘利率。从某种意义上可以说,宣告了中国的“LIBOR”的诞生,并为利率相关衍生产品的定价提供了基础。

我们假设有这样一份互换合约。A银行和B银行都有本金为50亿的借款,期限均为一年。A银行的借款为固定利率的,利息为2.25%。B银行的借款为浮动利率的,到期时要支付当天一年期零息票国债的收益率 (即为到期日国债市场一年期利率)。A银行和B银行于2006年5月8日签订互换合约,A银行到期支付浮动利率,B银行到期支付固定利率,则可算出这份互换合约的价值:

2007年5月8日国债市场一年期利率的R07,1,1期望值为

由图1可得,1+R06,1=1.01985,1+R06,2=1.0221,带入可得

1+ER07,1=1.0244

故该互换的价值为

其中L*(ER07,1-0.0225)为B银行期望的现金流,而1+R06,1为贴现因子。故B应该应向A银行支付0.093亿元来购买该互换合约。这是因为该和约对B银行来讲,预期是正的现金流。而A银行则面临负的现金流,故B银行应补贴A银行。

几点结论

本文综述了国内外利率期限结构研究的进展。通过三次样条函数建立模型进行实证分析,我们可以得到如下的结论:

1.三次样条函数可以较好的拟合我国国债市场的利率期限结构

2.当前国债市场的利率期限结构是一条上凸的曲线,形状能够较好的反映了宏观经济对资金的需求情况。

3.我国短期利率有上升的趋势,长期利率表现较为稳定,反映了投资者对经济长期运行态势的信心。

4.与市场化程度很高的国债市场利率相比,存款利率较低。如果放开存款利率,有上升的空间。

r语言数据分析是查看数据的结构、类型,数据处理。根据查询相关资料信息显示:R语言是一个开源、跨平台的科学计算和统计分析软件包,具有丰富多样、强大的的统计功能和数据分析功能,数据可视化可以绘制直方图、箱型图、小提琴图等展示分数的分布情况可以通过散点图和线性拟合来展示分数和年龄之间的关系。