关于R语言的问题

2023-02-24 19:10:01Python013

关于R语言的问题,第1张

这是我以前学习C语言时做过的，希望对你有所帮助！

#include "stdio.h"

#include "stdlib.h"

#include "string.h"

int shoudsave=0/* */

struct student

{

char num[10]/* 学号 */

char name[20]

char sex[4]

int cgrade

int mgrade

int egrade

int totle

int ave

char neartime[10]/* 最近更新时间 */

}

typedef struct node

{

struct student data

struct node *next

}Node,*Link

void menu()

{

printf("********************************************************************************")

printf("\t1登记学生资料\t\t\t\t\t2删除学生资料\n")

printf("\t3查询学生资料\t\t\t\t\t4修改学生资料\n")

printf("\t5保存学生资料\t\t\t\t\t0退出系统\n")

printf("********************************************************************************\n")

}

void printstart()

{

printf("-----------------------------------------------------------------------\n")

}

void Wrong()

{

printf("\n=====>提示:输入错误!\n")

}

void Nofind()

{

printf("\n=====>提示:没有找到该学生!\n")

}

void printc() /* 本函数用于输出中文 */

{

printf(" 学号\t 姓名性别英语成绩数学成绩 C语言成绩总分平均分\n")

}

void printe(Node *p)/* 本函数用于输出英文 */

{

printf("%-12s%s\t%s\t%d\t%d\t%d\t %d\t %d\n",p->data.num,p->data.name,p->data.sex,p->data.egrade,p->data.mgrade,p->data.cgrade,p->data.totle,p->data.ave)

}

Node* Locate(Link l,char findmess[],char nameornum[]) /* 该函数用于定位连表中符合要求的接点，并返回该指针 */

{

Node *r

if(strcmp(nameornum,"num")==0) /* 按学号查询 */

{

r=l->next

while(r!=NULL)

{

if(strcmp(r->data.num,findmess)==0)

return r

r=r->next

}

else if(strcmp(nameornum,"name")==0) /* 按姓名查询 */

{

r=l->next

while(r!=NULL)

{

if(strcmp(r->data.name,findmess)==0)

return r

r=r->next

}

return 0

}

void Add(Link l) /* 增加学生 */

{

Node *p,*r,*s

char num[10]

r=l

s=l->next

while(r->next!=NULL)

r=r->next/* 将指针置于最末尾 */

while(1)

{

printf("请你输入学号(以'0'返回上一级菜单:)")

scanf("%s",num)

if(strcmp(num,"0")==0)

break

while(s)

{

if(strcmp(s->data.num,num)==0)

{

printf("=====>提示:学号为'%s'的学生已经存在,若要修改请你选择'4 修改'!\n",num)

printstart()

printc()

printe(s)

printstart()

printf("\n")

return

}

s=s->next

}

p=(Node *)malloc(sizeof(Node))

strcpy(p->data.num,num)

printf("请你输入姓名:")

scanf("%s",p->data.name)

getchar()

printf("请你输入性别:")

scanf("%s",p->data.sex)

getchar()

printf("请你输入c语言成绩:")

scanf("%d",&p->data.cgrade)

getchar()

printf("请你输入数学成绩:")

scanf("%d",&p->data.mgrade)

getchar()

printf("请你输入英语成绩:")

scanf("%d",&p->data.egrade)

getchar()

p->data.totle=p->data.egrade+p->data.cgrade+p->data.mgrade

p->data.ave=p->data.totle / 3

/* 信息输入已经完成 */

p->next=NULL

r->next=p

r=p

shoudsave=1

}

void Qur(Link l) /* 查询学生 */

{

int sel

char findmess[20]

Node *p

if(!l->next)

{

printf("\n=====>提示:没有资料可以查询!\n")

return

}

printf("\n=====>1按学号查找\n=====>2按姓名查找\n")

scanf("%d",&sel)

if(sel==1)/* 学号 */

{

printf("请你输入要查找的学号:")

scanf("%s",findmess)

p=Locate(l,findmess,"num")

if(p)

{

printf("\t\t\t\t查找结果\n")

printstart()

printc()

printe(p)

printstart()

}

else

Nofind()

}

else if(sel==2) /* 姓名 */

{

printf("请你输入要查找的姓名:")

scanf("%s",findmess)

p=Locate(l,findmess,"name")

if(p)

{

printf("\t\t\t\t查找结果\n")

printstart()

printc()

printe(p)

printstart()

}

else

Nofind()

}

else

Wrong()

}

void Del(Link l) /* 删除 */

{

int sel

Node *p,*r

char findmess[20]

if(!l->next)

{

printf("\n=====>提示:没有资料可以删除!\n")

return

}

printf("\n=====>1按学号删除\n=====>2按姓名删除\n")

scanf("%d",&sel)

if(sel==1)

{

printf("请你输入要删除的学号:")

scanf("%s",findmess)

p=Locate(l,findmess,"num")

if(p)

{

r=l

while(r->next!=p)

r=r->next

r->next=p->next

free(p)

printf("\n=====>提示:该学生已经成功删除!\n")

shoudsave=1

}

else

Nofind()

}

else if(sel==2)

{

printf("请你输入要删除的姓名:")

scanf("%s",findmess)

p=Locate(l,findmess,"name")

if(p)

{

r=l

while(r->next!=p)

r=r->next

r->next=p->next

free(p)

printf("\n=====>提示:该学生已经成功删除!\n")

shoudsave=1

}

else

Nofind()

}

else

Wrong()

}

void Modify(Link l)

{

Node *p

char findmess[20]

if(!l->next)

{

printf("\n=====>提示:没有资料可以修改!\n")

return

}

printf("请你输入要修改的学生学号:")

scanf("%s",findmess)

p=Locate(l,findmess,"num")

if(p)

{

printf("请你输入新学号(原来是%s):",p->data.num)

scanf("%s",p->data.num)

printf("请你输入新姓名(原来是%s):",p->data.name)

scanf("%s",p->data.name)

getchar()

printf("请你输入新性别(原来是%s):",p->data.sex)

scanf("%s",p->data.sex)

printf("请你输入新的c语言成绩(原来是%d分):",p->data.cgrade)

scanf("%d",&p->data.cgrade)

getchar()

printf("请你输入新的数学成绩(原来是%d分):",p->data.mgrade)

scanf("%d",&p->data.mgrade)

getchar()

printf("请你输入新的英语成绩(原来是%d分):",p->data.egrade)

scanf("%d",&p->data.egrade)

p->data.totle=p->data.egrade+p->data.cgrade+p->data.mgrade

p->data.ave=p->data.totle/3

printf("\n=====>提示:资料修改成功!\n")

shoudsave=1

}

else

Nofind()

}

void Disp(Link l)

{

int count=0

Node *p

p=l->next

if(!p)

{

printf("\n=====>提示:没有资料可以显示!\n")

return

}

printf("\t\t\t\t显示结果\n")

printstart()

printc()

printf("\n")

while(p)

{

printe(p)

p=p->next

}

printstart()

printf("\n")

}

void Tongji(Link l)

{

Node *pm,*pe,*pc,*pt,*pa/* 用于指向分数最高的接点 */

Node *r=l->next

if(!r)

{

printf("\n=====>提示:没有资料可以统计!\n")

return

}

pm=pe=pc=pt=pa=r

while(r!=NULL)

{

if(r->data.cgrade>=pc->data.cgrade)

pc=r

if(r->data.mgrade>=pm->data.mgrade)

pm=r

if(r->data.egrade>=pe->data.egrade)

pe=r

if(r->data.totle>=pt->data.totle)

pt=r

if(r->data.ave>=pa->data.ave)

pa=r

r=r->next

}

printf("------------------------------统计结果--------------------------------\n")

printf("总分最高者:\t%s %d分\n",pt->data.name,pt->data.totle)

printf("平均分最高者:\t%s %d分\n",pa->data.name,pa->data.ave)

printf("英语最高者:\t%s %d分\n",pe->data.name,pe->data.egrade)

printf("数学最高者:\t%s %d分\n",pm->data.name,pm->data.mgrade)

printf("c语言最高者:\t%s %d分\n",pc->data.name,pc->data.cgrade)

printstart()

}

void Sort(Link l)

{

Link ll

Node *p,*rr,*s

ll=(Link)malloc(sizeof(Node))/* 用于做新的连表 */

ll->next=NULL

if(l->next==NULL)

{

printf("\n=====>提示:没有资料可以排序!\n")

return

}

p=l->next

while(p)

{

s=(Node*)malloc(sizeof(Node))/* 新建接点用于保存信息 */

s->data=p->data

s->next=NULL

rr=ll

while(rr->next!=NULL &&rr->next->data.totle>=p->data.totle)

rr=rr->next

if(rr->next==NULL)

rr->next=s

else

{

s->next=rr->next

rr->next=s

}

p=p->next

}

free(l)

l->next=ll->next

printf("\n=====>提示:排序已经完成!\n")

}

void Save(Link l)

{

FILE* fp

Node *p

int flag=1,count=0

fp=fopen("c:\\student","wb")

if(fp==NULL)

{

printf("\n=====>提示:重新打开文件时发生错误!\n")

exit(1)

}

p=l->next

while(p)

{

if(fwrite(p,sizeof(Node),1,fp)==1)

{

p=p->next

count++

}

else

{

flag=0

break

}

if(flag)

{

printf("\n=====>提示:文件保存成功.(有%d条记录已经保存.)\n",count)

shoudsave=0

}

fclose(fp)

}

void main()

{

Link l/* 连表 */

FILE *fp/* 文件指针 */

int sel

char ch

char jian

int count=0

Node *p,*r

printf("\t\t\t\t学生成绩管理系统\n\t\t\t\t\n")

l=(Node*)malloc(sizeof(Node))

l->next=NULL

r=l

fp=fopen("C:\\student","rb")

if(fp==NULL)

{

printf("\n=====>提示:文件还不存在，是否创建？(y/n)\n")

scanf("%c",&jian)

if(jian=='y'||jian=='Y')

fp=fopen("C:\\student","wb")

else

exit(0)

}

printf("\n=====>提示:文件已经打开,正在导入记录......\n")

while(!feof(fp))

{

p=(Node*)malloc(sizeof(Node))

if(fread(p,sizeof(Node),1,fp)) /* 将文件的内容放入接点中 */

{

p->next=NULL

r->next=p

r=p/* 将该接点挂入连中 */

count++

}

fclose(fp)/* 关闭文件 */

printf("\n=====>提示:记录导入完毕,共导入%d条记录.\n",count)

while(1)

{

menu()

printf("请你选择操作:")

scanf("%d",&sel)

if(sel==0)

{

if(shoudsave==1)

{ getchar()

printf("\n=====>提示:资料已经改动,是否将改动保存到文件中(y/n)?\n")

scanf("%c",&ch)

if(ch=='y'||ch=='Y')

Save(l)

}

printf("\n=====>提示:你已经退出系统,再见!\n")

break

}

switch(sel)

{

case 1:Add(l)break/* 增加学生 */

case 2:Del(l)break/* 删除学生 */

case 3:Qur(l)break/* 查询学生 */

case 4:Modify(l)break/* 修改学生 */

case 5:Save(l)break/* 保存学生 */

case 9:printf("\t\t\t==========帮助信息==========\n")break

default: Wrong()getchar()break

}

本文分析利用IBM离职员工数据进行分析。在对离职率的影响因素进行观察的基础至上，建立模型并预测哪些员工更易离职。

一般而言，数据分析分为三个步骤：数据收集与清洗、探索性分析和建模预测。本文的数据集是IBM用于研究员工预测的 模拟数据 ，数据十分完整，无需清洗。因此，本文主要分为三个部分：

通过对IBM离职员工数据实践，本文希望发掘出影响员工流失的因素，并对利用R语言进行数据分析过程进行复习，深化对数据分析工作意义的理解。

IBM离职员工数据集共有35个变量，1470个观测个案。部分需要重点关注的变量如下：

上述变量可以分为三个部分：

载入分析包和数据集

通过描述性统计可以初步观测到：

分析结果：

基于对数据的探索性分析，员工离职有多方面因素的影响，主要有：

1.工作与生活的不平衡——加班、离家远和出差等；

2.工作投入如果不能获得相匹配的回报，员工更倾向离职；

3.优先股认购等福利是员工较为关注的回报形式；

4.年龄、任职过的公司数量的因素也会影响员工离职率；

删除需要的变量：EmployeeCount, EmployeeNumber, Over18, StandardHours

变量重新编码：JobRole, EducationFiled

分析结果表明：

随机森林所得的AUC值为0.5612，小于决策树模型。

GBM模型得到的AUC值为0.5915

对于对于随机森林和GBM的方法，AUC值小于单一决策树模型的AUC值的情况较少见，这显然说明单一的树拟合得更好或者更稳定的情况。（一般需要得到AUC值大于0.75的模型）

当结果分类变量之间的比列是1：10或者更高的时候，通常需要考虑优化模型。本例中，离职变量的比列是1：5左右，但仍然可能是合理的，因为在决策树中看到的主要问题是预测那些实际离开的人（敏感度）。

加权旨在降低少数群体中的错误，这里是离职群体。

向上采样（up-sampling）指从多数类中随机删除实例。

向下采样（down-sampling）指从少数类中复制实例。

分析结果表明：

加权调整的模型表现最好，相比较于单纯的随机森林和GBM模型，AUC值从0.5612上升至0.7803，灵敏度也达到了0.7276。据此，后续将采用加权调整后的模型进行预测。

已经训练出一个表现较好的模型。将其应用于实践时，需要注意以下几个方面：

可以观察到影响员工流失的前5个因素是：

因此，在实践中就需要注意：

本例中对工作投入高、收入低的员工进行预测。

本例分析仍有需要足够完善的地方，还可以往更多更有意义的地方探索：

向量是 R 语言中最基本的数据类型，在 R 中没有单独的标量（例如 1 本质上是 c(1)）。

R 中可以用 = 或者 <- 来进行赋值， <-的快捷键是 alt + - 。

R的下标是从1开始的，和python等不同（python四从0开始的）

当然我们也可以用逻辑进行筛选，例如

负数下标表示不选这个这些下标，例如：

c() 可以合并向量，例如

向量有个比较有趣的性质，当两个向量进行操作时，如果长度不等，长度比较短的一个会复制自己直到自己和长的一样长。

a 自动变成了 c(3,4,3,4) 然后与b相加，得到了下面的结果。

遇到不懂得函数，可以用help("函数")查看函数用法。

矩阵，从本质上来说就是多维的向量，我们来看一看我们如何新建一个矩阵。

可以看到向量元素变为矩阵元素的方式是按列的，从第一列到第二列，如果我们想按行输入元素，那么需要加入 byrow = TRUE 的参数：

与向量相似，我们可以用下标来筛选矩阵，例如：

a[行,列]

当我们对两个矩阵相乘，我们得到的结果是对应元素两两相乘的结果，例如：

而这不是我们想要的矩阵乘法，在 R 中我们在乘法旁边加两个百分号来做矩阵乘法：

此外，我们可以用 t() 来求矩阵的转置，用 solve() 来求矩阵的逆。

数据框类似矩阵，与矩阵不同的是，数据框可以有不同的数据类型。一般做数据分析，我们把一个类似 excel 的表格读入 R ，默认的格式就是数据框，可见数据框是一个非常重要的数据结构。

一般来说我们需要分析的数据，每一行代表一个样本，每一列代表一个变量。

下面我们用 R 内置的数据集 iris 来看一看数据框的使用。

我们用 data 函数调入了 iris 这个数据集，然后用 head 函数来看一看这个数据的前几行，可以看到有 sepal 的长度，宽度，petal 的长度和宽度，还有一个变量 Species 来描述样本的类别。

我们可以用 summary 函数来对数据集做大致的了解。

可以直观地看到每个变量的信息，对于几个数值变量，我们可以看到最小值，中位数等等统计信息。而对于 Species 这个分类变量，我们看到的是计数信息。

筛选数据框与矩阵相似,都可以通过数字下标来获取子集，不同地是因为数据框有不同的列名,我们也可以通过列名来获取某一特定列,例如：

我们可以用 names() 函数来获取数据框的列名

并可以通过为其赋值改变列的名字。

列表是一种递归式的向量,我们可以用列表来存储不同类型的数据，比如：

列表有多种索引方式，可以用如下方式获取。

今天我们实验的对象就是一组从原始 R 进化出来的工具链 Tidyverse , 它是由 Hadley Wickham 主导开发的一系列 R 包的集合。 Tidyverse 继承了R语言进行快速统计分析的优势，并实现了一些新的理念，例如 magrittr 包中的管道操作，让线性嵌套的函数组合变得更加清晰易懂；可视化方面中的 ggplot ，使绘图变成搭积木式的图层叠加。

这样的小发明有的改变了分析的运作方式，有的改变了使用者的认知方式，聚在一起形成了一种新的数据分析的生态链。具体来看， Tidyverse 有如下核心组件:

mpg 数据集是刻画不同汽车的排放状况的一个数据集，总过有 234 个样本， 11 个变量。这 11 个变量分别是:

manufacture: 制造商

model: 车型

dispel：汽车排放量

year: 制造年度

cyl: 排气管数量

trans: 排放类型

drv: 驱动方式

cty: 每公里耗油量（城市道路）

hwy: 每公里耗油量（高速路）

fl: 油的种类