#include "stdio.h"
#include "stdlib.h"
#include "string.h"
int shoudsave=0/* */
struct student
{
char num[10]/* 学号 */
char name[20]
char sex[4]
int cgrade
int mgrade
int egrade
int totle
int ave
char neartime[10]/* 最近更新时间 */
}
typedef struct node
{
struct student data
struct node *next
}Node,*Link
void menu()
{
printf("********************************************************************************")
printf("\t1登记学生资料\t\t\t\t\t2删除学生资料\n")
printf("\t3查询学生资料\t\t\t\t\t4修改学生资料\n")
printf("\t5保存学生资料\t\t\t\t\t0退出系统\n")
printf("********************************************************************************\n")
}
void printstart()
{
printf("-----------------------------------------------------------------------\n")
}
void Wrong()
{
printf("\n=====>提示:输入错误!\n")
}
void Nofind()
{
printf("\n=====>提示:没有找到该学生!\n")
}
void printc() /* 本函数用于输出中文 */
{
printf(" 学号\t 姓名 性别 英语成绩 数学成绩 C语言成绩 总分 平均分\n")
}
void printe(Node *p)/* 本函数用于输出英文 */
{
printf("%-12s%s\t%s\t%d\t%d\t%d\t %d\t %d\n",p->data.num,p->data.name,p->data.sex,p->data.egrade,p->data.mgrade,p->data.cgrade,p->data.totle,p->data.ave)
}
Node* Locate(Link l,char findmess[],char nameornum[]) /* 该函数用于定位连表中符合要求的接点,并返回该指针 */
{
Node *r
if(strcmp(nameornum,"num")==0) /* 按学号查询 */
{
r=l->next
while(r!=NULL)
{
if(strcmp(r->data.num,findmess)==0)
return r
r=r->next
}
}
else if(strcmp(nameornum,"name")==0) /* 按姓名查询 */
{
r=l->next
while(r!=NULL)
{
if(strcmp(r->data.name,findmess)==0)
return r
r=r->next
}
}
return 0
}
void Add(Link l) /* 增加学生 */
{
Node *p,*r,*s
char num[10]
r=l
s=l->next
while(r->next!=NULL)
r=r->next/* 将指针置于最末尾 */
while(1)
{
printf("请你输入学号(以'0'返回上一级菜单:)")
scanf("%s",num)
if(strcmp(num,"0")==0)
break
while(s)
{
if(strcmp(s->data.num,num)==0)
{
printf("=====>提示:学号为'%s'的学生已经存在,若要修改请你选择'4 修改'!\n",num)
printstart()
printc()
printe(s)
printstart()
printf("\n")
return
}
s=s->next
}
p=(Node *)malloc(sizeof(Node))
strcpy(p->data.num,num)
printf("请你输入姓名:")
scanf("%s",p->data.name)
getchar()
printf("请你输入性别:")
scanf("%s",p->data.sex)
getchar()
printf("请你输入c语言成绩:")
scanf("%d",&p->data.cgrade)
getchar()
printf("请你输入数学成绩:")
scanf("%d",&p->data.mgrade)
getchar()
printf("请你输入英语成绩:")
scanf("%d",&p->data.egrade)
getchar()
p->data.totle=p->data.egrade+p->data.cgrade+p->data.mgrade
p->data.ave=p->data.totle / 3
/* 信息输入已经完成 */
p->next=NULL
r->next=p
r=p
shoudsave=1
}
}
void Qur(Link l) /* 查询学生 */
{
int sel
char findmess[20]
Node *p
if(!l->next)
{
printf("\n=====>提示:没有资料可以查询!\n")
return
}
printf("\n=====>1按学号查找\n=====>2按姓名查找\n")
scanf("%d",&sel)
if(sel==1)/* 学号 */
{
printf("请你输入要查找的学号:")
scanf("%s",findmess)
p=Locate(l,findmess,"num")
if(p)
{
printf("\t\t\t\t查找结果\n")
printstart()
printc()
printe(p)
printstart()
}
else
Nofind()
}
else if(sel==2) /* 姓名 */
{
printf("请你输入要查找的姓名:")
scanf("%s",findmess)
p=Locate(l,findmess,"name")
if(p)
{
printf("\t\t\t\t查找结果\n")
printstart()
printc()
printe(p)
printstart()
}
else
Nofind()
}
else
Wrong()
}
void Del(Link l) /* 删除 */
{
int sel
Node *p,*r
char findmess[20]
if(!l->next)
{
printf("\n=====>提示:没有资料可以删除!\n")
return
}
printf("\n=====>1按学号删除\n=====>2按姓名删除\n")
scanf("%d",&sel)
if(sel==1)
{
printf("请你输入要删除的学号:")
scanf("%s",findmess)
p=Locate(l,findmess,"num")
if(p)
{
r=l
while(r->next!=p)
r=r->next
r->next=p->next
free(p)
printf("\n=====>提示:该学生已经成功删除!\n")
shoudsave=1
}
else
Nofind()
}
else if(sel==2)
{
printf("请你输入要删除的姓名:")
scanf("%s",findmess)
p=Locate(l,findmess,"name")
if(p)
{
r=l
while(r->next!=p)
r=r->next
r->next=p->next
free(p)
printf("\n=====>提示:该学生已经成功删除!\n")
shoudsave=1
}
else
Nofind()
}
else
Wrong()
}
void Modify(Link l)
{
Node *p
char findmess[20]
if(!l->next)
{
printf("\n=====>提示:没有资料可以修改!\n")
return
}
printf("请你输入要修改的学生学号:")
scanf("%s",findmess)
p=Locate(l,findmess,"num")
if(p)
{
printf("请你输入新学号(原来是%s):",p->data.num)
scanf("%s",p->data.num)
printf("请你输入新姓名(原来是%s):",p->data.name)
scanf("%s",p->data.name)
getchar()
printf("请你输入新性别(原来是%s):",p->data.sex)
scanf("%s",p->data.sex)
printf("请你输入新的c语言成绩(原来是%d分):",p->data.cgrade)
scanf("%d",&p->data.cgrade)
getchar()
printf("请你输入新的数学成绩(原来是%d分):",p->data.mgrade)
scanf("%d",&p->data.mgrade)
getchar()
printf("请你输入新的英语成绩(原来是%d分):",p->data.egrade)
scanf("%d",&p->data.egrade)
p->data.totle=p->data.egrade+p->data.cgrade+p->data.mgrade
p->data.ave=p->data.totle/3
printf("\n=====>提示:资料修改成功!\n")
shoudsave=1
}
else
Nofind()
}
void Disp(Link l)
{
int count=0
Node *p
p=l->next
if(!p)
{
printf("\n=====>提示:没有资料可以显示!\n")
return
}
printf("\t\t\t\t显示结果\n")
printstart()
printc()
printf("\n")
while(p)
{
printe(p)
p=p->next
}
printstart()
printf("\n")
}
void Tongji(Link l)
{
Node *pm,*pe,*pc,*pt,*pa/* 用于指向分数最高的接点 */
Node *r=l->next
if(!r)
{
printf("\n=====>提示:没有资料可以统计!\n")
return
}
pm=pe=pc=pt=pa=r
while(r!=NULL)
{
if(r->data.cgrade>=pc->data.cgrade)
pc=r
if(r->data.mgrade>=pm->data.mgrade)
pm=r
if(r->data.egrade>=pe->data.egrade)
pe=r
if(r->data.totle>=pt->data.totle)
pt=r
if(r->data.ave>=pa->data.ave)
pa=r
r=r->next
}
printf("------------------------------统计结果--------------------------------\n")
printf("总分最高者:\t%s %d分\n",pt->data.name,pt->data.totle)
printf("平均分最高者:\t%s %d分\n",pa->data.name,pa->data.ave)
printf("英语最高者:\t%s %d分\n",pe->data.name,pe->data.egrade)
printf("数学最高者:\t%s %d分\n",pm->data.name,pm->data.mgrade)
printf("c语言最高者:\t%s %d分\n",pc->data.name,pc->data.cgrade)
printstart()
}
void Sort(Link l)
{
Link ll
Node *p,*rr,*s
ll=(Link)malloc(sizeof(Node))/* 用于做新的连表 */
ll->next=NULL
if(l->next==NULL)
{
printf("\n=====>提示:没有资料可以排序!\n")
return
}
p=l->next
while(p)
{
s=(Node*)malloc(sizeof(Node))/* 新建接点用于保存信息 */
s->data=p->data
s->next=NULL
rr=ll
while(rr->next!=NULL &&rr->next->data.totle>=p->data.totle)
rr=rr->next
if(rr->next==NULL)
rr->next=s
else
{
s->next=rr->next
rr->next=s
}
p=p->next
}
free(l)
l->next=ll->next
printf("\n=====>提示:排序已经完成!\n")
}
void Save(Link l)
{
FILE* fp
Node *p
int flag=1,count=0
fp=fopen("c:\\student","wb")
if(fp==NULL)
{
printf("\n=====>提示:重新打开文件时发生错误!\n")
exit(1)
}
p=l->next
while(p)
{
if(fwrite(p,sizeof(Node),1,fp)==1)
{
p=p->next
count++
}
else
{
flag=0
break
}
}
if(flag)
{
printf("\n=====>提示:文件保存成功.(有%d条记录已经保存.)\n",count)
shoudsave=0
}
fclose(fp)
}
void main()
{
Link l/* 连表 */
FILE *fp/* 文件指针 */
int sel
char ch
char jian
int count=0
Node *p,*r
printf("\t\t\t\t学生成绩管理系统\n\t\t\t\t\n")
l=(Node*)malloc(sizeof(Node))
l->next=NULL
r=l
fp=fopen("C:\\student","rb")
if(fp==NULL)
{
printf("\n=====>提示:文件还不存在,是否创建?(y/n)\n")
scanf("%c",&jian)
if(jian=='y'||jian=='Y')
fp=fopen("C:\\student","wb")
else
exit(0)
}
printf("\n=====>提示:文件已经打开,正在导入记录......\n")
while(!feof(fp))
{
p=(Node*)malloc(sizeof(Node))
if(fread(p,sizeof(Node),1,fp)) /* 将文件的内容放入接点中 */
{
p->next=NULL
r->next=p
r=p/* 将该接点挂入连中 */
count++
}
}
fclose(fp)/* 关闭文件 */
printf("\n=====>提示:记录导入完毕,共导入%d条记录.\n",count)
while(1)
{
menu()
printf("请你选择操作:")
scanf("%d",&sel)
if(sel==0)
{
if(shoudsave==1)
{ getchar()
printf("\n=====>提示:资料已经改动,是否将改动保存到文件中(y/n)?\n")
scanf("%c",&ch)
if(ch=='y'||ch=='Y')
Save(l)
}
printf("\n=====>提示:你已经退出系统,再见!\n")
break
}
switch(sel)
{
case 1:Add(l)break/* 增加学生 */
case 2:Del(l)break/* 删除学生 */
case 3:Qur(l)break/* 查询学生 */
case 4:Modify(l)break/* 修改学生 */
case 5:Save(l)break/* 保存学生 */
case 9:printf("\t\t\t==========帮助信息==========\n")break
default: Wrong()getchar()break
}
}
}
本文分析利用IBM离职员工数据进行分析。在对离职率的影响因素进行观察的基础至上,建立模型并预测哪些员工更易离职。
一般而言,数据分析分为三个步骤:数据收集与清洗、探索性分析和建模预测。本文的数据集是IBM用于研究员工预测的 模拟数据 ,数据十分完整,无需清洗。因此,本文主要分为三个部分:
通过对IBM离职员工数据实践,本文希望发掘出影响员工流失的因素,并对利用R语言进行数据分析过程进行复习,深化对数据分析工作意义的理解。
IBM离职员工数据集共有35个变量,1470个观测个案。部分需要重点关注的变量如下:
上述变量可以分为三个部分:
载入分析包和数据集
通过描述性统计可以初步观测到:
分析结果:
基于对数据的探索性分析,员工离职有多方面因素的影响,主要有:
1.工作与生活的不平衡——加班、离家远和出差等;
2.工作投入如果不能获得相匹配的回报,员工更倾向离职;
3.优先股认购等福利是员工较为关注的回报形式;
4.年龄、任职过的公司数量的因素也会影响员工离职率;
删除需要的变量:EmployeeCount, EmployeeNumber, Over18, StandardHours
变量重新编码:JobRole, EducationFiled
分析结果表明:
随机森林所得的AUC值为0.5612,小于决策树模型。
GBM模型得到的AUC值为0.5915
对于对于随机森林和GBM的方法,AUC值小于单一决策树模型的AUC值的情况较少见,这显然说明单一的树拟合得更好或者更稳定的情况。(一般需要得到AUC值大于0.75的模型)
当结果分类变量之间的比列是1:10或者更高的时候,通常需要考虑优化模型。本例中,离职变量的比列是1:5左右,但仍然可能是合理的,因为在决策树中看到的主要问题是预测那些实际离开的人(敏感度)。
加权旨在降低少数群体中的错误,这里是离职群体。
向上采样(up-sampling)指从多数类中随机删除实例。
向下采样(down-sampling)指从少数类中复制实例。
分析结果表明:
加权调整的模型表现最好,相比较于单纯的随机森林和GBM模型,AUC值从0.5612上升至0.7803,灵敏度也达到了0.7276。据此,后续将采用加权调整后的模型进行预测。
已经训练出一个表现较好的模型。将其应用于实践时,需要注意以下几个方面:
可以观察到影响员工流失的前5个因素是:
因此,在实践中就需要注意:
本例中对工作投入高、收入低的员工进行预测。
本例分析仍有需要足够完善的地方,还可以往更多更有意义的地方探索:
向量是 R 语言中最基本的数据类型,在 R 中没有单独的标量(例如 1 本质上是 c(1)) 。
R 中可以用 = 或者 <- 来进行赋值 , <-的快捷键是 alt + - 。
R的下标是从1开始的,和python等不同(python四从0开始的)
当然我们也可以用逻辑进行筛选,例如
负数下标表示不选这个这些下标,例如:
c() 可以合并向量,例如
向量有个比较有趣的性质,当两个向量进行操作时,如果长度不等, 长度比较短的一个会复制自己直到自己和长的一样长。
a 自动变成了 c(3,4,3,4) 然后与b相加 , 得到了下面的结果。
遇到不懂得函数,可以用help("函数")查看函数用法。
矩阵,从本质上来说就是多维的向量,我们来看一看 我们如何新建一个矩阵。
可以看到向量元素变为矩阵元素的方式是按列的,从第一列 到第二列,如果我们想按行输入元素,那么需要加入 byrow = TRUE 的参数:
与向量相似,我们可以用下标来筛选矩阵, 例如:
a[行,列]
当我们对两个矩阵相乘,我们得到的结果是 对应元素两两相乘的结果,例如:
而这不是我们想要的矩阵乘法,在 R 中我们在乘法旁边加两个 百分号来做矩阵乘法:
此外,我们可以用 t() 来求矩阵的转置 , 用 solve() 来求矩阵的逆。
数据框类似矩阵,与矩阵不同的是,数据框可以有不同的数据类型。 一般做数据分析,我们把一个类似 excel 的表格读入 R ,默认的格式 就是数据框 , 可见数据框是一个非常重要的数据结构。
一般来说我们需要分析的数据,每一行代表一个样本,每一列代表一个 变量。
下面我们用 R 内置的数据集 iris 来看一看数据框的使用。
我们用 data 函数调入了 iris 这个数据集 , 然后用 head 函数来看一看这个数据 的前几行 , 可以看到有 sepal 的长度,宽度,petal 的长度和宽度,还有一个变量 Species 来描述样本的类别。
我们可以用 summary 函数来对数据集做大致的了解。
可以直观地看到每个变量的信息,对于几个数值变量,我们可以看到最小值,中位数等等统计信息。而对于 Species 这个分类变量,我们看到的是计数信息。
筛选数据框与矩阵相似,都可以通过数字下标来获取子集,不同地是因为数据框有不同的列名,我们也可以通过列名来获取某一特定列,例如:
我们可以用 names() 函数来获取数据框的列名
并可以通过为其赋值改变列的名字。
列表是一种递归式的向量,我们可以用列表来存储不同类型的数据,比如:
列表有多种索引方式,可以用如下方式获取。
今天我们实验的对象就是一组从原始 R 进化出来的工具链 Tidyverse , 它是由 Hadley Wickham 主导开发的一系列 R 包的集合。 Tidyverse 继承了R语言进行快速统计分析的优势 , 并实现了一些新的理念 , 例如 magrittr 包中的管道操作 , 让线性嵌套的函数组合变得更加清晰易懂;可视化方面中的 ggplot ,使绘图变成搭积木式的图层叠加。
这样的小发明有的改变了分析的运作方式 , 有的改变了使用者的认知方式 , 聚在一起形成了一种新的数据分析的生态链 。具体来看 , Tidyverse 有如下核心组件:
mpg 数据集是刻画不同汽车的排放状况的一个数据集, 总过有 234 个样本 , 11 个变量 。 这 11 个变量分别是:
manufacture: 制造商
model: 车型
dispel: 汽车排放量
year: 制造年度
cyl: 排气管数量
trans: 排放类型
drv: 驱动方式
cty: 每公里耗油量(城市道路)
hwy: 每公里耗油量(高速路)
fl: 油的种类
class: 车的类型
更多数据相关信息可以通过 help(mpg) 指令获取。
在属性映射中加入 color=class 参数后 , 我们可以看到每个点的汽车对应的类型被用 不同颜色表现了出来 , 对于散点图 , 还有 size(大小) , shape(形状) 等等参数 可以用于确定点的属性。
对于条形图的y轴就是数据框中原本的数值时,必须将geom_bar()函数中stat(统计转换)参数设置为’identity’,即对原始数据集不作任何统计变换,而该参数的默认值为’count’,即观测数量。