R读取大型数据集内存不足如何解决,如果利用Linux有什么有效方法吗?

Python014

R读取大型数据集内存不足如何解决,如果利用Linux有什么有效方法吗?,第1张

有个比较简单暴力的方法是fread里的nrows参数设置。

R所有读取数据的函数都有nrows和skip这两个参数,可以写个循环,一个文件分段读取,skip跳过前面读过的,用nrows控制最大读入行数,防止内存不足。

分段处理之后将文件写入本地,用rm将比较大的变量消除掉,用gc()释放这部分内存。

——好处是简单粗暴多平台可用,缺点是,真的很慢……

如果有条件还是建议申请个服务器来跑,比如学生可以询问导师院系有没有用于大型计算的服务器。

另外Unix系统对内存的限制确实是比Windows好些,可惜我也不知道正确的打开方式QAQ

很久很久没更新了,最近遇到了如题所示的问题

然后安静的让他跑着,回去睡觉了。但是。 一个核跑了一夜也没跑完

然后查了一下有parallel包,

加速显而易见,但是也不是成比例的,任务分发以及各核心之间转换也需要时间

fine, 焦虑。做实验去

转化。r语言中自由度不足,只需要使用as.factor()函数将因子列转化为因子型变量即可。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。