R所有读取数据的函数都有nrows和skip这两个参数,可以写个循环,一个文件分段读取,skip跳过前面读过的,用nrows控制最大读入行数,防止内存不足。
分段处理之后将文件写入本地,用rm将比较大的变量消除掉,用gc()释放这部分内存。
——好处是简单粗暴多平台可用,缺点是,真的很慢……
如果有条件还是建议申请个服务器来跑,比如学生可以询问导师院系有没有用于大型计算的服务器。
另外Unix系统对内存的限制确实是比Windows好些,可惜我也不知道正确的打开方式QAQ
R所有读取数据的函数都有nrows和skip这两个参数,可以写个循环,一个文件分段读取,skip跳过前面读过的,用nrows控制最大读入行数,防止内存不足。
分段处理之后将文件写入本地,用rm将比较大的变量消除掉,用gc()释放这部分内存。
——好处是简单粗暴多平台可用,缺点是,真的很慢……
如果有条件还是建议申请个服务器来跑,比如学生可以询问导师院系有没有用于大型计算的服务器。
另外Unix系统对内存的限制确实是比Windows好些,可惜我也不知道正确的打开方式QAQ