R语言 数据挖掘-文本分析(1)

Python012

R语言 数据挖掘-文本分析(1),第1张

刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包

,下面简介文本分析经常使用到的三个包

tm 为文本挖掘提供综合性处理 Rwordmsg 进行中文分词 wordcloud 统计词云

以第三届泰迪杯A题提供的数据集国美-Sheet1进行文本分析 : 第三届泰迪杯

转化为txt的数据集如下图所示:

生成词云:

用结巴包做分词,Github的地址:https://github.com/qinwf/jieba

用freq()就可以统计出词频了,不过是结果是没有排序的。

  System.currentTimeMillis() :返回当前系统的毫秒数,由于取得的是毫秒数,所以在处理UNIX时间戳的时候需要转换成秒

    也就是:

        long epoch = System.currentTimeMillis()/1000

方法:

    1、获取当前系统的UNIX时间戳

        System.out.println("获取系统毫秒数方法1:"+Long.toString(new Date().getTime()))

        System.out.println("获取系统毫秒数方法2:"+Long.toString(System.currentTimeMillis()))

    注意:以上代码获取的都是系统毫秒数,在实际的操作中我们一般都是记录毫秒说以求记录的精度,当处理UNIX时间戳的时候需要把数据进行处理。

    2、将UNIX时间戳转换成系统可以处理的时间

        System.out.println(""+new java.text.SimpleDateFormat("yyyy MM-dd HH:mm:ss").format(new java.util.Date (1215782027390L)))

        输出:2008 07-11 21:13:47

    注意:此时处理的数据为系统毫秒不是UNIX时间戳

    

    3、讲时间转换成UNIX时间戳

        long epoch = new java.text.SimpleDateFormat ("dd/MM/yyyy HH:mm:ss").parse("09/22/2008 16:33:00").getTime()

注意:

    请注意!对与不同的时区处理上有差异,首先要清楚自己所在的时区。

        String timezone_info = System.getProperty("user.timezone")

        System.out.println("当前的时区:"+timezone_info)

        System.out.println("时区信息:"+TimeZone.getDefault())

    输出:

         当前的时区:Asia/Shanghai

         时区信息:sun.util.calendar.ZoneInfo[id="Asia/Shanghai",offset=28800000,dstSavings=0,useDaylight=false,transitions=19,lastRule=null]

    处理不同的时区的方法:

        SimpleDateFormat sd = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")

            sd.setTimeZone(TimeZone.getTimeZone("GMT+8"))

            String strDate = sd.format(new Date(1215782027390L))

            System.out.println("正八区当前时间:"+strDate)

         输出:

                 正八区当前时间:2008-07-11 21:13:47