对于整洁的文本数据,储存在每行中的数据通常是单个单词,但也可以是n-gram,句子或段落。
使用unnest_tokens函数对数据进行处理
简单介绍一下unnest_tokens函数:
unnest_tokens这里使用的两个基本参数。首先,输出的列名,上面是word,然后是文本来输入列(text在本例中)。
使用之后unnest_tokens,我们将每行拆分
文本分析的流程:
就是写了傲慢与偏见的那个人,说实话这部作品的确值得一看
数据来自于Jane Austen的 janeaustenr 包
linenumber 对应的是多少行, chapter 对应的是第多少章。
要将其作为一个整洁的数据集来处理,还需要将句子转化成文更加基本的格式
此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词,但其他选项包括字符,n-gram,句子,行,段落或正则表达式模式周围的分隔。
也就是修改下面这个参数:
既然数据是每行一个字的格式,我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中,我们会想要删除停用词停用词是对分析无用的词,通常是非常常见的词,例如英语中的“the”,“of”,“to”等等。我们可以用一个删除停用词(保存在tidytext数据集中stop_words)anti_join()。
我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。
可以看见,最常见的单词是 miss
进行可视化:
因为我们一直在使用整洁的工具,所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包,例如创建最常见单词的可视化
可以查看segmented包求拐点的例子。
R中运行:
library(segmented)
?segmented
。。。。。。
#An example using the default method:
# Cox regression with a segmented relationship
## Not run:
library(survival)
data(stanford2)
o<-coxph(Surv(time, status)~age, data=stanford2)
os<-segmented(o, ~age, psi=40) #estimate the breakpoint in the age effect
summary(os) #actually it means summary.coxph(os)
plot(os) #it does not work
plot.segmented(os) #call explicitly plot.segmented() to plot the fitted piecewise lines
如图,拐点已求出。
StringTokenizer 是一个Java的类,属于 java.util 包,用来分割字符串和枚举类型。StringTokenizer 构造方法:
1. StringTokenizer(String str) :构造一个用来解析 str 的 StringTokenizer 对象。使用默认的分隔符:空格("")、制表符(\t)、换行符(\n)、回车符(\r)。
2. StringTokenizer(String str, String delim) :构造一个用来解析 str 的 StringTokenizer 对象,并提供一个指定的分隔符。
3. StringTokenizer(String str, String delim, boolean returnDelims) :构造一个用来解析 str 的 StringTokenizer 对象,并提供一个指定的分隔符,同时,指定是否返回分隔符。
StringTokenizer 常用方法:
1. int countTokens():返回nextToken方法被调用的次数。可以用来计算字符串分割单元的个数。
2. boolean hasMoreTokens():返回是否还有分隔符。可以用来判断,字符串分割有没有处理完。
3. boolean hasMoreElements():判断枚举 (Enumeration) 对象中是否还有数据。用来判断枚举类型有没有处理完。
4. String nextToken():返回从当前位置到下一个分隔符的字符串。
5. Object nextElement():返回枚举 (Enumeration) 对象的下一个元素。
6. String nextToken(String delim):与 4 类似,以指定的分隔符返回结果。