nchar
取字符数量的函数
length与nchar不同,length是取向量的长度
# nchar表示字符串中的字符的个数
nchar("abcd")
[1] 4
# length表示向量中元素的个数
length("abcd")
[1] 1
length(c("hello", "world"))
[1] 2
chartr
字符替换
chartr(old="a", new="c", x="a123")
[1] "c123"
chartr(old="a", new="A", x="data")
[1] "dAtA"
paste和paste0
字符串粘合函数
paste在不指定分割符的情况下,默认分割符是空格
paste0在不指定分割符的情况下,默认分割符是空
# 默认以空格隔开
paste("Hello","world")
[1] "Hello world"
# 没有空格
paste0("Hello","world")
[1] "Helloworld"
# 指定分割符
paste("abc", "efg", "hijk", sep = "-")
[1] "abc-efg-hijk"
# 分别对向量的每一个元素进行连接
paste0("A", 1:6, sep = "")
[1] "A1" "A2" "A3" "A4" "A5" "A6"
# collapse参数:每一个元素操作之后,再把向量的每一个元素进行连接
paste0("A", 1:6, sep = "",collapse = "-")
[1] "A1-A2-A3-A4-A5-A6"
substr
字符串截取函数
substr(x = "hello", start = 1, stop = 2)
[1] "he"
strsplit
字符串的分割函数,可以指定分割符,生成一个list
strsplit("abc", split = "")
[[1]]
[1] "a" "b" "c"
如果要对一个向量使用该函数,需要注意。
# 分割向量的每一个元素,并取分割后的第一个元素
unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))
[1] "a" "b" "d"
gsub和sub
字符串替换
gsub替换匹配到的全部
sub 替换匹配到的第一个
# 将b替换为B
gsub(pattern = "b", replacement = "B", x = "baby")
[1] "BaBy"
gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))
[1] "aBcB" "Boy" "BaBy"
# 只替换第一个b
sub(pattern = "b", replacement = "B", x = "baby")
[1] "Baby"
sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))
[1] "aBcb" "Baby"
grep和grepl
字符串匹配
grep函数返回的是索引值
grepl函数返回的是逻辑值
# 返回匹配到的元素的索引
grep(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] 2
# 返回逻辑值
grepl(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] FALSE TRUE FALSE
match &&pmatch &&charmatch
1、match
Usage
match(x, table, nomatch = NA_integer_, incomparables = NULL)
x %in% table
参数:
x: vector or NULL: the values to be matched. Long vectors are supported.
table : vector or NULL: the values to be matched against. Long vectors are not supported. (被匹配的值)
nomatch: the value to be returned in the case when no match is found. Note that it is coerced to integer. (没有match上的返回的值)
incomparables : a vector of values that cannot be matched. Any value in x matching a value in this vector is assigned the nomatch value. For historical reasons, FALSE is equivalent to NULL. (不同来匹配的值)
match函数类似与 %in%,不同的是match返回的是索引,而%in%返回的是逻辑值。
你的code是找n以下所有的质数Q2: 你的循环条件就是sieve不能是空,所以不能是>1,一旦sieve空了,也就是sieve里的元素都能被p整除,循环停止。
Q3:这是R语言,没有0的index
Q4:return是函数返回值,primes就是储存n以下所有质数的向量,不返回这个返回啥。
Q5:stop就是当不满足if里的条件n>2时,错误信息提示:你的input value 必须大于等于2
Q6: 感觉这是道English 的题目,你是不是直接翻译过来的。直接把原题贴上来。
Q7: break加在sieve <- sieve [ (sieve %% p )!=0]的后面,整个code 的思想是2到100(我假设n=100),把2拿出来放到primes里,然后去掉2的倍数;接着把3push到primes里,之后去掉3的倍数;为什么没有4直接到5?因为在第一步4就被抹掉了(2的倍数),接着5拿出来,然后去掉5的倍数。。。一直到最后一个数97 其实可以写个break条件,当p>=sqrt(100)就可以停止了,因为当时sieve里的2到100已经只剩下质数,为何你得自己想想。所以在第8行后面加:
if(p>=sqrt(n)) break #大大节省运算时间 原来是从2试到100,现在就2到10,快了好几倍
当然你输出的结果也得改一改 return(c(primes,sieve))
两分法求根你google一下不就有了,现在都2013年,还有维基百科
介绍使用tidytext进行文本挖掘。
整洁的数据应该是这样的
对于整洁的文本数据,储存在每行中的数据通常是单个单词,但也可以是n-gram,句子或段落。
使用unnest_tokens函数对数据进行处理
简单介绍一下unnest_tokens函数:
unnest_tokens这里使用的两个基本参数。首先,输出的列名,上面是word,然后是文本来输入列(text在本例中)。
使用之后unnest_tokens,我们将每行拆分
文本分析的流程:
就是写了傲慢与偏见的那个人,说实话这部作品的确值得一看
数据来自于Jane Austen的 janeaustenr 包
linenumber 对应的是多少行, chapter 对应的是第多少章。
要将其作为一个整洁的数据集来处理,还需要将句子转化成文更加基本的格式
此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词,但其他选项包括字符,n-gram,句子,行,段落或正则表达式模式周围的分隔。
也就是修改下面这个参数:
既然数据是每行一个字的格式,我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中,我们会想要删除停用词停用词是对分析无用的词,通常是非常常见的词,例如英语中的“the”,“of”,“to”等等。我们可以用一个删除停用词(保存在tidytext数据集中stop_words)anti_join()。
我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。
可以看见,最常见的单词是 miss
进行可视化:
因为我们一直在使用整洁的工具,所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包,例如创建最常见单词的可视化