R语言之—字符串处理函数

2023-02-23 10:05:01Python09

R语言之—字符串处理函数,第1张

R语言之—字符串处理函数

nchar

取字符数量的函数

length与nchar不同，length是取向量的长度

# nchar表示字符串中的字符的个数

nchar("abcd")

[1] 4

# length表示向量中元素的个数

length("abcd")

[1] 1

length(c("hello", "world"))

[1] 2

chartr

字符替换

chartr(old="a", new="c", x="a123")

[1] "c123"

chartr(old="a", new="A", x="data")

[1] "dAtA"

paste和paste0

字符串粘合函数

paste在不指定分割符的情况下，默认分割符是空格

paste0在不指定分割符的情况下，默认分割符是空

# 默认以空格隔开

paste("Hello","world")

[1] "Hello world"

# 没有空格

paste0("Hello","world")

[1] "Helloworld"

# 指定分割符

paste("abc", "efg", "hijk", sep = "-")

[1] "abc-efg-hijk"

# 分别对向量的每一个元素进行连接

paste0("A", 1:6, sep = "")

[1] "A1" "A2" "A3" "A4" "A5" "A6"

# collapse参数：每一个元素操作之后，再把向量的每一个元素进行连接

paste0("A", 1:6, sep = "",collapse = "-")

[1] "A1-A2-A3-A4-A5-A6"

substr

字符串截取函数

substr(x = "hello", start = 1, stop = 2)

[1] "he"

strsplit

字符串的分割函数，可以指定分割符，生成一个list

strsplit("abc", split = "")

[[1]]

[1] "a" "b" "c"

如果要对一个向量使用该函数，需要注意。

# 分割向量的每一个元素，并取分割后的第一个元素

unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))

[1] "a" "b" "d"

gsub和sub

字符串替换

gsub替换匹配到的全部

sub 替换匹配到的第一个

# 将b替换为B

gsub(pattern = "b", replacement = "B", x = "baby")

[1] "BaBy"

gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))

[1] "aBcB" "Boy" "BaBy"

# 只替换第一个b

sub(pattern = "b", replacement = "B", x = "baby")

[1] "Baby"

sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))

[1] "aBcb" "Baby"

grep和grepl

字符串匹配

grep函数返回的是索引值

grepl函数返回的是逻辑值

# 返回匹配到的元素的索引

grep(pattern = "boy", x = c("abcb", "boy", "baby"))

[1] 2

# 返回逻辑值

grepl(pattern = "boy", x = c("abcb", "boy", "baby"))

[1] FALSE TRUE FALSE

match &&pmatch &&charmatch

1、match

Usage

match(x, table, nomatch = NA_integer_, incomparables = NULL)

x %in% table

参数：

x: vector or NULL: the values to be matched. Long vectors are supported.

table : vector or NULL: the values to be matched against. Long vectors are not supported. (被匹配的值)

nomatch: the value to be returned in the case when no match is found. Note that it is coerced to integer. (没有match上的返回的值)

incomparables : a vector of values that cannot be matched. Any value in x matching a value in this vector is assigned the nomatch value. For historical reasons, FALSE is equivalent to NULL. (不同来匹配的值)

match函数类似与 %in%，不同的是match返回的是索引，而%in%返回的是逻辑值。

你的code是找n以下所有的质数

Q2: 你的循环条件就是sieve不能是空，所以不能是>1，一旦sieve空了，也就是sieve里的元素都能被p整除，循环停止。

Q3:这是R语言，没有0的index

Q4:return是函数返回值，primes就是储存n以下所有质数的向量，不返回这个返回啥。

Q5:stop就是当不满足if里的条件n>2时，错误信息提示：你的input value 必须大于等于2

Q6: 感觉这是道English 的题目，你是不是直接翻译过来的。直接把原题贴上来。

Q7: break加在sieve <- sieve [ (sieve %% p )!=0]的后面，整个code 的思想是2到100（我假设n=100），把2拿出来放到primes里，然后去掉2的倍数；接着把3push到primes里，之后去掉3的倍数；为什么没有4直接到5？因为在第一步4就被抹掉了(2的倍数)，接着5拿出来，然后去掉5的倍数。。。一直到最后一个数97 其实可以写个break条件，当p>=sqrt(100)就可以停止了，因为当时sieve里的2到100已经只剩下质数，为何你得自己想想。所以在第8行后面加：

if(p>=sqrt(n)) break #大大节省运算时间原来是从2试到100，现在就2到10，快了好几倍

当然你输出的结果也得改一改 return(c(primes,sieve))

两分法求根你google一下不就有了，现在都2013年，还有维基百科

介绍使用tidytext进行文本挖掘。

整洁的数据应该是这样的

对于整洁的文本数据，储存在每行中的数据通常是单个单词，但也可以是n-gram，句子或段落。

使用unnest_tokens函数对数据进行处理

简单介绍一下unnest_tokens函数：

unnest_tokens这里使用的两个基本参数。首先，输出的列名，上面是word，然后是文本来输入列（text在本例中）。

使用之后unnest_tokens，我们将每行拆分

文本分析的流程：

就是写了傲慢与偏见的那个人，说实话这部作品的确值得一看

数据来自于Jane Austen的 janeaustenr 包

linenumber 对应的是多少行， chapter 对应的是第多少章。

要将其作为一个整洁的数据集来处理，还需要将句子转化成文更加基本的格式

此函数使用 tokenizers 包将原始数据框中的每一行文本分隔为标记。默认标记化用于单词，但其他选项包括字符，n-gram，句子，行，段落或正则表达式模式周围的分隔。

也就是修改下面这个参数：

既然数据是每行一个字的格式，我们可以使用像dplyr这样的整洁工具来操作它。通常在文本分析中，我们会想要删除停用词停用词是对分析无用的词，通常是非常常见的词，例如英语中的“the”，“of”，“to”等等。我们可以用一个删除停用词（保存在tidytext数据集中stop_words）anti_join()。

我们也可以使用 dplyr count() 来查找所有书籍中最常见的单词。

可以看见，最常见的单词是 miss

进行可视化：

因为我们一直在使用整洁的工具，所以我们的字数存储在一个整洁的数据框中。这允许我们将它直接传递给ggplot2包，例如创建最常见单词的可视化

函数的是向量字符串数据

# 上一篇：C语言中的标记符号和标识符一个意思吗

# 下一篇：Python字典推导法，怎么输出嵌套字典？