r语言论文怎么写

2023-02-23 10:38:01Python07

r语言论文怎么写,第1张

关于论文怎么写。标准步骤如下 1、论文格式的论文题目：（下附署名）要求准确、简练、醒目、新颖。 2、论文格式的目录目录是论文中主要段落的简表。（短篇论文不必列目录） 3、论文格式的内容提要：是文章主要内容的摘录，要求短、精、完整。...

首先声明，用R来处理字符串数据并不是一个很好的选择，还是推荐使用Perl或者Python等语言。不过R本身除了提供了一些常用的字符串处理函数，也对正则表达式有了一定的支持，具体各个函数的使用方法还是要参考R的帮助文档。

sub()与gsub()使用正则表达式对字符串进行替换。

grep()、regexpr()、gregexpr()都是用于正则表达式的匹配，只是返回的结果格式有些不同。

几个函数的使用格式如下：

grep(pattern, x, ignore.case = FALSE, extended = TRUE,

perl = FALSE, value = FALSE, fixed = FALSE, useBytes = FALSE)

regexpr(pattern, text, ignore.case = FALSE, extended = TRUE,

perl = FALSE, fixed = FALSE, useBytes = FALSE)

gregexpr(pattern, text, ignore.case = FALSE, extended = TRUE,

perl = FALSE, fixed = FALSE, useBytes = FALSE)

sub(pattern, replacement, x,

ignore.case = FALSE, extended = TRUE, perl = FALSE,

fixed = FALSE, useBytes = FALSE)

gsub(pattern, replacement, x,

ignore.case = FALSE, extended = TRUE, perl = FALSE,

fixed = FALSE, useBytes = FALSE)

其中参数pattern表示用于匹配的正则表达式模式；参数x和text表示用于搜索的字符串向量；参数ignore.case为FALSE时，表示模式匹配是对字母的大小写敏感；参数VALUE也是一个逻辑变量，若为FALSE，grep函数会返回一个由匹配元素所在的位置组成的向量，若为TRUE，则返回由匹配元素本身组成的向量；参数replacement只在函数sub和gsub中出现，用于进行替换，如果fixed=FALSE,可通过\1，...,\9来回溯引用匹配模式中由括号括起来的子表达式。如果参数perl=TRUE,还可以通过\U或\L将匹配字符转换成大写或小写。

一些示例代码：

>grep("[a-z]", letters)

[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

[25] 25 26

#参数value的使用

>grep("[a-z]", letters,value=TRUE)

[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r"

[19] "s" "t" "u" "v" "w" "x" "y" "z"

#将字符串的首字母转换为大写

>gsub("^(\\w)", "\\U\\1", "a test of capitalizing", perl=TRUE)

[1] "A test of capitalizing"

#将字符串中每个单词的首字母转换为大写

>gsub("\\b(\\w)", "\\U\\1", "a test of capitalizing", perl=TRUE)

[1] "A Test Of Capitalizing"

#对电子邮件地址进行匹配为例，用一个正则表达式来匹配电子邮件地址是一项很常见的任务。

>text<-c("[email protected]","[email protected]","[email protected]","[email protected]","[email protected]")

>text

[1] "[email protected]" "[email protected]" "[email protected]"

[4] "[email protected]" "[email protected]"

>grep("(\\w+\\.)*\\w+@(\\w+\\.)+[a-zA-Z]+",text)

[1] 1 3 5

来源 | 雪晴数据网

利用机器学习可以很方便的做情感分析。本篇文章将介绍在R语言中如何利用机器学习方法来做情感分析。在R语言中，由Timothy P.Jurka开发的情感分析以及更一般的文本挖掘包已经得到了很好的发展。你可以查看下sentiment包以及梦幻般的RTextTools包。实际上，Timothy还写了一个针对低内存下多元Logistic回归（也称最大熵）的R包maxtent。

然而，RTextTools包中不包含朴素贝叶斯方法。e1071包可以很好的执行朴素贝叶斯方法。e1071是TU Wien(维也纳科技大学)统计系的一门课程。这个包的主要开发者是David Meyer。

我们仍然有必要了解文本分析方面的知识。用R语言来处理文本分析已经是公认的事实（详见R语言中的自然语言处理）。tm包算是其中成功的一部分：它是R语言在文本挖掘应用中的一个框架。它在文本清洗（词干提取，删除停用词等）以及将文本转换为词条-文档矩阵(dtm)方面做得很好。这里是对它的一个介绍。文本分析最重要的部分就是得到每个文档的特征向量，其中词语特征最重要的。当然，你也可以将单个词语特征扩展为双词组，三连词，n-连词等。在本篇文章，我们以单个词语特征为例做演示。

注意，在R中用ngram包来处理n-连词。在过去，Rweka包提供了函数来处理它，感兴趣的可以查看这个案例。现在，你可以设置RTextTools包中create_matrix函数的参数ngramLength来实现它。

第一步是读取数据：

创建词条-文档矩阵：

现在，我们可以用这个数据集来训练朴素贝叶斯模型。注意，e1071要求响应变量是数值型或因子型的。我们用下面的方法将字符串型数据转换成因子型：

测试结果准确度：

显然，这个结果跟python得到的结果是相同的（这篇文章是用python得到的结果）。

其它机器学习方法怎样呢？

下面我们使用RTextTools包来处理它。

首先，指定相应的数据：

其次，用多种机器学习算法训练模型：

现在，我们可以使用训练过的模型做测试集分类：

准确性如何呢？