请问怎么用R语言正则表达式统计文章的单词数和中文字数,不能用程序包?

Python021

请问怎么用R语言正则表达式统计文章的单词数和中文字数,不能用程序包?,第1张

首先声明,用R来处理字符串数据并不是一个很好的选择,还是推荐使用Perl或者Python等语言。不过R本身除了提供了一些常用的字符串处理函数,也对正则表达式有了一定的支持,具体各个函数的使用方法还是要参考R的帮助文档。sub()与gsub()使用正则表达式对字符串进行替换。grep()、regexpr()、gregexpr()都是用于正则表达式的匹配,只是返回的结果格式有些不同。几个函数的使用格式如下:grep(pattern, x, ignore.case = FALSE, extended = TRUE,perl = FALSE, value = FALSE, fixed = FALSE, useBytes = FALSE)regexpr(pattern, text, ignore.case = FALSE, extended = TRUE,perl = FALSE, fixed = FALSE, useBytes = FALSE)gregexpr(pattern, text, ignore.case = FALSE, extended = TRUE,perl = FALSE, fixed = FALSE, useBytes = FALSE)sub(pattern, replacement, x,ignore.case = FALSE, extended = TRUE, perl = FALSE,fixed = FALSE, useBytes = FALSE)gsub(pattern, replacement, x,ignore.case = FALSE, extended = TRUE, perl = FALSE,fixed = FALSE, useBytes = FALSE)其中参数pattern表示用于匹配的正则表达式模式;参数x和text表示用于搜索的字符串向量;参数ignore.case为FALSE时,表示模式匹配是对字母的大小写敏感;参数VALUE也是一个逻辑变量,若为FALSE,grep函数会返回一个由匹配元素所在的位置组成的向量,若为TRUE,则返回由匹配元素本身组成的向量;参数replacement只在函数sub和gsub中出现,用于进行替换,如果fixed=FALSE,可通过\1,...,\9来回溯引用匹配模式中由括号括起来的子表达式。如果参数perl=TRUE,还可以通过\U或\L将匹配字符转换成大写或小写。一些示例代码:>grep("[a-z]", letters)[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24[25] 25 26#参数value的使用>grep("[a-z]", letters,value=TRUE)[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r"[19] "s" "t" "u" "v" "w" "x" "y" "z"#将字符串的首字母转换为大写>gsub("^(\\w)", "\\U\\1", "a test of capitalizing", perl=TRUE)[1] "A test of capitalizing"#将字符串中每个单词的首字母转换为大写>gsub("\\b(\\w)", "\\U\\1", "a test of capitalizing", perl=TRUE)[1] "A Test Of Capitalizing"#对电子邮件地址进行匹配为例,用一个正则表达式来匹配电子邮件地址是一项很常见的任务。>text<-c("[email protected]","[email protected]","[email protected]","[email protected]","[email protected]")>text[1] "[email protected]" "[email protected]" "[email protected]"[4] "[email protected]" "[email protected]">grep("(\\w+\\.)*\\w+@(\\w+\\.)+[a-zA-Z]+",text)[1] 1 3 5

Hypertext Markup Language,中文也就是超文本链接标示语言。HTML(HyperTextMark-upLanguage)即超文本标记语言,是WWW的描述语言。设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其它电脑上。我们只需使用鼠标在某一文档中点取一个图标,Internet就会马上转到与此图标相关的内容上去,而这些信息可能存放在网络的另一台电脑中。 HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。