用Python实现英文文章难度评级

2023-02-25 12:17:01Python022

用Python实现英文文章难度评级,第1张

By Jiaxian Shi

英文文章的难度从直觉上来讲可以从以下两方面来定义：

句子的难易程度可以从句子的长度和复杂性（从句数量，嵌套）方面来考虑。词汇的难易程度可以从词汇的长度和使用频率（专业词汇，罕见词汇）方面来考虑。通过查阅维基百科等相关资料，发现目前普遍得到运用的可读性标准为Flesch–Kincaid可读性测试指标。Flesch–Kincaid可读性测试指标由两个指标构成：Flesch Reading Ease（FRE）和Flesch–Kincaid Grade Level（FKGL）。与我们的直觉一致，两者都使用了类似的方法：句子长度和词汇长度（由音节数确定，不单纯考虑字母数）。由于两个指标对句子长度和词汇长度所采取的权重不同（包括正负号），所以两个指标的意义相反：FRE数值越高，文章就越简单，可读性也越高。而FKGL数值越高，文章就越复杂，文章的可读性也就越低。

使用Python强大的自然语言处理（NLP）包NLTK，来实现下述3个功能：

其中，断句使用NLTK提供的非监督学习的预训练模型tokenizers/punkt/english.pickle，分词则使用NLTK推荐的word_tokenize函数（使用TreebankWordTokenizer和PunktSentenceTokenizer模块），分音节则使用NLTK供的SyllableTokenizer模块。需要注意的是，分词会将标点符号分为一个单词，需要手动去除。同时，分音节时会讲英语中的连字符“-”分为一个音节，也需要手动去除。另外，文章需要进行预处理，去除回车符和空格，并将非标准标点符号转换为英文标准标点符号。

统计出句数，词数和音节数后，即可根据上文提供的公式计算出FRE和FKGL了。本程序使用4段不同类型的英文文章分别计算FRG和FKGL，并使用matplotlib模块绘制出柱状图已做比较。

文章：

比较结果如下图所示：

可以发现，文章的难度为：儿童文学<侦探小说<杂志文章<学术论文，这与我们的实际感受是一致的。

词法分析器首先是断句，可以考虑用正则表达式，下面的例子可以参考

import re

s = "hello, "

s = "My name is Mike."

s = "I'm ab!"

while s != '':

match = re.search('^[a-z|A-Z|\']+', s)

if match:

print('<' + s[:match.end()] + '>')

s = s[match.end():]

else:

print('<' + s[:1] + '>')

s = s[1:]

文章音节词汇长度可读性

# 上一篇：C语言函数的含义

# 下一篇：c语言如何三个数求和

给您推荐相同类型的内容：

R语言中7.803e-01是什么意思
%%表示求余数小写的c() 表示一个向量,c(1,1,2,2,3,3)就是一个有6个元素的向量后面的2:3 冒号就是表示步进1,从2到3的向量,所以2:3其实就等于c(2,3)如果是1:5 那么就是c(1,2,3,4,5)最后再讨论一下R的
电脑小米Ruby
小米Ruby是一款由小米推出的笔记本电脑。它的商品产地是中国大陆，处理器是Inteli5低功耗版，内存容量是8G，硬盘容量是128GBSSD+1TBHDD，屏幕尺寸是15.6英寸，分辨率是全高清屏（1920×1080），系统是Windows
python 通过crc32得到加密文件内容
crc检验原理实际上就是一个p位二进制序列之后附加一个r位二进制检验码(序列), 从而构成一个总长为n=p+r位的二进制序列, 附加在数据序列之后的这个检验码与数据序列的内容之间存在这某种特定的关系. 如果干扰因素使数据序列中的某一位或者某
R语言自学笔记-2内置数据集
#b站视频——R语言入门与数据分析 #内置数据集 #固定格式的数据（矩阵、数据框或一个时间序列等） #统计建模、回归分析等试验需要找合适的数据集 #R内置数据集，存储在，通过 help(package="dat
什么是r语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。发展历史R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。而S
请教如何生成柯西分布的随机数
random('Poisson',Lambda)random('Poisson',Lambda,m,n)泊松分布的参数为Lambda，如果只产生一个随机数就是第一句的样子第二行的语句表示会产生m×n个
PYTHON 读取HDF格式数据出错？
加一句在最前面看输出什么import osprint(os.path.isfile("D:data04modisMCD15A2H.A2002185.h00v08.006.2015149102758.hdf"))将M
Java语音应该怎么学习？先学什么？
可以先学 Pascal。 Pascal 是一门很好的教学语言。然后对过程式编程有些了解以后可以学习数据结构，C 和 C++。然后可以学一下 Java 或 C#。当然我的建议只是帮助你能够了解过程式和面向对象的编程。至于要进入IT业，方向
python中touch类和action类的区别
python中touch类和action类的区别是touch的辅助类，主要针对手势操作，比如滑动、长按、拖动等。Action只是针对PC端程序鼠标模拟的一系列操作对H5页面操作时无效的。__init__.py是包模块文件，在gothonwe
求推荐JAVA入门书籍
1，《Head First Java》java入门书籍《Head First Java》是本完整的面向对象（object-oriented，OO）程序设计和Java的学习指导。此书是根据学习理论所设计的，让你可以从学习程序语言的基础开始一直
R语言的R包及其使用
1、通过选择菜单：程序包-&gt安装程序包-&gt在弹出的对话框中，选择你要安装的包，然后确定。2、使用命令install.packages(package_name,dir)package_name:是指定要安装的包名，
编程的问题 Python SPE
首先要明确下，你所谓的打开是什么意思。如果是要运行的话，直接双击(或类似的动作)其实是达到目的了，之所以一闪就没了，是因为你没有捕捉输出(python只是个script),只有在shell中才能完整跟进输出，所以楼上说的cmd是ok的，进入
C语言问题（3－2－3）
这三种基本结构是：顺序结构、选择结构、循环结构1、顺序结构：在顺序结构中按语句的排列的顺序依次执行，它只有一个入口和一个出口2、选择结构：它是根据指定条件是否满足，来选择所执行的一组语句。选择结构用条件语句来实现，在选择结构中
用JAVA如何算出24点?
24点的源代码,因该可以计算出4则运算24 public class Test24Point{public static void main(String[] args){int index = 0int temp = 0i
c语言字符串函数有哪些
复制相关函数：memcpy、memmove、strcpy、strncpy字符串连接函数：strcat、strncat字符串比较函数：memcmp、strcmp、strcoll、strncmp、strxfrm、查找函数：memchr、strc
r语言中e的π次方怎么写
exp。exp，自然对数e为底指数函数，全称Exponential(指数曲线)。可以在R控制台中，R中的基本运算包括：算术运算、关系运算、逻辑运算、赋值运算以及其他运算。R是一套完整的数据处理、计算和制图软件系统。其功能包括数据存储和处理系
rwby 国语配音演员表
rwby我见到的中文配音每集都配的只有【声迹】，是爱好者配的音，用的都是网名Ruby Ross、杨小龙、Nora Valkyrie（粉色话唠）：瑷珥Weiss Schnee：叶细细Blake Belladonna、Pyrrha Nikos（
精致的彩妆最不可缺的就是口红在千百种颜色中你选对了？
精致的彩妆最不可缺的就是口红在千百种颜色中你选对了？众所周知，在女孩儿们无硝烟的战争中，必要的日常化妆显得尤为重要，它不仅仅能够给女孩儿们提升气质带来自信，更是生活一种多姿多姿的体现。一个精致的彩妆中最不可或缺的利器就是口红，那么
R语言长时间序列栅格数据之逐像素相关性分析
假设有两组栅格数据，一组代表2019年中国每月降雨量，一组代表2019年中国每月植被叶面积指数（LAI）。想要得到中国月降水量与LAI的相关性分布，那么需要对两组栅格数据对应的栅格点进行逐栅格的相关性分析。将降水数据导入栅格栈中，这个
c语言如何三个数求和
是三个数求和：int a,b,c,sumchar c1,c2scanf("%d%c%d%c%d",&ampa,&ampc1,&ampb,&ampc2,&ampc)if(c1
python中的frame是什么意思？
Frame对象表示执行帧，表示程序运行时函数调用栈中的某一帧。想要获得某个函数相关的栈帧，则必须在调用这个函数且这个函数尚未返回时获取。可以使用sys模块的_getframe()函数、或inspect模块的currentframe()函数
R语言怎么做多因变量的多元线性回归
举个例子：一般人在身高相等的情况下，血压收缩压Y与体重X1和年龄X2有关，抽取13组成年人数据（如下图），构建Y与X1、X2的线性回归关系。1.先创建一个数据框blood： blood&lt-data.frame( X1
r语言如何数据分析
r语言数据分析是查看数据的结构、类型，数据处理。根据查询相关资料信息显示：R语言是一个开源、跨平台的科学计算和统计分析软件包，具有丰富多样、强大的的统计功能和数据分析功能，数据可视化可以绘制直方图、箱型图、小提琴图等展示分数的分布情况可以通
Java中的大量数据查询
问题描述在通常的三层构架下客户通过Browser请求Web服务器查询数据库而查询结果是上千条甚至是上百万条记录要求查询结果传送到客户端浏览器并分页显示考虑因素 Web服务器的资源消耗包括内存（用来存储查询结
Ruby Rose的个人经历
鲁比·洛斯 (Ruby Rose) 全名Ruby Rose Langenheim，是澳大利亚MTV音乐电视台主持人、电台DJ、模特，更是少数公开出柜的明星之一。鲁比·洛斯 (Ruby Rose) 是那种可以冷艳性感也可以中性帅气的美女，她的
c语言程序设计苏小红和谭浩强版区别
1、C程序设计谭浩强版本的第四版：内容先进，体系合理，概念清晰，讲解详尽，降低台阶，分散难点，例题丰富，深入浅出，文字流畅，通俗易懂，是初学者学习C程序设计的理想教材，可作为高等学校各专业的正式教材。2、C程序设计谭浩强版本的第三版：累计发
初识R语言—统计篇之正态分布和抽样分布
2.夏皮罗检验（shapiro.test）当w接近1，p &gt0.05时，说明数据符合正态分布，这个检验只适合于3-5000个数据，样本数量不在这个范围内的话，会报错补充从b站麦子那里学到的另外三种判断是不是正态分布
python demo什么意思
python demo什么意思字符串和字节串1）现在字符串只有str一种类型，但它跟2.x版本的unicode几乎一样。2）关于字节串，请参阅“数据类型”的第2条目5.数据类型1）Py3.X去除了long类型，现在只有一种整型——int，但
c语言2=2 3=3 4=2*2 5=5 6=2*3......100=2*2*5*5 这个程序怎么写
#include&ltstdio.h&gt#include&ltstdbool.h&gtbool isPrime[9999]int FindPrime()int n,i,mint ans[999],kint
ruby头盔每个有什么区别
有些是防水性能强的，有些是适合越野的，有些是全季节通用的，具体买哪一种看你自己的选择，Jeromecoste(杰罗姆考斯特)受到SteveMcqueen（史蒂夫麦奎因），科幻小说还有法国奢侈品的优良传统的影响，由此创造了Ruby品牌。它不但

推荐阅读

热门文章

最新发布

标签列表

用Python实现英文文章难度评级

给您推荐相同类型的内容：