如何计算多个文本的相似度java程序,利用向量

Python015

如何计算多个文本的相似度java程序,利用向量,第1张

String text1 = "我爱学习"

String text2 = "我爱读书"

String text3 = "他是黑客"

TextSimilarity textSimilarity = new CosineTextSimilarity()

double score1pk1 = textSimilarity.similarScore(text1, text1)

double score1pk2 = textSimilarity.similarScore(text1, text2)

double score1pk3 = textSimilarity.similarScore(text1, text3)

double score2pk2 = textSimilarity.similarScore(text2, text2)

double score2pk3 = textSimilarity.similarScore(text2, text3)

double score3pk3 = textSimilarity.similarScore(text3, text3)

System.out.println(text1+" 和 "+text1+" 的相似分值:"+score1pk1)

System.out.println(text1+" 和 "+text2+" 的相似度分值:"+score1pk2)

System.out.println(text1+" 和 "+text3+" 的相似度分值:"+score1pk3)

System.out.println(text2+" 和 "+text2+" 的相似度分值:"+score2pk2)

System.out.println(text2+" 和 "+text3+" 的相似度分值:"+score2pk3)

System.out.println(text3+" 和 "+text3+" 的相似度分值:"+score3pk3)

运行结果如下:

我爱学习 和 我爱学习 的相似度分值:1.0

我爱学习 和 我爱读书 的相似度分值:0.4

我爱学习 和 他是黑客 的相似度分值:0.0

我爱读书 和 我爱读书 的相似度分值:1.0

我爱读书 和 他是黑客 的相似度分值:0.0

他是黑客 和 他是黑客 的相似度分值:1.0

方式二:简单共有词,通过计算两篇文档有多少个相同的词来评估他们的相似度

实现类:org.apdplat.word.analysis.SimpleTextSimilarity

用法如下:

String text1 = "我爱学习"

String text2 = "我爱读书"

String text3 = "他是黑客"

TextSimilarity textSimilarity = new SimpleTextSimilarity()

double score1pk1 = textSimilarity.similarScore(text1, text1)

double score1pk2 = textSimilarity.similarScore(text1, text2)

double score1pk3 = textSimilarity.similarScore(text1, text3)

double score2pk2 = textSimilarity.similarScore(text2, text2)

double score2pk3 = textSimilarity.similarScore(text2, text3)

double score3pk3 = textSimilarity.similarScore(text3, text3)

System.out.println(text1+" 和 "+text1+" 的相似度分值:"+score1pk1)

System.out.println(text1+" 和 "+text2+" 的相似度分值:"+score1pk2)

System.out.println(text1+" 和 "+text3+" 的相似度分值:"+score1pk3)

System.out.println(text2+" 和 "+text2+" 的相似度分值:"+score2pk2)

System.out.println(text2+" 和 "+text3+" 的相似度分值:"+score2pk3)

System.out.println(text3+" 和 "+text3+" 的相似度分值:"+score3pk3)

运行结果如下:

我爱学习 和 我爱学习 的相似度分值:1.0

我爱学习 和 我爱读书 的相似度分值:0.5

我爱学习 和 他是黑客 的相似度分值:0.0

我爱读书 和 我爱读书 的相似度分值:1.0

我爱读书 和 他是黑客 的相似度分值:0.0

他是黑客 和 他是黑客 的相似度分值:1.0

学到IO流可以比较文本了, 不过用IO比较文本比较麻烦, 而且效率低

如果要效率高的话, 就需要学

linux + thread + progress

这样子可以通过java调用linux命令

linux中有一个comm -12命令来实现比较两个文件的共同数据, 生成一个新文本。 拿到新文本的大小/旧文本的大小, 旧可以粗略计算出相似度, 而且效率极其高

如果文本有上百万行数据的话, 用IO可能要十几个小时才有结果, 但是linux命令只需要1分钟左右就可以出结果

这是java的弱项,属于纯算法范畴,应该没有什么办法。

希望回答能给你带来帮助~

如果满意,请采纳,如还有疑问,可继续追问!

您也可以向我们团队发出请求,会有更专业的人来为您解答!