最新发布

# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
华为harmonyos是什么手机
华为harmonyos是华为手机的操作系统，简称为鸿蒙系统。华为鸿蒙系统（HUAWEI Harmony OS），是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。华为鸿蒙系统是一款全新的面向全
# 2023-02-09
鸿蒙系统的缩小屏幕功能
鸿蒙系统的缩小屏幕功能说明如下：首先在屏幕的左侧、右侧滑动并长按打开侧边栏；在侧边栏选择需要分屏的应用，可上下滑动选择应用，可以点击最下方的按钮查看更多应用。选择应用后，将会在屏幕上直接以小窗口的形式显示；可按住上方的横条进行拖动，也可
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
华为鸿蒙系统支持的中央空调有哪些
华为鸿蒙系统支持的中央空调有美的，日立中央空调等。首款搭载华为鸿蒙系统的智能空调中国尊鸿蒙艺术柜机，已于2021年5月起上市销售，在空调旺季市场上掀起一轮全新的主动智能、新风无风感的智慧新体验。随着美的与华为联手打造的这两大智慧空调操控体验
# 2023-02-09
鸿蒙HarmonyOS系统用户已突破3000万，跻身第三大操作系统？
华为HarmonyOS操作系统用户已经突破3000万，计划2021年底突破三亿台设备北京时间7 月 8 日，华为官方透露，华为 Harmony OS 2.0 用户已经达到 3000 万。新系统发布仅一个多月，相当于每天有一百
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本
# 2023-02-09
harmonyos花式字体怎么调节
1、首先，打开harmonyos手机，然后点击打开设置，点击显示。2、其次，在显示页面中，点击字体大小和粗细。3、最后，在字体大小和粗细中点击字体样式，然后选择花式字体即可调节。华为鸿蒙系统已经上线，那么对于这个系统而言，华为在其他的配套方

如何用python对文本进行聚类

2023-02-18 06:44:02Python052

如何用python对文本进行聚类,第1张

实现原理：

首先从Tourist_spots_5A_BD.txt中读取景点信息，然后通过调用无界面浏览器PhantomJS（Firefox可替代）访问百度百科链接"http://baike.baidu.com/"，通过Selenium获取输入对话框ID，输入关键词如"故宫"，再访问该百科页面。最后通过分析DOM树结构获取摘要的ID并获取其值。核心代码如下：

driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

PS：Selenium更多应用于自动化测试，推荐Python爬虫使用scrapy等开源工具。

# coding=utf-8

"""

Created on 2015-09-04 @author: Eastmount

"""

import time

import re

import os

import sys

import codecs

import shutil

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import selenium.webdriver.support.ui as ui

from selenium.webdriver.common.action_chains import ActionChains

#Open PhantomJS

driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")

#driver = webdriver.Firefox()

wait = ui.WebDriverWait(driver,10)

#Get the Content of 5A tourist spots

def getInfobox(entityName, fileName):

try:

#create paths and txt files

print u'文件名称: ', fileName

info = codecs.open(fileName, 'w', 'utf-8')

#locate input notice: 1.visit url by unicode 2.write files

#Error: Message: Element not found in the cache -

# Perhaps the page has changed since it was looked up

#解决方法: 使用Selenium和Phantomjs

print u'实体名称: ', entityName.rstrip('\n')

driver.get("http://baike.baidu.com/")

elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")

elem_inp.send_keys(entityName)

elem_inp.send_keys(Keys.RETURN)

info.write(entityName.rstrip('\n')+'\r\n') #codecs不支持'\n'换行

time.sleep(2)

#load content 摘要

elem_value = driver.find_elements_by_xpath("//div[@class='lemma-summary']/div")

for value in elem_value:

print value.text

info.writelines(value.text + '\r\n')

time.sleep(2)

except Exception,e:#'utf8' codec can't decode byte

print "Error: ",e

finally:

print '\n'

info.close()

#Main function

def main():

#By function get information

path = "BaiduSpider\\"

if os.path.isdir(path):

shutil.rmtree(path, True)

os.makedirs(path)

source = open("Tourist_spots_5A_BD.txt", 'r')

num = 1

for entityName in source:

entityName = unicode(entityName, "utf-8")

if u'故宫' in entityName: #else add a '?'

entityName = u'北京故宫'

name = "%04d" % num

fileName = path + str(name) + ".txt"

getInfobox(entityName, fileName)

num = num + 1

print 'End Read Files!'

source.close()

driver.close()

if __name__ == '__main__':

main()

可能我很快回答不了你的问题。还需要细细回味一下。

但是我觉得你的问题是一个比较明显的短文本聚类问题，这个问题应该在国际上都是比较难的吧。

如果还涉及到中文，中文的相关处理又不能照抄英文短文本聚类的方法，相关资料更加少了。

我倒是建议你多看一些短文本聚类相关的文章。

问题一:技术上python矩阵表示的话：你可以使用python包,如下：

from numpy import matrix

A = matrix( [[1,2,3],[11,12,13],[21,22,23]])

这样你需要额外规定化：行i表示文档编号i的文档,列j表示词j出现次数,A[i][j]表示在文档i中词j的出现频率

或者

如同那篇文章所说的采用dict表示法:A = [{'额外':1},{'每天':1,'回帖':1},......]表示整个文档集合。

问题二:如同这样的问题本质一样，短文本聚类是否还适合传统的分词,去除副词...等处理步骤，

如何选择合适的模型来表示这类问题，我觉得你还是参考一些这方面的文章,最好中文的。

比如现在很火的微博,也会有好多的人尝试对其中成干上万评论进行聚类。很多进行二类或者三类聚类/分类：支持-中立-反对。

论坛的评论应该很早以前就有研究聚类/分类.我觉得去那里参考会更好.如果不是特别面向指定目的的聚类，我觉得采用一些使用宽泛的方法就行了。感觉结果不会很好。

问题三：EM算法感觉像纯数学的东西，学术功底不够深，我也不好发表看法。

感觉这个问题的本质已经超出我的知识范畴。最简单文档聚类无非：分词-文本预处理[同义词之类]-文档与词计频矩阵表示-(TF-IDF预处理)-kmeans跑起来-输出结果.

表示我觉得问题文本文档

# 上一篇：CSS是什么

# 下一篇：电脑配置是什么意思电脑配置的简要介绍