聚类算法之K均值算法(k-means)的Python实现

2023-02-25 20:37:01Python013

聚类算法之K均值算法(k-means)的Python实现,第1张

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

通常，人们根据样本间的某种距离或者相似性来定义聚类，即把相似的（或距离近的）样本聚为同一类，而把不相似的（或距离远的）样本归在其他类。

所谓聚类问题，就是给定一个元素集合D，其中每个元素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。

k-means算法是一种很常见的聚类算法，它的基本思想是：通过迭代寻找k个聚类的一种划分方案，使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

看起来还不错

分析一个公司的客户分类，这样可以对不同的客户使用不同的商业策略，或是电子商务中分析商品相似度，归类商品，从而可以使用一些不同的销售策略，等等。

# -*- coding: utf-8 -*-

from sklearn.cluster import KMeans

from sklearn.externals import joblib

import numpy

final = open('c:/test/final.dat' , 'r')

data = [line.strip().split('\t') for line in final]

feature = [[float(x) for x in row[3:]] for row in data]

#调用kmeans类

clf = KMeans(n_clusters=9)

s = clf.fit(feature)

print s

#9个中心

print clf.cluster_centers_

#每个样本所属的簇

print clf.labels_

#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数

print clf.inertia_

#进行预测

print clf.predict(feature)

#保存模型

joblib.dump(clf , 'c:/km.pkl')

#载入保存的模型

clf = joblib.load('c:/km.pkl')

'''

#用来评估簇的个数是否合适，距离越小说明簇分的越好，选取临界点的簇个数

for i in range(5,30,1):

clf = KMeans(n_clusters=i)

s = clf.fit(feature)

print i , clf.inertia_

'''

算法子集距离样本函数

# 上一篇：go语言支持开发桌面级应用吗？

# 下一篇：c语言字符串长度有哪些？

给您推荐相同类型的内容：

如何判断python objects.get对象为空
方法一：通过异常捕捉来实现逻辑 class FooClass:passk = FooClass()try: #do some thing you need print k.attexcept AttributeError as e: #er
C语言中输入大写字母怎么输出成小写字母啊？
1、输入字符，可以使用getchar或者scanf的%c格式。2、在ASCII码表中，对应的小写字母比大写字母大32，所以输出增加32之后的值即可。3、输出可以使用putchar或者printf。4、参考代码：#include &a
转行零基础该如何学Python？
1第一：看入门类书籍关于书籍的选择，难易度一定要入门级别的，千万不要太复杂。如果选择的书籍过于复杂，很容易打乱我们的学习节奏，还会影响我们学习的积极性。学习是一个循序渐进的过程，不能一口吃成一个胖子，因此对于零基础初学者来讲，一定要找一个通
如何找到路径ruby宝石安装在即Gem.lib
Dir.pwd 取出当前路径 + ".." Dir.pwd + ".." 指定路径+".." 这样就能得到上级目录你想要的直接方法没有,这个我已经找过了! 应为我也有
python与c区别有哪些
第一点：语言类型不同python是一种动态类型语言，又是强类型语言。它们确定一个变量的类型是在您第一次给它赋值的时候。C是静态类型语言，一种在编译期间就确定数据类型的语言。大多数静态类型语言是通过要求在使用任一变量之前声明其数据类型来保证
Mac 升级系统ruby
1、查看ruby版本 ruby --version 2、brew升级 brew update （可能会出现下列报错，报错后执行第3步） 4、继续升级 brew update由于团队协同开发，如果每个人的ruby版本或者p
在c语言中函数和结构体的区别
C语言中结构体和函数有着本质上的不同。结构体是用户自己定义的一中数据类型，比如说你想要把学生信息作为一个整体存放在一个数据类型中，可以定义结构体，其中某个成员存放学号，某个存放姓名等等。但是函数就完全不同了，函数是为了实现某种功能，比如你要
win7适合用哪些c语言编译器?
用 Visual Studio 2010 旗舰版，它是专为Win7打造的，其他的版本也可以兼容，而且支持VCVBC#多种语言开发，安装下来才2G多，是一款相当不错的开发软件。用开发版的比较好，学习版的有些功能减掉了。eclipseC
python和ruby脚本区别大吗？他们与php互相调用方便吗？另外在怎么在php里面获取shell输入的内容？
三个PHP调用系统命令函数的区别与联系我们在执行linux系统的shell命令时，会用到PHP调用系统命令函数来实现。那么在这些函数中，主要包括了system()，exec()，passthru()这三个经常用于外部命令调用的函数。虽然这三
如何Golang开发Android应用
环境配置好复杂，我不得不唠叨几句。需要下载golang1.4rc版，下载ndk，然后编译。然后用go get 下载gobind这个工具，然后，将写好的代码用gobind转化下，然后使用特殊的编译命令，将代码编译成.so文件，将生成的相关
python3字典遍历
（1）遍历key值在使用上，for key in a和 for key in a.keys():完全等价。（2）遍历value值（3）遍历字典项（4）遍历字典健值在使用上for key,value in a.i
c语言字符串长度有哪些？
这个字符串长度为10个字符。可以用strlen("ab'1'\12803")来求这个字符串的长度。也可以用sizeof("ab'1'\12803")
ruby语言，怎么读取给定路径的文件，把里面内容读出来不是打开。。。
举例：加入该rb文件名为xx.rb,路径为xxxx.rb，需要分析的文件为 yyyy.txt命令行调用rb文件（假设ruby.exe加入了环境变量）：xxx&gtruby xxxx.rb yyyy.txt则该参数(yyyy
如何用C语言解二元一次方程组
设计思路如下：1、问题描述：给定一个二元一次方程组，形如：a * x + b * y = cd * x + e * y = fx,y代表未知数，a, b, c, d, e, f为参数。求解x,y。2、数据规模和约定：0 &a
C语言中，x，是什么意思
在c语言中，~x代表的意思是按位取反的意思。使用~进行按位取反时，将某个数x的二进制的每一个bit取反即可得到~x的值。如~0x37，即~(00110111)，得到的答案应该为：~0x37=~(00110111)=(11001000)=0x
咸鱼的腌制方法
导语：咸鱼是以盐腌渍后，晒干的鱼。具有很高的营养价值。咸鱼种类非常多，有以大条鱼腌成的，也有以小鱼腌的。因为没有低温保鲜技术，鱼很容易腐烂。因此世界各地沿海的渔民都用腌制的方法保存鱼。咸鱼的腌制方法对于很多爱喝酒的人而言，咸货因其
c语言for嵌套循环
这段代码的意思是：三层嵌套，每层都是循环两次：0和1。然后把三层嵌套当前的值都打印出来。结果实际上是从0到7的二进制数，就是：000001010011100101110111里面的for循环相当于外部for循环的循环体，举一个例子：for(
如何深入理解 StatsD 与 Graphite
StatsD为了全面了解 StatsD 的工作原理，我阅读了它的源码。之前我就耳闻 StatsD 是一种简单的应用，但读过源码后才发现它竟如此简单！在主脚本文件只有300多行代码，而 Graphite 的后端代码只有150行左右。Stats
go语言json处理
json是一种经常使用的数据格式，下面总结一下json的使用 json与struct转换的话struct的属性必须首字母大写。当用的多了就会发现一个致命的问题：go默认会将特殊字符转义采用以下方法可以解决：处理方法1 处
ugg和lv联名雪地靴是真的么
ugg和lv联名雪地靴是真的.。UGG和LV有联名款有很多。三巨头联名UGG×LV×Supreme雪地靴。三巨头联名FALL2017WDBA.中国红首批500双限量发售历时三个月打板，多次调整线头磨具，只为了把最好的鞋子献给顾客。lv经典
GoLang -- Gin框架
• 何为框架：框架一直是敏捷开发中的利器，能让开发者很快的上手并做出应用，甚至有的时候，脱离了框架，一些开发者都不会写程序了。成长总不会一蹴而就，从写出程序获取成就感，再到精通框架，快速构造应用，当这些方面都得心应手的时候
golang编译so动态库加载失败
Golang编译so动态库加载失败的原因可能有很多，首先，检查动态库文件是否正确安装，其次，检查编译选项是否正确，比如-shared参数是否被正确设置，最后，追踪运行时出现的导致加载失败的错误，可能是某个符号没有被找到或者版本不匹配等情况。
win7适合用哪些c语言编译器?
用 Visual Studio 2010 旗舰版，它是专为Win7打造的，其他的版本也可以兼容，而且支持VCVBC#多种语言开发，安装下来才2G多，是一款相当不错的开发软件。用开发版的比较好，学习版的有些功能减掉了。eclipseC
ruby方法总结，如图谢谢，满意再加分
一.数组数组的创建 names = ["shiwanyin","jingshang","dapao","xishuai"] 数组对象数组对象未确定时，用
C语言如何调用函数
C语言中，函数调用的一般形式为：函数名(实际参数表)对无参函数调用时则无实际参数表。实际参数表中的参数可以是常数、变量或其它构造类型数据及表达式。各实参之间用逗号分隔。#include&ltstdio.h&gtint
C语言中怎么字符串赋值？
需要准备的材料分别有：电脑、C语言编译器。1、首先，打开C语言编译器，新建一个初始.cpp文件，例如：test.cpp。2、在test.cpp文件中，输入C语言代码：char a[20]strcpy(a, "hello"
python中修改像素颜色并形成一个新图像的代码
一个计算机数字图像它本质上来说就是由很多个像素点来组成的，而图像像素点数量是通过它长宽分辨率相乘而得到的。那么下面文章就是会来讲解一下，python获取图片像素以及使用图片像素修改其颜色的方法，想要学习这个知识的小伙伴就继续往下看看吧。一、
RGSS解包器的使用方法是什么？（针对于加密的魔塔）
点开rgss解包器，然后选择解包的地方然后选择解包的目录最后点击解包就行了。拓展资料：RGSS中的脚本：1、在RMXP(Rpg Maker XP)中，按F11就可以打开[脚本编辑器]，左边的窗口是脚本列表，右边的窗口是脚本内容，左下角
go语言中实现切片(slice)的三种方式
定义一个切片，然后让切片去引用一个已经创建好的数组。基本语法如下：索引1：切片引用的起始元素位索引2：切片只引用该元素位之前的元素例程如下：在该方法中，我们未指定容量cap，这里的值为5是系统定义的。在方法一

推荐阅读

热门文章

最新发布

标签列表

聚类算法之K均值算法(k-means)的Python实现

给您推荐相同类型的内容：