最新发布

# 2023-02-09
harmonyos忘记密码如何解锁？
如果您确认遗忘自己的手机密码需要解锁，我们可以帮助您将手机强制恢复出厂设置。但是手机中的数据也会被清除，且无法恢复，建议您再回忆一下是否通过云备份或其他方式备份过手机数据。也建议您再仔细回忆一下是否自己设置修改了密码，如果确定无法回忆起密
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有
# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
华为harmonyos是什么手机
华为harmonyos是华为手机的操作系统，简称为鸿蒙系统。华为鸿蒙系统（HUAWEI Harmony OS），是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。华为鸿蒙系统是一款全新的面向全
# 2023-02-09
华为harmonyos是什么系统
演示机型：华为P50 系统版本：HarmonyOS 2华为harmonyos是鸿蒙系统。鸿蒙系统一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多
# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
鸿蒙系统在线铃声免费吗
鸿蒙系统在线铃声部分是免费的。鸿蒙系统上有一些在线铃声是免费的，但不是所有都是免费的，毕竟运营商还是要赚钱的，如果不想付费可以在一些免费的资源里寻找一个自己最喜欢的，愿意的话可以找自己喜欢的铃声付费，付费的铃声还是比较丰富的，可以选择的很多
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打
# 2023-02-09
华为手机升级鸿蒙系统音乐不能同步到华为音箱
要将手机和鸿蒙系统音乐进行蓝牙配对。匹配方法：1、在鸿蒙系统手机的主页面中从右上边向下滑动，调出控制中心。2、点击【音频播控中心】，播放音乐、新人或者是有声小说等。3、进入音频播控中心中，点击右上角的位置。4、选择切换音频输出设备，以华为音

如何用Python在10分钟内建立一个预测模型

2023-02-21 08:49:02Python06

如何用Python在10分钟内建立一个预测模型,第1张

预测模型的分解过程

我总是集中于投入有质量的时间在建模的初始阶段，比如，假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题，并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间，这有充分的理由：

你有足够的时间投入并且你是无经验的（这是有影响的）

你不带有其它数据观点或想法的偏见（我总是建议，在深入研究数据之前做假设生成）

在后面的阶段，你会急于完成该项目而没有能力投入有质量的时间了。

这个阶段需要投入高质量时间，因此我没有提及时间表，不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型，在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表：

数据描述性分析——50%的时间

数据预处理（缺失值和异常值修复）——40%的时间

数据建模——4%的时间

性能预测——6%的时间

让我们一步一步完成每个过程（每一步投入预测的时间）：

阶段1：描述性分析/数据探索

在我刚开始成为数据科学家的时候，数据探索占据了我大量的时间。不过，随着时间的推移，我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%，自动化的好处是显而易见的。

这是我们的第一个基准模型，我们去掉任何特征设计。因此，描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中，你将需要2分钟来完成这一步（假设，100000个观测数据集）。

我的第一个模型执行的操作：

确定ID，输入特征和目标特征

确定分类和数值特征

识别缺失值所在列

阶段2：数据预处理（缺失值处理）

有许多方法可以解决这个问题。对于我们的第一个模型，我们将专注于智能和快速技术来建立第一个有效模型。

为缺失值创建假标志：有用，有时缺失值本身就携带了大量的信息。

用均值、中位数或其它简单方法填补缺失值：均值和中位数填补都表现良好，大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似，使用其它相关特征填补或建立模型。比如，在Titanic生存挑战中，你可以使用乘客名字的称呼，比如：“Mr.”, “Miss.”,”Mrs.”,”Master”，来填补年龄的缺失值，这对模型性能有很好的影响。

填补缺失的分类变量：创建一个新的等级来填补分类变量，让所有的缺失值编码为一个单一值比如，“New_Cat”，或者，你可以看看频率组合，使用高频率的分类变量来填补缺失值。

由于数据处理方法如此简单，你可以只需要3到4分钟来处理数据。

阶段3：数据建模

根据不同的业务问题，我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。

阶段4：性能预测

有各种各样的方法可以验证你的模型性能，我建议你将训练数据集划分为训练集和验证集（理想的比例是70：30）并且在70%的训练数据集上建模。现在，使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。

本文的目的不是赢得比赛，而是建立我们自己的基准。让我们用python代码来执行上面的步骤，建立你的第一个有较高影响的模型。

让我们开始付诸行动

首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构：

步骤1：导入所需的库，读取测试和训练数据集。

#导入pandas、numpy包，导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数

import pandas as pd

import numpy as np

fromsklearn.preprocessing import LabelEncoder

import random

fromsklearn.ensemble import RandomForestClassifier

from sklearn.ensembleimport GradientBoostingClassifier

#读取训练、测试数据集

train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')

test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')

#创建训练、测试数据集标志

train='Train'

test='Test'

fullData =pd.concat(,axis=0) #联合训练、测试数据集

步骤2：该框架的第二步并不需要用到python，继续下一步。

步骤3：查看数据集的列名或概要

fullData.columns # 显示所有的列名称

fullData.head(10) #显示数据框的前10条记录

fullData.describe() #你可以使用describe()函数查看数值域的概要

步骤4：确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。

ID_col =

target_col =

cat_cols =

num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))

other_col= #为训练、测试数据集设置标识符

步骤5：识别缺失值变量并创建标志

fullData.isnull().any()#返回True或False，True意味着有缺失值而False相反

num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量

#为有缺失值的变量创建一个新的变量

# 对缺失值标志为1，否则为0

for var in num_cat_cols:

if fullData.isnull().any()=True:

fullData=fullData.isnull()*1

步骤6：填补缺失值

#用均值填补数值缺失值

fullData = fullData.fillna(fullData.mean(),inplace=True)

#用-9999填补分类变量缺失值

fullData = fullData.fillna(value = -9999)

步骤7：创建分类变量的标签编码器，将数据集分割成训练和测试集，进一步，将训练数据集分割成训练集和测试集。

#创建分类特征的标签编码器

for var in cat_cols:

number = LabelEncoder()

fullData = number.fit_transform(fullData.astype('str'))

#目标变量也是分类变量，所以也用标签编码器转换

fullData = number.fit_transform(fullData.astype('str'))

train=fullData='Train']

test=fullData='Test']

train = np.random.uniform(0, 1, len(train)) <= .75

Train, Validate = train=True], train=False]

步骤8：将填补和虚假（缺失值标志）变量传递到模型中，我使用随机森林来预测类。

features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))

x_train = Train.values

y_train = Train.values

x_validate = Validate.values

y_validate = Validate.values

x_test=test.values

random.seed(100)

rf = RandomForestClassifier(n_estimators=1000)

rf.fit(x_train, y_train)

步骤9：检查性能做出预测

status = rf.predict_proba(x_validate)

fpr, tpr, _ = roc_curve(y_validate, status)

roc_auc = auc(fpr, tpr)

print roc_auc

final_status = rf.predict_proba(x_test)

test=final_status

test.to_csv('C:/Users/Analytics Vidhya/Desktop/model_output.csv',columns=)

现在可以提交了！

1、Python数据分析流程及学习路径

数据分析的流程概括起来主要是：读写、处理计算、分析建模和可视化四个部分。在不同的步骤中会用到不同的Python工具。每一步的主题也包含众多内容。

根据每个部分需要用到的工具，Python数据分析的学习路径如下：

相关推荐：《Python入门教程》

2、利用Python读写数据

Python读写数据，主要包括以下内容：

我们以一小段代码来看：

可见，仅需简短的两三行代码即可实现Python读入EXCEL文件。

3、利用Python处理和计算数据

在第一步和第二步，我们主要使用的是Python的工具库NumPy和pandas。其中，NumPy主要用于矢量化的科学计算，pandas主要用于表型数据处理。

4、利用Python分析建模

在分析和建模方面，主要包括Statsmdels和Scikit-learn两个库。

Statsmodels允许用户浏览数据，估计统计模型和执行统计测试。可以为不同类型的数据和每个估算器提供广泛的描述性统计，统计测试，绘图函数和结果统计列表。

Scikit-leran则是著名的机器学习库，可以迅速使用各类机器学习算法。

5、利用Python数据可视化

数据可视化是数据工作中的一项重要内容，它可以辅助分析也可以展示结果。

首先介绍一下概念， 马尔科夫链 是由具有以下性质的一系列事件构成的过程：

以美国大选为例，首先取得过去十次选举的历史数据，然后根据历史数据得到选民意向的转移矩阵。我们假设得到了如下的转移矩阵（很明显这个数据不是真实的）：

这样就形成了一个差分方程组

R n+1 = 0.75R n +0.20D n +0.40I n

D n+1 = 0.05R n +0.60D n +0.20I n

I n+1 = 0.20R n +0.20D n +0.40I n

根据我们以前将差分方程组的内容，可以推测出选民投票意向的长期趋势

最后得到的长期趋势是：56%的人选共和党、19%的人选民主党、25%的人选独立候选人。

这个问题还可以直接用矩阵来解

关于马尔科夫链的转移矩阵性质还有一个定理叫Chapman-kolmogorov方程：

也就是说P (m) = (P ij (m) )是从状态i到状态j的m步转移矩阵。熟悉矩阵运算的朋友应该很容易就能证明出来。

我们已经得到了一步转移矩阵，只需做个迭代就可以了：

数据缺失变量模型第一个

# 上一篇：书名号在电脑上怎么打出来？

# 下一篇：css 控制img 图片路径