r语言怎么用逻辑回归逻辑回归做预测

2023-02-24 18:27:01Python015

r语言怎么用逻辑回归逻辑回归做预测,第1张

逻辑回归是回归模型，其中响应变量(因变量)具有明确的值，如：True/False或0/1。它实际测量二元响应作为响应变量，是基于与预测变量有关它的数学方程的值的概率。逻辑回归一般的数学公式是：y=1/(1+e^-(a+b1x1+b2x2+b3x3+))以下是所使用的参数的说明：y是响应变量。x是预测变量。a和b是数字常量系数。用于创建回归模型的功能是glm()函数。

一直总是听说过这几个词，但是很容易记混，在这里记录一下。希望对大家理解有帮助。

首先来做一个总结：

精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。

召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。

用公式表达如下：

假设我此时想吃香蕉，实验室里面每天都会安排10个水果，水果种类分别是6个香蕉，3个橘子，1个菠萝。哎，但是，实验室主任搞事情啊，为了提高我们吃水果的动力与趣味，告诉我们10个水果放在黑盒子中，每个人是看不到自己拿的什么，每次拿5个出来，哎，我去抽了，抽出了2个香蕉，2个橘子，1个菠萝。

下面我们来分别求求P值，R值，F值，哈哈！

按照一开始说的，精确率是针对我们 预测结果 而言的，它表示的是预测为正的样本中有多少是真正的正样本。

这里我们的正样本就是我想吃的香蕉！

在预测结果中，有2个香蕉，总个数是我拿的5个，那么P值计算如下：

召回率（R值）

按照开始总结所说。

召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。

我们这里的正类是我想吃的香蕉，而在样本中的香蕉个数是6个，召回率的召回也可以这么理解，代表了，原始样本中正类召回了多少。R值计算如下：

分母已经变成了样本中香蕉的个数啦

F值

可能很多人就会问了，有了召回率和准去率这俩个评价指标后，不就非常好了，为什么要有F值这个评价量的存在呢？

按照高中语文老师所说的，存在即合理的说法，既然F值存在了，那么一定有它存在的必要性，哈哈哈哈！

我们在评价的时候，当然是希望检索结果Precision越高越好，同时Recall也越高越好，但事实上这两者在某些情况下有矛盾的。

比如极端情况下，在我们这个例子中，我们只搜索出了一个结果，且是香蕉，那么Precision就是100%，但是Recall为1/6就很低；而如果我们抽取10个水果，那么比如Recall是100%，但是Precision为6/10，相对来说就会比较低。

因此P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure，通过计算F值来评价一个指标！

我这里给出最常见的F1计算方法，如下：

F1 = （2 P R）/(P+R)

F那么在我们这个例子中F1 = (2 2/5 2/6)/(2/5+2/6)(这里我就不算出来了，有这个形式，更加能体现公式特点！)

希望对大家理解有所帮助~

参考：

推荐系统评测指标-准确率(Precision)、召回率(Recall)、F值(F-Measure) | 书影博客

Logistic回归在做风险评估时，一般采用二值逻辑斯蒂回归（Binary Logistic Regression）。以滑坡灾害风险评估为例。1、滑坡发生与否分别用0和1表示（1表示风险发生，0表示风险未发生）；2、确定影响滑坡风险的影响因子，这个根据区域具体情况而定，一般包括：地层岩性、植被、降水、地貌、断层、人类活动等等。如果是其他风险的话也根据具体情况而定（咨询专家就可以知道）。3、构建回归分析的样本。Logistic回归也是统计学里面的内容，所以必须得构建统计分析的样本。以构建滑坡风险统计分析的样本为例，先找出滑坡发生的地区，同时计算滑坡发生地区的各个影响因子的指标值。再选择滑坡未发生的地区，同时计算滑坡未发生地区各个影响因子的指标值。这样，就构建了统计样本，自变量为各个影响因子的指标值，应变量为0和1,。把样本导入SPSS里面进行分析，就可以构建自变量和因变量之间的非线性关系模型，然后用这个模型继续求解其他区域滑坡风险的概率值。

希望我的答案对你能有帮助！

样本香蕉滑坡的是表示

# 上一篇：使用vim搭建python开发环境-

# 下一篇：C语言如何制作自己的 h 文件