问卷数据的标准化

Python045

问卷数据的标准化,第1张

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。一般常用的有以下几种方法。

生成的newvar的均数为0,SD为1

数据中心化和标准化的意义是一样的,为了消除量纲对数据结构的影响。

在R语言中可以使用 scale 方法来对数据进行中心化和标准化:

scale方法中的两个参数center和scale的解释:

1.center和scale默认为真,即T或者TRUE

2.center为真表示数据中心化

3.scale为真表示数据标准化

sweep再举一个例子:

有些地方说归一化,有些地方说标准化。

案例:某方便面厂商对旗下产品做品牌形象研究,针对竞品和自家产品,询问了下列问题,用于收集关于品牌形象的数据。

消费者行为学中,认为对品牌的态度会影响到消费者是否购买。主要基于费希本的多属性模型,认为消费者在决策时,会对比产品的多个属性,综合决定。所以在市场调研中要调查消费者关注哪些属性,同时还要调研在消费者印象中,不同品牌拥有哪些属性?

对应分析的数学统计背景:参考mooc课程①《多元统计分析及R语言建模》②《多元统计分析》

在问卷中,设置如案例的题目,能收集到被访者对各个品牌的形象选择频数。

两个问题:数据格式,数据类型

数据格式:①交叉表:SPSS中的交叉表和频数表不同,交叉表不能直接做对应分析,需要在Excel中转为频数表,重新录入后才能用。如何将二维表(交叉表)转为一维表(频数表) https://zhuanlan.zhihu.com/p/36204790 。②问卷数据:问卷导出的格式是按个案存储的,需要转为汇总格式的频数表才能用,多选题的转化需要定义多重响应集,然后用定制表输出频数表所需格式,重新录入SPSS中。如何调整数据用于对应分析(文章最后一部分) https://www.jianshu.com/p/98909f35b1c8

数据类型:①频数②打分③百分比。一般情况下都是频数(分类变量的数据),在《市场研究中的统计分析方法·专题篇》中还提到了使用频数加工后的列百分比数据。相对原始频数,用这种数据对结果有什么影响,不是很了解。还可以用打分产生的数据,但打分产生的数据,简单对应分析使用不同的分析方法,具体见《SPSS统计分析高级教程》245页-基于均数的对应分析。

其一:简单的统计排序,统计各个品牌在各个形象中的被选情况,做个排序。

其二:对应分析

1.通过卡方检验是否适用对应分析。对应分析的前提是,行列变量之间的确存在关联。

2.利用交叉表,查看原始分布的情况,了解各类别的数据,是否有频次过少的变量,如果有,则需要处理,一般是删除,或者不参与对应分析。(与多元对应分析比较,处理方法略有不同)。了解各品牌的大致突出的形象是什么。

行列交叉表,用于简单观察分布情况,同时查看是否有数据缺少等问题。

各行类别在各个维度上的信息量。

同上

具体看法:

第一种是分开看,行类别是否有效分开了,越是分开,代表对应分析的效果越好。具体看位置,比如行类别左右分的很开,上下却没有,说明行类别的信息主要体现在了横坐标上。

第二种是行列一起看,点与点之间的距离代表了关联程度,越近表明关联越大。同时离原点位置越远,代表了关联倾向越明显,可以从行和列汇总表中“维中的得分”理解,离原点越近,其维度中的信息量越少。

编者按:数据科学家是21世纪的热门工作。工欲善其事必先利其器。数据分析工具何其多,究竟用哪样才合适?Lewis Chou在Medium上分析了3类6种工具的特点和适用场景,看完这篇文章,相信你就可以知道了。原文标题是:Top 6 Data Analytics Tools in 2019

说到数据分析工具,我们总是有疑问。那么多的数据分析工具,它们之间究竟有什么区别?哪个更好?我应该学习哪一个?

尽管这是一个老生常谈的话题,但它确实很重要,我一直在努力寻找这个终极问题的答案。如果你到网上搜索这个领域的相关信息的话,很难找到公正的看法。因为特定数据分析工具的评估者可能会从不同的角度出发,并带有一些个人感受。

今天,让我们撇开这些个人感受。我会尝试跟大家一起客观地谈谈我对市场上数据分析工具的个人看法,以供参考。

我总共选择了三类共6种工具。接下来我会一一进行介绍。

Excel具备多种强大功能,比如创建表单,数据透视表,VBA等,Excel的系统如此庞大,以至于没有任何一项分析工具可以超越它,确保了大家可以根据自己的需求分析数据。

但是,有些人可能以为他们非常精通计算机编程语言,然后鄙视用Excel作为工具,因为Excel无法处理大数据。但是请考虑一下,我们日常生活中使用的数据是不是超出了大数据的限制?在我看来,Excel就是一款全能型的播放器。它最适合小型数据,而且通过插件还可以处理数百万的数据。

综上所述,基于Excel的强大功能及其用户规模,我认为它是必不可少的工具。如果你想学习数据分析,Excel绝对是首选。

商业智能是为数据分析而生的,它诞生的起点很高。其目的是缩短从商业数据到商业决策的时间,并利用数据来影响决策。

Excel的产品目标不是这样。Excel可以做很多事情。你可以使用Excel画课程表,制作问卷或用作计算器,甚至可以用来画画。如果你会VBA,还可以制作小型 游戏 。不过这些并不是真正的数据分析功能。

但是BI工具就是专门用于数据分析的。

以常见的BI工具(例如Power BI,FineReport 和Tableau)为例。你会发现它们都是按照数据分析流程设计的。先是数据处理,数据清洗,然后是数据建模,最后是数据可视化,用图表来识别问题并影响决策。

这些是数据分析的唯一方法,并且在这个过程中存在一些员工的痛点。

比方说,可以用BI工具来简化重复的低附加值的数据清洗工作。

如果数据量很大,传统工具Excel是无法完成数据透视表的。

如果我们用Excel来进行图形显示,会需要花费大量时间来编辑图表,包括颜色和字体设置等琐事。

这些痛点是BI工具可以为我们带来变化和价值的地方。

现在,让我们比较一下市场上的三种流行的BI工具:Power BI,FineReport 和Tableau。

1 )Tableau

Tableau的核心本质实际上是Excel的数据透视表和数据透视图。可以说Tableau敏锐地意识到了Excel的这一功能。它进入BI市场较早,并延续了这一核心价值。

从发展 历史 和当前市场反馈的角度来看,Tableau的可视化效果更好。我不认为这是因为它的图表有多酷,但是它的设计、颜色和用户界面给我们一种简单而新鲜的感觉。

确实,这就像Tableau自己的宣传一样,他们投入了大量的学术精力来研究大家喜欢哪种图表,以及如何为用户提供操作和视觉上的终极体验。

此外,Tableau还增加了数据清洗功能和更智能的分析功能。这也是Tableau可以预期的产品开发优势。

2)Power BI

Power BI的优势在于其业务模型和数据分析功能。

Power BI以前是Excel的插件,但是发展并不理想。因此它摆脱了Excel,发展成BI工具。作为后来者,Power BI每个月都有迭代更新,并且跟进的速度很快。

Power BI当前具有三种授权方式:Power BI Free、Power BI Pro以及Power BI Premium。与Tableau一样,免费版的功能也不完整。但是给个人用几乎已经足够。而且Power BI的数据分析功能强大。它的PowerPivot 和DAX语言让我能够以类似在Excel中编写公式的方式来进行复杂的高级分析。

3)FineReport应用

FineReport之所以独特在于它的自助服务数据分析非常适合企业用户。只需简单的拖放操作,你就可以使用FineReport 设计各种样式的报告,并轻松构建数据决策分析系统。

FineReport 可以直接连接到各种数据库,并且方便快捷地自定义各种样式,从而制作周报、月报和季报、年报。其格式类似于Excel的界面。功能包括报告创建,报告权限分配,报告管理,数据输入等。

此外,FineReport 的可视化功能也非常突出,它提供了多种仪表板模板和许多自行开发的可视插件库。

在价格方面,FineReport 的个人版本是完全免费的,并且所有功能都是开放的。

R和Python是我要讨论的第三类工具。尽管像Excel和BI工具这样的软件已尽最大努力考虑到数据分析的大多数应用场景,但其实它们基本上都是定制化的。如果软件没有设计某项功能或替某功能开发按钮,那很可能你就没法用它们来完成工作。

在这一点上面,编程语言是不一样的。它非常强大和灵活。你可以编写代码来执行所需的任何操作。比方说,R和Python是数据科学家必不可少的工具。从专业的角度来看,它们绝对比Excel和BI工具强大。

那么,R和Python可以实现哪些Excel和BI工具难以实现的应用场景呢?

1)专业统计分析

就R语言而言,它最擅长的是统计分析,例如正态分布,使用算法对聚类进行分类和回归分析等。这种分析就像用数据作实验一样。它可以帮助我们回答以下问题。

比方说,数据的分布是正态分布、三角分布还是其他类型的分布?离散情况如何?它是否在我们想要达到的统计可控范围内?不同参数对结果的影响的大小是多少?还有假设仿真分析。如果某个参数发生变化,会带来多大影响?

2)独立预测分析

比方说,我们打算预测消费者的行为。他会在我们的商店停留多长时间?他会花多少钱?我们可以找出他的个人信用情况,并根据他的在线消费记录确定贷款金额。或者,我们可以根据他在网页上的浏览 历史 推送不同的物品。这也涉及当前流行的机器学习和人工智能概念。

以上比较说明了几种软件之间的区别。我想概括的要点的是,存在就是合理。Excel,BI工具或编程语言存在部分功能重叠,但它们也是互补的工具。每个应用的价值取决于要开发的应用的类型和当时的情况。

在选择数据分析工具之前,你必须首先了解自己的工作:你会不会用到我刚刚提到的应用场景。或考虑一下你的职业方向:你是面向数据科学还是业务分析的。

译者:boxi。