数据报告-用户研究岗位分析报告

Python013

数据报告-用户研究岗位分析报告,第1张

1. 为什么要做用户研究岗位分析报告?

(1)要找工作了想了解一下行情;

(2)学习了R语言,想小试牛刀。

2. 出于什么样的目的做这份用户研究岗位分析报告?

(1)搞清楚这个时间节点什么规模、什么行业的公司对用户研究岗位需求比较旺盛;

(2)弄明白现阶段对用户研究技能的要求和工作年限的要求,明白自己需要在哪些方面做准备和提高;

(3)薪资水平心里有数,以便找工作时根据自己的情况和行情定自己的期望薪资;

(4)盘点目标城市的岗位数和公司,方便投递。

(5)理清楚R语言爬虫的逻辑,技能和工具。

(6)练习R语言数据的导入和导出,excel数据清洗,以及基本的数据分析和数据可视化。

3. 怎么做用户研究岗位分析报告?

一个实际的数据分析case需要经历:问题提出、数据采集、数据清洗、数据分析,这四个大的阶段。如果有更深层次的分析挖掘还会涉及到数据建模,模型验证评估等过程。

3.1 问题提出

  换个角度也就是目的 目的 目的, 要解决什么问题。做任何事情都要有目的,有明确的目的,有明确可行的目的。这个目的前面已经提及,在这里就不多阐述。

3.1 数据采集

网站数据:boss直聘

爬虫工具:R语言

3.3 数据清洗

人生总是有一大半的时间在为一个机会做准备,数据分析也一样,前期的数据清洗占据了80%工作量,但是只要这80%做好了,后面就会事半功倍。

3.3.1 数据的导出和导入

用R成功爬取数据,由于数据量较小,所以使用excel做最基础的数据清洗。这里必须注意,R中导出来的数据如果是CSV格式,excel打开会变成乱码,因此需要进行CSV转换。使用Mac的同学可能会在这里遇到很多问题,那就按下面这个方便快捷的方法设置一下。

http://blog.sina.com.cn/s/blog_69e225900102w2mc.html

3.3.2 数据清洗

数据分列、重编码、重复项计算等,使用函数有mid(),find(),countif()等。

3.4 数据基础分析

由于数据量比较小,所以数据基础分析都是在excel中完成的,主要用到的分析方法是交叉分析。

4. 用户研究岗位分析报告的结果

4.1 岗位需求时空分析

4.1.1 用研岗位需求的时间分布趋势

本次分析共爬取了2017年12月7日到2017年8月11日的招聘信息212条。时间分布趋势图中可以看出,17年1月份迎来一个高峰,第二个小高峰出现在3-4月份之间,这也就是我们俗称的“金三银四”,到了7、8月份招聘趋势又有所回升,并且出现了波动。对比这三个趋势,12月份对用户研究的需求最高,其次是七八月份,反而三四月份需求较低,据推测这可能是因为金三银四之后很多用人单位招到了合适的人员,随后会将岗位标为停止招聘,所以这些招聘信息不会再出现。

4.1.2 用户研究岗位需求城市分布

从获取到的数据中发现,用户研究岗位的需求主要集中在北京,其次是深圳、上海、杭州,广州和南京也有一定的需求。这是由于这些地区是互联网行业发展较为成熟的地方,互联网企业云集,因此对用户研究的需求较为旺盛。

4.2 需求企业分析

4.2.1 有用户研究岗位需求的公司规模

在所有收集到的岗位信息中,主要是已上市的公司和不需要融资的公司对用户研究岗位有较大的需求。

4.2.2 用户研究岗位行业分布

用户研究岗位在互联网行业需求最强,其次是IT软件和游戏行业。

4.3 岗位要求分析

4.3.1 岗位年限要求

从数据结果来看,3-5年工作经验最受青睐,其次是1-3年,另外还有许多公司在用户研究岗位招聘中没有具体的经验限制。

4.3.2 岗位学历要求

用人单位对用户研究岗位的学历要求基本为本科学历,仍有部分公司在JD对学历没有做要求。

4.3.3 能力要求

通过对招聘信息中的能力标签进行分析,发现除了传统的用户研究之外,数据分析能力称为用户研究岗位能力要求中较为重要的一项。

4.4 薪资分析

薪资水平一定程度上由工作年限决定,因此对工作年限和薪资水平进行交叉分析发现,3-5年经验的用户研究人员,用人单位的薪资范畴以15-20k居多,1-3年经验的薪资水平跨度较大,这是由于薪资水平还会受城市、公司规格的影响,这些因素后续将会进行分析讨论。

5. 用户研究岗位分析报告结论

(1)用户研究岗位目前的招聘需求并不是很旺盛,且主要分布在北京、深圳、上海、杭州这些互联网行业发展较好的地区为主;由于北京互联网公司较多,北京的需求要远远大于其它地区。

(2)数据显示,上市公司和互联网行业对用户研究岗位的需求更旺盛,原因在于:

a. 从行业角度来说,互联网行业捧红了用户体验的概念,在做产品的过程中对用户体验要求更高。

b. 从公司角度看,大公司产品流程和UCD团队更加体系化、成熟化,分工比较明确。

c. 大公司的产品和用户量级较大,需要有专职岗位去负责针对用户研究,更好的保证产品质量。

d. 从大公司的经济实力的角度出发,大公司有足够的经济实力去建立用户研究团队,因为用户研究从本质上来说还是属于产品的支撑部门,因此对于中小型企业来说,单独去设立这样的岗位成本较高,因此用户研究的工作多由产品经理或产品运营来承担。

e. 大公司用户体验的理念也决定着对用户研究投入产出比的权衡,很多大公司在产品打磨过程中愿意投入时间成本去进行用户研究,他们会认为好的用户研究会为产品带来更大的益处。

(3) 用户研究岗位中能力标签中数据分析能力越来越重要,这是由于随着行业的发展,数据驱动已经成为大趋势,所以对用户研究这个连接用户与产品的岗位而言不仅仅要用传统的方法和思路去研究用户,还需要分析用户行为数据、业务数据,将传统用研和产品数据结合起来发现问题,有的放矢,客观高效的解决问题。因此用户研究人员,在项目过程中需进一步提高自己数据分析能力,与业务紧密结合,更有效的发现问题,解决问题。

(4)用户研究岗位的薪资水平主要受工作年限、城市以及公司规模的影响,通过对工作年限和薪资水平的交叉分析,3-5年工作经验的用户研究人员公司一般会给出的薪资范围为15-20k。

本次分析的数据来源于boss直聘中所能收集到的2016年12月7日至2017年8月11日招聘信息,由于招聘信息实时更新,本次分析结果仅作为参考。

HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。

HTTP协议工作于客户端-服务端架构上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器有:Apache服务器,IIS服务器(Internet Information Services)等。Web服务器根据接收到的请求后,向客户端发送响应信息。HTTP默认端口号为80,但是你也可以改为8080或者其他端口。

通信流程说明:

①用户首先通过鼠标/键盘点击或手动输入目标链接(即URL(Uniform Resource Locators),中文名称:统一资源定位符),向HTTP客户端(如常见的浏览器)传达数据查询需求。

②HTTP客户端收到需求后,将收到的URL信息向DNS服务器(域名系统)询问链接对应的具体IP地址,DNS服务器返回URL对应的IP地址。

③HTTP客户端再拿着IP地址通过TCP协议(传输控制协议,Transmission Control Protocol)和IP协议(Internet Protocol)向HTTP服务器发出数据请求,等待服务器响应。

④HTTP服务器将请求的相关信息返回给HTTP客户端,由客户端返回给客户。

⑤重复上述步骤①~④,直到所有请求执行完毕。

URL格式: 如 scheme://hostname:port/path?querystring#fragment 。一个完整的URL共有6部分构成,但是并不是每个部分都一定要具备。参数解释如下:

HTTP是基于客户端/服务端(C/S)的架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。一个HTTP"客户端"是一个应用程序(Web浏览器或其他任何客户端),通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。一个HTTP"服务器"同样也是一个应用程序(通常是一个Web服务,如Apache Web服务器或IIS服务器等),通过接收客户端的请求并向客户端发送HTTP响应数据。HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。一旦建立连接后,数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展(MIME)[RFC2045]来传送。

客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成,下图给出了请求报文的一般格式。

如:

HTTP响应也由四个部分组成,分别是:状态行、消息报头、空行和响应正文。

如:

根据 HTTP 标准,HTTP 请求可以使用多种请求方法。HTTP1.0 定义了三种请求方法:GET, POST 和 HEAD方法。HTTP1.1 新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在请求模式中,最常用的请求方法是GET和POST方法,在爬虫过程中至关重要。这两个方法都是从服务器请求一个资源,但是在正文的使用上有所不同。GET方法是网络请求最通用方法,可理解为直接请求。POST则有所区别,需要提交表单信息才能请求到信息,比如说拉勾网招聘首页需要用户输入地点、薪资范围等信息才能请求到匹配的网页界面。

HTTP请求头提供了关于请求,响应或者其他的发送实体的信息。下面将具体来介绍HTTP响应头信息。

当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(server header)用以响应浏览器的请求。HTTP状态码的英文为HTTP Status Code。下面是常见的HTTP状态码:

200 - 请求成功

301 - 资源(网页等)被永久转移到其它URL

404 - 请求的资源(网页等)不存在

500 - 内部服务器错误

HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:

Content-Type(内容类型),一般是指网页中存在的 Content-Type,用于定义网络文件的类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,比如text/html/xml/json/jpg/gif/pdf等。Content-Type 标头告诉客户端实际返回的内容的内容类型,如下图,返回的是html格式文件。

当我们在地址栏输入 www.sina.com.cn 时,浏览器将显示新浪的首页。在这个过程中,浏览器都干了哪些事情呢?通过Network的记录,我们就可以知道。在Network中,定位到第一条记录,点击右侧Headers,从Request Headers中可以看到浏览器发给新浪服务器的请求:请求网址为 https://www.sina.com.cn/ ,请求方法为GET.

继续往下找到Response Headers,它显示服务器返回的原始响应数据。其中200表示一个成功的响应,后面的OK是说明。失败的响应有404 Not Found:网页不存在,500 Internal Server Error:服务器内部出错,等等。Content-Type指示响应的内容,这里是text/html表示HTML网页。请注意,浏览器就是依靠Content-Type来判断响应的内容是网页还是图片,是视频还是音乐。

HTTP响应返回的是HTML源码,点击Response,可以看到返回的html网页源码。

接着,当浏览器读取到新浪首页的HTML源码后,它会解析HTML,显示页面,然后,根据HTML里面的各种链接,再发送HTTP请求给新浪服务器,拿到相应的图片、视频、Flash、JavaScript脚本、CSS等各种资源,最终显示出一个完整的页面。

参考: https://www.runoob.com/http/http-tutorial.html

更多内容可关注公共号“YJY技能修炼”~~~

往期回顾

R爬虫在工作中的一点妙用

R爬虫必备基础——HTML和CSS初识

R爬虫必备基础——静态网页+动态网页

R爬虫必备——rvest包的使用

R爬虫必备基础——CSS+SelectorGadget

R爬虫必备基础—Chrome开发者工具(F12)

代码如下:

>install.packages(“XML”)#安装XML包

>library(XML) #载入XML包

>u<-"XXX" #写入表格所在的网址

>tbls<-readHTMLTable(u) #分析网页中的表格,如果网页包含多个表格,需要确定读取哪个表。可通过识别表的行数来确定,具体见R语言网页数据抓取的一个实例_戊甲_新浪博客

>pop<-readHTMLTable(u,which=1) #读取网页中的第一张表

>write.csv(pop,file="d:/pop.csv") #存储pop为CSV文档至D盘中

这样,就快速实现了网页中的数据爬取。