β

高效、快速、准确、动态的人口统计新实践

TalkingData's Blog 4 阅读
前言 作为社会的主体,人口是影响社会发展的基本力量,人口规模的变化是决定城市空间规模的重要影响因素。我国正处在城市高速发展时期,城市规划的重要性日益凸显,人口的量化分析占有越发重要的地位。 城市人口数量每时每刻都在变化,自身增长规律十分复杂。目前,人口统计方法基本分为静态统计和动态统计两种。静态统计一般广泛应用于统计局、公安局等部门,以普查、抽查、登记等传统手段为主,有耗时高、成本大、效率低等特点。 近几年,随着大数据和数据科学的兴起,基于信令、手机APP、GIS应用的移动位置大数据动态人口统计方法正在迅速发展,补充了传统人口统计数据来源,可以作为动态人口统计结果的参考标准。 基于移动数据的动态人口统计 TalkingData覆盖数据具有来源丰富、种类齐全、数据体量大等特点。目前,TalkingData除了自有移动互联网数据,还整合了运营商等合作伙伴的数据,包含GPS、基站、WiFi等位置信息。 下图以计算年度数据为例,介绍TalkingData动态人口统计的主体逻辑: TalkingData人口统计团队提取一年内的所有移动设备数据,基于用户群体出现天数、驻留时长、时间间隔维度建立评估模型,同时根据静态统计结果,建立了判定稳定用户的阈值。基于阈值对设备进行过滤去重之后,即可建立稳定用户基础库。之后的各项指标计算都是基于稳定用户基础库进行的。 对获得的稳定用户基础库从时间、空间维度上进行聚类筛选,可得到更丰富的统计结果。比如对省市聚类,可以获得全国各省份全年的相关结果;对时间聚类,可以获得某一段特定时间的数据统计结果;考虑相邻两个月的人口迁移,可以得到省份的人口流入流出情况。 人口统计实践 下面展示TalkingData人口统计的部分实践。 ① 2018年4月北京市十六区常住人口占比: TalkingData人口统计团队用2016年8月份移动运营商常住人口占比与2016年北京城十六区年鉴常住人口占比作为参考。对比发现,TalkingData计算得出的北京市区县常住人口中,占比前四的区县分别为朝阳区、海淀区、丰台区和昌平区,与运营商数据和统计年鉴一致,但TalkingData和运营商计算的朝阳区常住人口占比都高于统计年鉴中的人口比例。 为了衡量TalkingData的计算准确度,我们以2016年北京城十六区年鉴常住 人口占比为基准,对比TalkingData计算的人口占比的偏差程度。对比发现,TalkingData与年鉴数据误差的均值为0.98%,标准差为1.61%。移动运营商数据与年鉴数据误差的均值为0.90%,标准差为1.47%。 ② 2017年11月深圳区域常住人口占比: TalkingData人口统计团队用2017年11月份移动运营商计算的深圳常住人口占比与深圳统计局年鉴中的2016年常住人口占比作为参考。对比发现,三份数据整体趋势非常接近。 我们以年鉴的人口占比为基准,对比TalkingData计算的人口占比的偏差程度。对比发现,TalkingData与年鉴数据误差的均值为1.24%,标准差为1.61%。移动运营商数据与年鉴数据误差的均值为1.57%,标准差为1.81%,二者很接近,TalkingData略优于移动运营商数据。 ③ 2017年11至2018年4月北京市常住人口变化: 上图为从2017年11至2018年4月份,北京的常住人口变化趋势。我们发现二月北京常住人口稍有减少,我们认为这是由“春运”造成的,符合常识认知。 上图分别展示了2017年11至2018年4月北京常住人口的环比变化趋势。北京常住人口总体在2017年11月份到2018年1月份体现出了下降趋势。2018年2、3月份受春节影响,常住人口有超过7%的下降和回流。2018年3、4月份数据基本持平,有轻微的上升。 ④ 2018年4月全国人口统计: 上图以2017年年鉴的全国省份数据为标准,对比了TalkingData计算的2018年4月的全国人口统计结果。我们发现误差平均值为0.90%,标准差为1.21%,TalkingData计算结果与年鉴占比相似程度较高,具有较强的参考价值。 TalkingData 《2017年移动互联网行业发展报告》指出,截至2017年12月,我国移动智能终端规模达到14.2亿台,且逐渐向三线及以下城市下沉,移动互联网已全面普及。基于移动位置大数据动态人口统计方法将是未来人口统计的发展趋势,与传统人口统计相结合,能够更好地帮助政府实现智慧的城市规划与管理,实现人民生活环境的整体改善。
作者:TalkingData's Blog
现在开始,用数据说话。
原文地址:高效、快速、准确、动态的人口统计新实践, 感谢原作者分享。

发表评论