β

COS访谈第24期:郭绍俊老师

统计之都 17 阅读
COS

【COS编辑者按】受访者:郭绍俊      采访者:冯璟烁、于嘉傲     校对:于嘉傲

郭绍俊 2003年毕业于山东师范大学,2008年获得中国科学院数学与系统科学研究院理学博士学位。博士毕业后留中国科学院数学与系统科学研究院工作,助理研究员,任期至2016年。工作期间,于2009年-2010年赴美国普林斯顿大学运筹与金融工程系博士后研究,做高维数据分析方面的研究工作,并于2014-2016年在英国伦敦经济学院统计系做博士后研究,做大维时间序列建模方面的研究。 现为中国人民大学统计与大数据研究院副教授。目前主要研究方向有:高维统计学习;非参数及半参数统计建模;大维统计计算;生存分析及函数型数据分析等。

冯璟烁: 郭老师您大学时修的是数学系?我们看即便现在统计学科这么热,学数学的人也不是很多,所以您当时是出于什么样的考虑选择应用数学呢?

郭老师: 我修读的是应用数学,因为高中时数学还不错。可是高考分数不是很理想,高考后就报考了山东师范大学数学系。当时对于纯数学兴趣没有那么大,但本身数学功底不错,所以希望大学里多接触一下应用工程相关的专业,就选择了应用数学概率统计方向。当时还是消息比较闭塞,只知道这是数学最接近应用的分支,之后读了研究生才发现,应用数学还有很多分支,比如山东大学的控制与自动化专业。我很多的高中、大学同学现在就从事自动化控制方向的有关专业。当然就我个人来说还是更喜欢学习概率统计。

冯璟烁: 然后您本科毕业以后就直接去了中科院,当时就已经决定潜心学术了吗?

郭老师: 对的,从事学术是我一直以来的坚定目标。这是我个人的定位,当时我在就读研究生时就在思考、规划未来的从业方向,觉得还是希望到大学当老师或者留在科研院所,工作以后留在了中科院应用数学所做助理研究员进行科学研究。如果我当时想去公司工作,读博之前肯定就已经进行其他方向职业规划了。虽然北京房价一直在涨(笑),但也没有影响我对这份职业的选择。

冯璟烁: 所以您当时读博就是为了当老师,做研究?

郭老师: 是的,这是我的个人选择,包括很多研究生同学和我一样,开始来到中科院时就有了这样坚定的想法和信念。 当然我也有很多同学博士毕业后去业界工作或是找了一份和自己专业相关性没有那么大的工作。统计学科其实还好,可涉足的领域比较广,可以去银行、保险,一些其他同学原先做纯数学的,之后也去了金融公司工作,跨度就稍微大一点。但对于我自己来说还是很幸运的,可以选择一个自己喜欢的专业和方向学习工作。

冯璟烁: 您曾在中科院当助理研究员,之后又来到大学任教,您觉得作为研究员和老师之间的区别主要在于什么?

郭老师: 区别真的很大!科学院是一个比较严谨的单位,它以科学研究为主,学生比较少,(现在有了中国科学院大学可能不一样了)。我03年直博进入中科院数学与系统科学研究院时,我们一届一共55个学生,大多是硕博连读。我们应用数学所属于中等规模,大概有60多位老师,数学所、系统科学所、应用数学所、计算数学所四个研究所总共应该有300到400人的科研人员,师生比很高,学生相对来说比较紧缺。所以如果你想做一些研究,在那边培养还是不错的。 最大的一个好处就是我在中科院时几乎不用上课。当然我个人比较喜欢教书,希望能传授一些东西出去。 我觉得做研究出成果写论文是一方面,教书育人是另一方面,当然是不是成功就不好说啦(笑)。现在来到人民大学统计与大数据研究院,一部分精力会放在教学上面,毕竟我们院刚刚成立,是一个新的单位。当然这也是比较吸引我的地方,相对老一些的单位会有各种规矩很难打破,年轻的单位束缚就少一些。

冯璟烁: 您看现在大数据这个词这么热,不止是统计,几乎各个行业都在讲,您认为对于我们统计出身的人来说,这是什么样的机遇和挑战呢?

郭老师: 我觉得从各种广告来说,大数据这个词太虚。我觉得我们做数学、统计或者计算机的人肯定还是要做些实实在在的东西。当然我觉得目前大数据时代,对中国的统计学来讲是个很好的机会,可以让更多人把统计学应用并发扬光大。计算机的发展使得利用大数据解决问题更方便了,但是不断挖掘大数据的价值,还是依赖统计学以及数据分析技术的不断发展。你可以想象统计学最初发展时还不是common knowledge,有人了解统计学方法就掌握了大量信息,这个信息就可以用来挣钱、提高技术。但是现在大家都在用大数据时,就需要比较谁用的分析技术更深入、更高级了,毕竟你的很多知识已经是大家都拥有的common knowledge了。我研究生时做过一个项目,要对产品线上的产品进行切割,这个技术在美国已经很成熟了,他们卖给了欧洲的一些厂商,也能达到预期效果,但是我们早出的产品就是不合格,这种技术在国外已经证明切实可行了,但是拿到中国就是做不出合格的产品,很久之后我们发现这是个统计学问题,应用统计方法之后精度就逐渐提高了。所以我觉得很多东西不是没有用处,而是我们没有发现它的用处。有时候你觉得这样就行了,是因为竞争还不那么激烈,有了竞争你就会发现有提高的空间,也有了统计学应用的空间,这也算是追求卓越的一种期待。

我可以聊聊我们国内统计学发展的情况,也许会对这个问题更有感悟和启发。我们国内统计学发展发展和国外发展不太一样。 中国统计虽然之前也有发展但是很零碎,之后真正发展起来是在新中国成立后,较早的一批应该是陈希孺老师了,他是目前中国统计学唯一的中科院院士(《数理统计学简史》作者,已去世)。中国数理统计学的快速发展差不多从陈老师那一代开始的。从新中国建国以后,虽然之前也有其他人比如国外回来的许宝騄先生对统计学做出了卓越贡献,但身体也不是很好,不久就去世了。对比欧美,从19世纪开始,欧美统计学家们做的就是应用研究,比如讨论人口增长、人口普查、政府经济,等等,所以他们有广泛的应用分析基础。 经典统计学的两大奠基人之一,Karl Pearson 当时在做生物统计。国外的学者的另一个特点是他们愿意推广宣传掌握的知识技艺,我国过去就比较容易敝帚自珍。我上一次去西安开会,参观兵马俑时导游介绍说中国当时的冶金技术相当先进,领先欧洲几百年,但是中国的技术没有流传,一直只是皇家内部资料所以最终失传。国外通过公开发表相关技术,申请专利。据说当时欧洲冶金技术是申请过吉尼斯世界纪录的,很多年后,中国兵马俑出土后发现我国的冶金技术比欧洲早很多年,这个记录就取消了。其实中国有很多先进的知识和方法论,但因为文化的原因没有传承下来,而国外在这方面做的就比较扎实。美国也是,统计应用和理论双管齐下。二战时的John Tukey 就在使用应用统计学解决实际问题。中国的统计学从建国以来发展从数理角度直接起步,迈过了一个阶段,国外实际上是先有数据分析,建立方法论,再以数学方法搭建统计学理论框架,而中国跨过了应用直接作理论,不是说不好,但认识上肯定有一些缺陷。你看现在做数据分析的人,其实没有多少人研究过统计学,而做理论研究的人,又没有多少在做实际数据分析的。这其实是有历史原因的。

于嘉傲: 那您觉得从教育角度来说,国内外也存在这样的差距嘛?

郭老师: 也会存在,但这个差距肯定越来越小,毕竟环境越来越开放。现在知识更新速度比较快,获取知识的速度也很快,国外很多应用统计学家都在做数据分析,中国也越来越关注应用。我觉得不能说分派系,但可以分专长。没有人能在统计学的所有方面都有所建树,毕竟每个人思想不一样,都有其所长。比如北大的王汉生教授,他以前主要研究统计学的理论,现在开始从数据出发,研究实际应用,并带着一批人在推广他的应用统计理论,希望可以教育下一代的应用统计学工作者。我很欣赏这个,就像是统计学科在重走长征路,这条路你不走,没有人会帮你走的,所以像他一样走这条实际数据分析的道路非常好。倒不是说中国走了这条道路就不需要走别的路,中国的统计学理论一样需要提高。我认为比较合适的一定是应用与理论统计学教育多管齐下。毕竟现在开放性强了,获取知识的途径多了,要有人做数据分析领会数据分析的魅力,也要有人钻研提升统计学理论的高度。大数据来了,统计面临更多的挑战,在这种背景下可以进一步发展统计学理论。王汉生教授的例子非常好,能把数据分析与理论结合,但这还远远不够,我们需要更多地把数据和实际应用结合。中国做统计学研究分析的人目前确实还是太少。就像武侠小说里的武功那样,有人想学习九阴真经,有人想学习降龙十八掌,不同的武功虽然招式是不一样,但修为的境界应该是差不多的。这就是我认为现在应该做的。

冯璟烁: 您现在本人也在做高维统计分析的工作,您在实际问题中真正处理大数据时会面临什么问题?对于统计又有什么助益?

郭老师: 我自己主要做方法论,但也在逐渐接触应用,我发现真正应用统计学做数据分析与只做理论研究会有极大的不同。最简单的针对一个变量,统计学方法假设它具有一定性质,但在真实分析时就完全懵了,假设有时根本不成立。我们需要更多探索才能了解实际数据,因为理论与现实差别非常大,但这样的探讨十分有意义,探讨才会有新的想法。我在美国访问范剑青教授时得到了很多启发,他的很多问题来自于应用,因为他自己就有很多应用课题,他的一些学生也在公司任职。他有两个lab,一个统计学实验室,一个金融学实验室。金融学实验室里很多学生在做实习做工作,会产生金融的问题来请教他,这些问题是实际应用中遇到的,这驱动着他产生源源不断的想法,再加上他自己的原创性的天赋,所以就能比别人走的更靠前。看到这些我觉得我们现在不应该只是靠别人,拿别人的方法套用做数据分析。 我们要做自己的问题,自力更生创造自己的统计理论框架才是最好的。大数据越来越多,有些泛滥了,但每个人可以去粗存精,找到适合自己的。现在有很多人过度跟风,别人做什么我做什么,其实不需要这样的。沉下心来做一些自己喜欢的事情不是挺好的。像法律看似不需要做大数据,但是大数据时代下,可能有很多法律相关问题都是需要去完善的。中国正缺这样的人才,不只是大数据的计算,而是整个相关行业都等待我们开拓。

冯璟烁: 现在处理数据来说,计算机功能越来越强大,但是像我们这样的统计学学生,却可能要大三才能接触到统计软件,您认为我们和计算机科班出身的人有什么优势和劣势?比如说如果您要选择研究生,你会更看重他们哪方面的能力?

郭老师: 我们现在也在思考,怎么能把统计专业和数据科学专业做好,这也是统计与大数据科学院建立的原因之一。计算机这个层面,要看你偏重哪一方面。其实现在计算机专业更关注它的硬件,这是一个层面,比如spark,注重知识的存储、提取,但还到不了数据分析的层次。数据分析的层面计算机专业也有一定涉及,比如机器学习,data mining,但统计中也有相应的东西,比如统计学习。如果我选择研究生,我觉得有扎实的计算机基础,统计思想更透彻的学生。

冯璟烁: 我们现在在学时序、回归,但也在和信息学院的同学聊,他们可能大二就已经开始应用一些machine learning方法了,对此您有什么看法?

郭老师: 我个人觉得,统计学现在一个不太令人满意的地方,就是对于计算的要求太低,统计学专业学生应该大大提高计算能力和水平,但是如果你让我选,是计算机方面的机器学习还是统计方面的机器学习,我还是倾向统计方面。我们知道从知识的角度我们不应该倾向从哪一方面学习, 如果学到一些知识然后跳出这个领域从一个更高的高度来看待它,就简单多了。计算本身是一种本领,统计学是让你具备思考问题的能力,这在维度上是不一样的,所以机器学习里很多计算机科学家,如果你仔细看会发现他们的统计分析水平都是非常高的。这点大家一定要认识到,不要以为他们是学计算机的,没有系统学习统计也一样能把机器学习做得非常好。比如John Tukey ,普林斯顿大学的教授,在探索性数据分析领域做出了很多贡献,但他是普林斯顿数学系毕业,在Annals of Mathematics发表过论文,所以他的数学功底非常好,他学了数学之后跳出这个框架来思考问题,高度就不一样了。这才是主要问题,所以你是学习计算机还是统计,it doesn’t matter,需要从更高的高度看问题。你学了统计,不应该标榜我是学统计的所以就不学习机器学习,学习了统计应该跳出统计的框架思考问题,就像你学习计算机机器学习要跳出计算机的框架用统计思维看待这个问题一样。机器学习刚提出来时大家都觉得很神秘,这个东西为什么表现得这么好?计算机学家自己有一些想法,但是统计学家进入后能把问题解释得更清楚,大家用的更放心,做得更快,有更高级的算法提升,所以计算机也好,统计也好,它们不是独立的,而是互相融合的。计算机的人如果有统计的思维思考问题会站在更高的维度上。每个人都有自己的方向和专长,不是50-50分的,50-50未必是好事,你每门课都好可能意味着每门课都不好,突出优势才是赖以生存的工具。比如计算机40 统计60,统计知识突出计算机知识也不差,就脱颖而出了。 50-50在统计里不算好,在计算机里也不好,没有个人独立的优势,不像70-30就能脱颖而出,但又相比90-10有优势。我更倾向研究生在学习统计学时能够拥有一定计算机知识,能够了解掌握基础应用,比如spark掌握就好。

于嘉傲: 那从您的角度,对于学习统计的本科生你有什么建议?或者您认为他们有什么不足?

郭老师 还是刚才我谈的,最怕三不沾。很多统计学学生对于统计学理论不了解,指望不学习理论直接应用,但是我们发现他们应用时因为不理解理论又用不好,计算机又不如计算机科班出身的人水平高,所以我觉得这是统计学专业目前最大的障碍,也就是不能脱颖而出。我觉得现在统计学和计算机机器学习区别的地方之一在于统计学很少有人会做一些产品,计算机很容易把自己包装出一个产品,虽然可能这个作品不够完美。(当然现在很多统计学家在这方面的认识已经不一样了) 上世纪统计学的那些统计学家们,眼界是非常高。他们在从科学哲学的角度来考虑,但是后来统计理论学家进来,很多来自各个行业的分析学家进来,问题变得不一样了。比如十七八世纪微积分是一个高大上的东西,现在就已经是基本知识了,学习就是这样一个认识的过程,但其实统计学还可以做得更好,只是因为common knowledge的普及统计学反而显得不高级了。于是理论学家开始更专注于自己做方法论,逐渐和应用实际分离。 我们都知道理论脱离实际这其实是一件不好的事情。 J. Neyman是统计检验方面最出名的统计学家之一,他最开始在英国发展,1930年左右去了美国。J. Neyman数学很好,他觉得那时统计学分析不够严谨,所以就在英国开展一些理论上的研究,但不是很顺利,所以辗转来到伯克利任职数学系教授。从他开始,美国数理统计学派开始飞速发展。现在有人开玩笑说,他的到来,可能是个错误,因为他让统计学开始脱离实际了。其实这不是他的问题。数据分析其实是个比较繁琐的当然也是比较艺术性的领域,统计学理论看似很难,但把问题转化为理论后就变成与数据分析无关的东西了,反而并没有那么繁琐了。数据分析能做什么是需要和别人不断讨论而做统计方法理论的可以自己静静地想。虽然Neyman在伯克利工作的后期做了很多应用方面实践的问题,但是他阻挡不了理论脱离实际的倾向。很多人看到统计理论,觉得这些他们可以做,就开始大批进驻统计领域。一开始这是好事儿,但是发展过头可能就不是好事了。 统计学理论把数据分析完全撇开,其实已经丧失了一些魅力了。这也是统计科学目前在中国的现状。举两个比较成功的两个实践应用的范例,一个在美国,一个在日本。第一个是20世纪30年代盖洛普的民意调查,算是统计学第一次大规模的成功地用统计方法开展切实有效的民意调查;第二个是戴明提出的质量控制理论。戴明美国毕业,之后去了日本,开始推广质量控制的方法,日本大型厂商如丰田都是遵从他的方法,到现在日本还有戴明质量奖。八十年代后期日本经济萎靡,产品质量饱受质疑,戴明推广建立了一整套质量控制体系,当时像汽车工业、精密仪器等质量一下子大幅提升,性能好价格适宜,超过了诸如通用等大厂商,当时美国人都在思考为什么日本能做到而他们做不到?后来得知就是这么一个在美国默默无名的人做出的贡献,不过他们知道的时候戴明已经八十多岁了。后来他用了十几年传播质量控制的概念,之后像通用、福特的汽车质量也开始逐渐提升。这是非常重要的案例。统计学科如果深入到这个程度,就有了它独特的魅力。 如果只是自己埋头做理论工作,发展不了统计学的。我们知道需要有人做理论,任何学科都需要这样的人,但不是所有人都需要做理论。中国当时做原子弹的时候,是有中国科学院数学所的研究员参加的(当然当时是保密的)。所以我觉得要有人来做应用,与理论专家多交流,理论统计学家也不要以为应用的人在做简单的推广,这样的话统计学科才能越来越好。

冯璟烁 现在统计这么热,像我们学院招生线都快是全校最高了,您对于将来有志于选择统计的同学有什么建议吗?

郭老师: 我的建议有三点。第一,希望大家把计算能力作为基础。第二,学统计和学数学、计算机不一样,需要活学活用,学会统计学的思考方法。统计学我觉得和哲学很相关,因为统计学是作为一种科学方法论被提出的。第三,是我希望大家能有历史感,了解统计学过去的发展,这对于学生有巨大的益处。我开始也没有意识到,但之后我发现,有历史感会让你对问题的认识不一样,这是我认为特别特别重要的一点。我们不只是理解统计学知识的深度,还需要有知识的广度、宽度。这一点上有历史感非常重要,因为统计学本身就是反映历史的,让我们看到过去发生了什么,这也是统计学的魅力所在。还有就是你所看到的课本,是没有反映这种历史感的,它精炼、易讲,但却打乱了历史感的效果,只有你阅读历史才能看到他们当时是怎么想的,我觉得这也是中国大多数学生缺乏的。我觉得我是少数看过R. A. Fisher文集的人之一,看看以前的人是怎么认识问题的,这个感觉真的不一样。

武侠小说中无论道家学派、佛家学派,到最后应该几乎都是一样的,重点在于修为和内功,招数不是最主要的,武学修为境界才是最重要的。我经常会说学知识,要练好的是自己的内力,不是招数。招数是让你熟练的,内力才能让你看到更高、更远。天龙八部中乔峰,内功深厚,一个降龙十八掌打遍天下无敌手。对比慕容复各门功夫都会, 却总是失败。 他失败的地方是内功修为不到家。我觉得统计学应该是一个武器,是大家练习统计学修为的一个武器。我自己为了学统计学,看了很多哲学知识。你会看到很多科学家最后都变成了神学家,其实是很有道理的,因为不管在做什么,最后是有共性的. 大家学习统计应该把眼光放得更高一点,追求更高的统计学境界。

冯璟烁: 您也了解过统计之都,您对于统计之都有着什么样的期待?

郭老师 我觉得做得很好,在统计之都我看到了很多计算相关的内容。我希望可以更广一些,可以在方法论上,在统计思想上,统计史上多挖掘一些,会更有意思。我相信统计之都会越办越好,而且非常有前景。我相信以后它会是很多人了解统计学的很重要的窗口之一。

冯璟烁 我们后续还会采访李东老师,作为师兄弟,您可以谈谈他的特点吗?

郭老师: 我师兄是个理论功底特别扎实的人,特别厉害,可以在统计方法论、如何提高大家理论水平上,向他多请教。他应该是我们师兄弟之中统计学理论最好的。

冯、于: 非常感谢郭老师,谢谢您接受我们的采访。

郭老师: 我很荣幸有这个机会。

编辑 | 冯璟烁

版权公告
原创文章,版权所有。

敬告各位友媒,如需转载,请与统计之都小编联系(直接留言或发至邮箱:editor@cos.name ),获准转载的请在显著位置注明作者和出处(转载自:统计之都),并在文章结尾处附上统计之都二维码。

COS
作者:统计之都
中国统计学门户网站,免费统计学服务平台
原文地址:COS访谈第24期:郭绍俊老师, 感谢原作者分享。

发表评论