怎么研发一款编程语言?

Python016

怎么研发一款编程语言?,第1张

编程语言,作为人与计算机沟通的桥梁,有着重要和深远的意义。有过计算机编程经验的人,多少学习或掌握过一到多种编程语言。计算机专业领域的编程语言成百上千种,主流的编程语言也有数十种之多。每种编程语言面向的领域和特性都不尽相同,不过归根结底是为了解决人与计算机之间沟通的效率问题,提高计算机的生产力。想必有不少人对那些主流编程语言的创造者十分倾佩,也相信有不少人会好奇一门编程语言是如何诞生的。那么如何创造一门编程语言呢?

总的来看,创造一门编程语言需要有以下几个过程:

(1)设计语言的特性。

(2)定义语言的单词、语法和语义。

(3)实现编译器或者解释器将程序翻译为计算机底层表示。

(4)生成计算机程序的二进制存储格式。

(5)完善语言的运行时环境和标准库。

一、语言特性设计

所谓语言特性,就是编程语言为开发者提供了什么样的原子性功能特征。比如是否支持数学表达式计算、字符串处理,是否支持变量、函数和递归,是否支持分支、循环复合语句等。语言的变量类型是强类型、弱类型,还是动态类型,程序是过程式、函数式,还是面向对象的。是否支持模板、泛型和反射机制,是否支持多线程和并发特性,是否支持错误和异常处理机制等等。

语言特性设计是一门编程语言最关键的环节,直接决定了语言的基本特征和雏形。当然,这也是最难的一个环节,因为语言设计是面向具体问题领域的,是语言设计者从大量的编程实践中的获得的总结和升华。比如C语言设计者希望面向计算机底层,拥有对操作系统和硬件的直接操纵能力。而Python的设计者则希望尽可能地减少操作计算机资源的繁琐过程,以获得语言的简洁性、高度的灵活性和扩展性。SQL的设计者面向具体的数据查询和分析领域,希望帮助开发者获得快速检索和操纵数据的能力。而Go语言的设计者则希望在保留C语言优秀功能的基础上,扩展编程语言对高并发环境的支持,并拥有垃圾回收和快速编译的能力。

凡此种种,编程语言特性的设计都是面向具体的问题领域的,是语言设计者构建于开发者和计算机之间的中间层,是对开发过程中重复功能逻辑的原子性“封装”,最终的目的是为了提升具体问题领域内的软件开发效率。

二、单词、语法和语义

和人类使用的自然语言类似,编程语言也有自身的单词、语法和语义,专业上称为词法记号、语言文法和语义。

常见的词法记号可以分为数字、字符、字符串、标识符、关键字,以及用于连接表达式的运算符、分割语句或者程序段落的界符等符号。这些是编程语言程序的基本单位,通过它们的有序组合,构建出了一门编程语言形形色色的代码片段。

编程语言的文法是用来描述语言的语法规则的,具体来说是规定词法记号之间的排列组合的顺序与规则。它描述了编程语言程序的基本模式,不符合该模式的词法记号的排列被挡在了合法语言程序的大门之外。同时,它也是各种编程语言对于开发者最明显的差异化特征。一个有经验的开发者可以很容易地通过扫视一段代码,就能分辨出这是哪种编程语言编写的计算机程序。

编程语言的语义描述了一段符合语言语法的程序,对于计算机而言的真正含义,是开发者最终要传达给计算机的意愿和指令。语言的语义必须是准确的、无二义性的,编译器也正是通过语义的指导,将计算机程序翻译为计算机可识别的表达形式。

三、程序的翻译

计算机程序是用来供人阅读和修改的,计算机硬件并不能理解程序内的思想和含义。因此,必须有一个翻译转换的过程,将人所表达的意愿准确无误地传递给计算机,让计算机明确并执行人下发的指令。实现这种翻译工作的工具就是编译器或解释器。

对于编译器来说,它的输入是人类书写的计算机语言程序,输出则是计算机可识别的底层表示。首先,它需要识别出程序中的单词,即词法分析。然后,根据单词的组合模式识别出程序的语法结构,即语法分析。最后,根据不同的语法结构对应的语义,将程序按照每个语法模块的形式转换为计算机可识别的指令序列,即语义分析和目标代码生成。

众所周知编译器的实现具有一定的复杂度,其根本原因来自于语言语法的结构灵活性和计算机底层表达形式的多样性,这也是创造一门编程语言最核心的环节。

四、二进制存储

编译器将语言程序翻译转换后,需要将转换后的结果存储起来,以便计算机在需要的时候将其加载、执行。这里不可避免的涉及到两个问题:

(1)转换后的结果是什么样的形式?

(2)转换后的结果保存在哪里?

第一个问题描述的是计算机程序被转换为怎样的形式,才是计算机可以识别的。由于计算机中实际运行程序的硬件模块是CPU,因此计算机程序只有被转换为CPU的二进制指令格式才能被正确识别、执行。比如常见的Intel体系的CISC指令格式、ARM体系的RISC执行格式等。

第二个问题描述的是计算机程序转化为二进制指令格式后,以什么样的方式保存在计算机的磁盘上。由于绝大多数的计算机程序是需要通过运行在计算机硬件之上的操作系统加载运行的,因此计算机程序的二进制表达形式必须以对应操作系统可识别的文件格式存储。比如常见的Windows操作系统的PE文件格式、Linux操作系统的ELF文件格式等。

五、运行时环境和标准库

理论上讲,一门编程语言如果能提供出完备的操纵操作系统和硬件的原子性功能就已经成功了。但是不提供强大的运行时环境支持和标准库,是很难让一门编程语言真正的好用和流行的。没有人希望简单地打印一行字符串,还需要使用编程语言提供的基本特性实现调用操作系统提供的打印接口的逻辑。Java语言之所以久兴不衰,正是因为它不仅提供了完善的运行时环境和开发库支持,甚至提供了更强大的开发框架和工具支持。

因此可见,除了完备的语言特性,为开发者提供更方便好用的库和框架支持,消除软件构建过程中复杂和重复的逻辑,才是一门优秀编程语言的长盛之道。

六、自己动手,立即开始!

《自己动手构造编译系统——编译、汇编与链接》一书详细阐述了一门编程语言从无到有的过程,从语言的功能特性设计,到词法、文法、语义分析;从编译器、汇编器的设计实现,到目标文件的链接生成可执行文件;甚至编译优化器的实现、二进制指令、可执行文件格式以及语言运行时和标准库的概念,都在书中做了认真细致地剖析。相信对本书的阅读,将是一次不错的获得知识的体验!

作者看着网上各种数据分析的知识泛滥, 但是没有什么体系,初学者不知道学哪些, 不知道学多少, 不知道学多深, 单纯一个python语言, 数据分析会用到那种程度, 不可能说像开发那样去学, numpy如果不是做算法工程师用到的知识并不多, pandas知识杂乱无章, 哪些才是最常用的功能等等, 作者不忍众生皆苦, 决定写一套python数据分析的全套教程, 目前已完成一部分课件的制作。需要说明的是, 作为一名数据分析师, 你应该先会一点Excel和SQL知识,相关的内容, 网上很多。但是, 即便你一点Excel和SQL都不会也不会影响这部分的学习 !目前作者整理的大纲如下:

第一章 python编程基础

1.1 python语言概述 1.2 数据科学神器--Anaconda介绍与安装 1.3 标准输入输出 1.4 变量定义与赋值 1.5 数据类型 1.6 流程控制语句 1.7 函数

1.8 面向对象编程 第二章 python数据清洗之numpy 2.1 核心ndarray对象的创建 2.2 ndarray对象常用的属性和方法 2.3 ndarray对象的索引和切片 2.4 ndarray对象的分割与合并 2.5 ndarray对象的广播(Broadcast) 2.6 numpy中的算术运算函数 2.7 numpy中的统计函数 2.8 numpy中的排序 搜索 计数 去重函数 2.9 numpy中的字符串函数 2.10 numpy中可能会用到的线性代数模块(后期机器学习会用到一点)

第三章 数据清洗神器pandas

3.1 pandas核心对象之Series对象的创建 常用属性和方法 3.2 pandas核心对象之DataFrame对象的创建 常用属性和方法 3.3 DataFrame对象的列操作和行操作 3.4 DataFrame对象的索引和切片 3.5 DataFrame对象的布尔索引 3.6 数据的读入与导出 3.7 groupby分组运算 3.8 数据合并与数据透视

第四章 数据可视化matplotlib seaborn pyecharts

4.1 包括常用图形的绘制,略

第五章 实战案列

5.1 拉勾网数据分析相关职位分析 5.2 boss直聘数据分析相关职位分析 5.3 珍爱网女性用户数据分析

第六章 机器学习

机器学习部分, 简单的算法会讲手写, 难的就用scikit-learn实现, 可能有小伙伴说, 这是调包侠干的, 小哥哥!小姐姐!哪有那么多公司, 那么多人自己干写算法的, 有几个人敢说他写的算法比scikit-learn写得好? 再说了, 你是数据分析师, 这些是你的工具, 解决问题的!不是一天到晚拉格朗日对偶性!先来个机器学习介绍, 然后如下:

6.1 K近邻算法 6.2 Kmeans算法 6.3 决策树 阶段案列:决策树案列(保险行业) 6.4 线性回归 岭回归 Lasso回归 6.5 逻辑回归 6.6 朴素贝叶斯 阶段案列:推荐系统(电商玩具) 6.7 随机森林 6.8 Adaboost 6.9 梯度提升树GBDT 6.10 极端梯度提升树Xgboost 6.11 支持向量机SVM 6.12 神经网络 阶段案例:Xgboost案例

------------------------------本节内容-----------------------------------------

python语言概述

在说python之前, 我们还是先来看看计算机软硬件的发展历史。

1 计算机硬件的发展历史

第一代计算机-电子管计算机(1946-1957)

无论如何,一项技术的突破必然伴随着其他行业的突破,简而言之,电子计算机的出现,前提必须有电子技术的进步,否则一切都是空谈!下面是我列举出计算机硬件的发展过程中, 一些比较重要的事件。

1906年, 美国的Lee De Forest 发明了电子管。在这之前造出数字电子计算机是不可能的。这为电子计算机的发 展奠定了基础。

1924年2月, 一个具有划时代意义的公司成立,IBM。

1935年, IBM推出IBM 601机。 这是一台能在一秒钟算出乘法的穿孔卡片计算机。这台机器无论在自然科学还是在商业意义上都具有重要的地位。大约造了1500台。

1937年, 英国剑桥大学的Alan M. Turing (1912-1954)出版了他的论文 ,并提出了被后人称之为"图灵机"的数学模型。

1937年, 美国贝尔试验室的George Stibitz展示了用继电器表示二进制的装置。尽管仅仅是个展示品,但却是世界上第一台二进制电子计算机。

1941年, Atanasoff和学生Berry完成了能解线性代数方程的计算机,取名叫"ABC"(Atanasoff-Berry Computer),用电容作存储器,用穿孔卡片作辅助存储器,那些孔实际上是"烧"上的。 时钟频率是60HZ,完成一次加法运算用时一秒。这就是ABC计算机。

1946年, 美国宾夕法尼亚大学,第一台通用电子计算机ENIAC (Electronic Numerical Integrator 和 Computer)诞生, 总工程师埃克特在当时年仅25岁。

这时的计算机的基本线路是采用电子管结构,程序从人工手编的 机器指令程序(0 1),过渡到符号语言(汇编),电子管计算机是计算工具革命性发展的开始,它所采用的进位制与程序存贮等基本技术思想,奠定了现代电子计算机技术基础。以冯·诺依曼为代表。

第二代计算机——晶体管计算机(时间1957~1964)

电子管时代的计算机尽管已经步入了现代计算机的范畴,但其体积之大、能耗之高、故障之多、价格之贵大大制约了它的普及应用。直到晶体管被发明出来,电子计算机才找到了腾飞的起点,一发而不可收……

20世纪50年代中期,晶体管的出现使计算机生产技术得到了根本性的发展,由晶体管代替电子管作为计算机的基础器件,用 磁芯或磁鼓作存储器,在整体性能上,比第一代计算机有了很大的提高。

第三代计算机——中小规模集成电路计算机(时间1964~1971)

20世纪60年代中期, 计算机发展历程随着半导体工艺的发展,成功制造了集成电路。中小规模集成电路成为计算机的主要部件,主存储器也渐渐过渡到 半导体存储器,使计算机的体积更小,大大降低了计算机计算时的功耗,由于减少了 焊点和 接插件,进一步提高了计算机的可靠性。

第四代计算机——大规模和超大规模集成电路计算机(时间1971~至今)

随着大规模集成电路的成功制作并用于计算机硬件生产过程,计算机的体积进一步缩小,性能进一步提高。集成更高的大容量半导体存储器作为内存储器,发展了并行技术和多机系统,出现了 精简指令集计算机(RISC),软件系统工程化、理论化,程序设计自动化。微型计算机在社会上的应用范围进一步扩大,几乎所有领域都能看到计算机的“身影”。

第五代计算机——泛指具有人工智能的计算机(至今~未来)

目前还没有明确地定义

2 简述计算机软件的发展历史

编程语言的发展

计算机软件系统的发展,也伴随着编程语言的发展。计算机程序设计语言的发展,经历了从机器语言、汇编语言到高级语言的历程。

机器语言:简单点说,机器本身也只认识0和1,电路无非就只有通和断两种状态,对应的二进制就是二进制的1和1。

汇编语言:汇编语言只是把一些特殊的二进制用特殊的符号表示,例如,机器要传送一个数据,假设“传送”这个指令对应的机器码是000101,则人们把000101用一个特殊符号,比如mov来表示,当人们要用这个指令时用mov就行,但是mov的本质还是000101,没有脱离硬件的范围,有可能这个指令不能在其他机器上用。

高级语言:高级语言完全脱离了硬件范畴,所有的语法更贴近人类的自然语言,人们只需要清楚高级语言的语法,写出程序就行了,剩下的交给编译器或者解释器去编译或者解释成机器语言就行了,看,这样就完全脱离了硬件的范畴,大大提高了程序的开发效率。接下来我们就来看看高级语言的发展,高级语言非常多,我们主要看看比较经典的几个。

高级语言的发展

B语言与Unix

20世纪60年代,贝尔实验室的研究员Ken Thompson(肯·汤普森)发明了B语言,并使用B编了个游戏 - Space Travel,他想玩自己这个游戏,所以他背着老板找到了台空闲的机器 - PDP-7,但是这台机器没有操作系统,于是Thompson着手为PDP-7开发操作系统,后来这个OS被命名为 - UNIX。

C语言

1971年,Ken Thompson(肯·汤普森)的同事D.M.Ritchie(DM里奇),也很想玩Space Travel,所以加入了Ken Thompson,合作开发UNIX,他的主要工作是改进Thompson的B语言。最终,在1972年这个新语言被称为C,取BCPL的第二个字母,也是B的下一个字母。

C语言和Unix

1973年,C主体完成。Ken Thompson和D.M.Ritchie迫不及待的开始用C语言完全重写了UNIX。此时编程的乐趣已经使他们完全忘记了那个“Space Travel”,一门心思的投入到了UNIX和C语言的开发中。自此,C语言和UNIX相辅相成的发展至今。

类C语言起源、历史

C++(C plus plus Programming Language) - 1983

还是贝尔实验室的人,Bjarne Stroustrup(本贾尼·斯特劳斯特卢普) 在C语言的基础上推出了C++,它扩充和完善了C语言,特别是在面向对象编程方面。一定程度上克服了C语言编写大型程序时的不足。

Python (Python Programming Language)--1991

1989年圣诞节期间,Guido van Rossum 在阿姆斯特丹,Guido van Rossum为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC语言的一种继承。之所以选中Python(大蟒蛇的意思)作为该编程语言的名字,是因为他是一个叫Monty Python的喜剧团体的爱好者。第一个Python的版本发布于1991年。

Java(Java Programming Language) - 1995

Sun公司的Patrick Naughton的工作小组研发了Java语言,主要成员是James Gosling(詹姆斯·高斯林)

C(C Sharp Programming Language) - 2000

Microsoft公司的Anders Hejlsberg(安德斯·海尔斯伯格)发明了C,他也是Delphi语言之父。

当然现在还有一些新语言,比如2009年Google的go语言,以及麻省理工的julia等。

3 为什么是Python

Python有哪些优点

1 语法简单 漂亮:我们可以说Python是简约的语言,非常易于读写。在遇到问题时,我们可以把更多的注意力放在问题本身上,而不用花费太多精力在程序语言、语法上。

2 丰富而免费的库:Python社区创造了各种各样的Python库。在他们的帮助下,你可以管理文档,执行单元测试、数据库、web浏览器、电子邮件、密码学、图形用户界面和更多的东西。所有东西包括在标准库,然而,除了它,还有很多其他的库。

3 开源:Python是免费开源的。这意味着我们不用花钱,就可以共享、复制和交换它,这也帮助Python形成了丰富的社区资源,使其更加完善,技术发展更快。

4 Python既支持面向过程,也支持面向对象编程。在面向过程编程中,程序员复用代码,在面向对象编程中,使用基于数据和函数的对象。尽管面向对象的程序语言通常十分复杂,Python却设法保持简洁。

5 Python兼容众多平台,所以开发者不会遇到使用其他语言时常会遇到的困扰。

Python有哪些作用

Python是什么都能做,但是我们学的是数据分析,我们看看在数据分析领域Python能做什么。

数据采集:以Scrapy 为代表的各类方式的爬虫

数据链接:Python有大量各类数据库的第三方包,方便快速的实现增删改查

数据清洗:Numpy、Pandas,结构化和非结构化的数据清洗及数据规整化的利器

数据分析:Scikit-Learn、Scipy,统计分析,科学计算、建模等

数据可视化:Matplotlib、Seaborn等等大量各类可视化的库

所以说总结, 为什么数据科学选的是python, 最重要就是两个原因:

1 语法简单漂亮

2 大量丰富免费的第三方库

RISC即"精简指令集计算机"。它是针对传统处理器指令系统的缺陷提出来的,传统处理器(如Intel体系)的指令系统越来越复杂,不仅导致处理器研制周期变长,而且还有难以调试、难以维护等一些自身无法克服的困难。RISC把着眼点放在如何使处理器的结构更加简单合理及提高运算速度上。它优先选取使用频率最高的简单指令(一般只有50米),避免使用复杂指令,一般将指令长度固定为32位,且多数为单周期指令。指令格式和寻址方式、种类减少,缩短了译码时间,压缩了机器周期。内部以硬布线控制逻辑为主,不用或少用微码控制等,这些措施大大提高了RISC处理器的运算速度。K6处理器的内核就是RISC超标准量体系结构。

CISC(复杂指令集计算机)和RISC(精简指令集计算机)是当前CPU的两种架构。它们的区别在于不同的CPU设计理念和方法。 早期的CPU全部是CISC架构,它的设计目的是要用最少的机器语言指令来完成所需的计算任务。比如对于乘法运算,在CISC架构的CPU上,您可能需要这样一条指令:MUL ADDRA, ADDRB就可以将ADDRA和ADDRB中的数相乘并将结果储存在ADDRA中。将ADDRA, ADDRB中的数据读入寄存器,相乘和将结果写回内存的操作全部依赖于CPU中设计的逻辑来实现。这种架构会增加CPU结构的复杂性和对CPU工艺的要求,但对于编译器的开发十分有利。比如上面的例子,C程序中的a*=b就可以直接编译为一条乘法指令。今天只有Intel及其兼容CPU还在使用CISC架构。 RISC架构要求软件来指定各个操作步骤。上面的例子如果要在RISC架构上实现,将ADDRA, ADDRB中的数据读入寄存器,相乘和将结果写回内存的操作都必须由软件来实现,比如:MOV A, ADDRAMOV B, ADDRBMUL A, BSTR ADDRA, A。这种架构可以降低CPU的复杂性以及允许在同样的工艺水平下生产出功能更强大的CPU,但对于编译器的设计有更高的要求。

RISC 和CISC 是目前设计制造微处理器的两种典型技术,虽然它们都是试图在体系结构、操作运行、软件硬件、编译时间和运行时间等诸多因素中做出某种平衡,以求达到高效

的目的,但采用的方法不同,因此,在很多方面差异很大,它们主要有:

(1) 指令系统:RISC 设计者把主要精力放在那些经常使用的指令上,尽量使它们具有简单高效的特色。对不常用的功能,常通过组合指令来完成。因此,在RISC 机器上实现特殊功能时,效率可能较低。但可以利用流水技术和超标量技术加以改进和弥补。而CISC 计算机的指令系统比较丰富,有专用指令来完成特定的功能。因此,处理特殊任务效率较高。

(2) 存储器操作:RISC 对存储器操作有限制,使控制简单化;而CISC 机器的存储器操作指令多,操作直接。

(3) 程序:RISC 汇编语言程序一般需要较大的内存空间,实现特殊功能时程序复杂,不易设计;而CISC 汇编语言程序编程相对简单,科学计算及复杂操作的程序社设计相对容易,效率较高。

(4) 中断:RISC 机器在一条指令执行的适当地方可以响应中断;而CISC 机器是在一条指令执行结束后响应中断。

(5) CPU:RISC CPU 包含有较少的单元电路,因而面积小、功耗低;而CISC CPU 包含有丰富的电路单元,因而功能强、面积大、功耗大。

(6) 设计周期:RISC 微处理器结构简单,布局紧凑,设计周期短,且易于采用最新技术;CISC 微处理器结构复杂,设计周期长。

(7) 用户使用:RISC 微处理器结构简单,指令规整,性能容易把握,易学易用;CISC微处理器结构复杂,功能强大,实现特殊功能容易。

(8) 应用范围:由于RISC 指令系统的确定与特定的应用领域有关,故RISC 机器更适合于专用机;而CISC 机器则更适合于通用机。