易语言咋读取内个图片框的验证码啊

2023-03-04 20:02:03Python013

易语言咋读取内个图片框的验证码啊,第1张

Visual Basic（VB）介绍2007-02-13 19:38Visual Basic（VB）是一种由微软公司开发的包含协助开发环境的事件驱动编程语言。从任何标准来说，VB都是世界上使用人数最多的语言——不仅是盛赞VB的开发者还是抱怨VB的开发者的数量。它源自于BASIC编程语言。VB拥有图形用户界面（GUI）和快速应用程序开发（RAD）系统，可以轻易的使用DAO、RDO、ADO连接数据库，或者轻松的创建ActiveX控件。程序员可以轻松的使用VB提供的组件快速建立一个应用程序。

发展历史

1991年，微软公司推出了Visual Basic 1.0版。这在当时引起了很大的轰动。这个连接编程语言和用户界面的进步被称为Tripod（有些时候叫做Ruby），最初的设计是由阿兰·库珀（Alan Cooper）完成的。许多专家把VB的出现当做是软件开发史上的一个具有划时代意义的事件。其实，以我们现在的目光来看，VB1.0的功能实在是太弱了；（不过最近VB6.0, VB.NET的功能相当大！）。但在当时，它是第一个“可视”的编程软件。这使得程序员欣喜之极，都尝试在VB的平台上进行软件创作。微软也不失时机地在四年内接连推出VB2.0，VB3.0，4.0三个版本。并且从VB3开始，微软将ACCESS的数据库驱动集成到了VB中，这使得VB的数据库编程能力大大提高。从VB4开始，VB也引入了面向对象的程序设计思想。VB功能强大，学习简单。而且，VB还引入了“控件”的概念，使得大量已经编好的VB程序可以被我们直接拿来使用。VB1.0的DOS版本VB1.0于1991年发布。这个连接编程语言和用户界面的进步被称为Tripod（有些时候叫做Ruby），最初的设计是由阿兰·库珀（Alan Cooper）完成的

2002年Visual Basic .NET 2002 (v7.0)问世，2003年Visual Basic .NET 2003 (v7.1)问世，2005年11月7日Visual Basic 2005 (v8.0)问世，同时间推出Visual Basic 2005的免费简化版本Visual Basic 2005 Express Edition给Visual Basic初学者及学生使用。

VB 2005的“显著”优点是，可以直接编写出XP风格的按钮，以及其他的控件。但是其编写的小程序占用近10MB的内存。

通过几年的发展，它已成为一种专业化的开发语言和环境。用户可用Visual Basic快速创建Windows程序，现在还可以编写企业水平的客户端/服务器程序及强大的数据库应用程序。

VB会吸引更多的赞誉和批评，也会继续为广大的用户和程序员使用。它非常适合用来开发拥有友好界面的程序（比如针对终端的数据），但是不适合开发其它程序（比如联合计算程序）。

语言特性

一个典型的VB进程VB的中心思想就是要便于程序员使用，无论是新手或者专家。VB使用了可以简单建立应用程序的GUI系统，但是又可以开发相当复杂的程序。VB的程序是一种基于窗体的可视化组件安排的联合，并且增加代码来指定组建的属性和方法。因为默认的属性和方法已经有一部分定义在了组件内，所以程序员不用写多少代码就可以完成一个简单的程序。过去的版本里面VB程序的性能问题一直被放在了桌面上，但是随着计算机速度的飞速增加，关于性能的争论已经越来越少。

窗体控件的增加和改变可以用拖放技术实现。一个排列满控件的工具箱用来显示可用控件（比如文本框或者按钮]]。每个控件都有自己的属性和事件。默认的属性值会在控件创建的时候提供，但是程序员也可以进行更改。很多的属性值可以在运行时候随着用户的动作和修改进行改动，这样就形成了一个动态的程序。举个例子来说：窗体的大小改变事件中加入了可以改变控件位置的代码，在运行时候每当用户更改窗口大小，控件也会随之改变位置。在文本框中的文字改变事件中加入相应的代码，程序就能够在文字输入的时候自动翻译或者阻止某些字符的输入。

VB的程序可以包含一个或多个窗体，或者是一个主窗体和多个子窗体，类似于操作系统的样子。有很少功能的对话框窗口（比如没有最大化和最小化按钮的窗体）可以用来提供弹出功能。

VB的组件既可以拥有用户界面，也可以没有。这样一来服务器端程序就可以处理增加的模块。

VB使用参数计算的方法来进行垃圾收集，这个方法中包含有大量的对象，提供基本的面向对象支持。因为越来越多组建的出现，程序员可以选用自己需要的扩展库。和有些语言不一样，VB对大小写不敏感，但是能自动转换关键词到标准的大小写状态，以及强制使得符号表入口的实体的变量名称遵循书写规则。默认情况下字符串的比较是对大小写敏感的，但是可以关闭这个功能。

VB使得大量的外界控件有了自己的生存空间。大量的第三方控件针对VB提供。VB也提供了建立、使用和重用这些控件的方法，但是由于语言问题，从一个应用程序创建另外一个并不简单。

术语

在讨论Visual Basic时，经常可以听到以下这些术语，因此对这些术语的基本理解十分有帮助。

控件——简单的说，控件就是构成或者说建造Visual Basic应用程序的图形化工具，包括窗体、按钮、复选框、列表框、数据控件、表格控件和图片控件等等...。

事件——由用户或操作系统引发的动作。事件的示例有击键、单击鼠标(Click)、双击鼠标(DblClick)、一段时间的限制，或从端口接收数据。

方法——嵌入在对象定义中的程序代码，它定义对象怎样处理信息并响应某事件。例如，数据库对象有打开纪录集并从一个记录移动到另一个记录的方法程序的基本元素，它含有定义其特征的属性，定义其任务和识别它可以响应的事件的方法。控件和窗体是Visual Basic中所有对象的示例。

对象——一个控件、窗体等都可被看作一个对象。

过程——为完成某些特定的任务而编写的代码段，过程通常用于响应特定的事件，也可以当作应用程序的用户自定义函数来使用。

属性——属性是组成用户界面的各对象的性质的具体描述。例如上述“对象”中所提到的尺寸、位置、颜色、宽度、高度等等都称为控件的属性。属性决定对象的外观，有时也决定对象的行为。对象的属性绝大部分是VB中已经事先定义好的，但也有的属性是需要在应用过程中才去定义的。属性即可为对象提供数据，也能从对象取回信息。

VB的局限性

继承。VB5和VB6都是面向对象的编程语言，但是不包含继承特性。VB中提供了特殊的类的功能，但是还是不能满足程序员的需求。VB.net 包含了所有面向对象的特性。

多线程支持 (VB.Net 2002以及之后的版本，都支持多线程技术。）

异常处理。VB.net中使用了Try-Catch-Finally来处理异常。而VB中只有"On Error Goto line"语句。

对指针的支持非常有限。

VB只能支持8到32位的整形，很多语言都有无限制的支持。

VB不允许在任何数组内存在不变的变量。

VB不支持以上特性，程序员需要自己建构方法来实现相似的功能。

争议

反对观点：

VB是一种充满了争议的语言：很多程序员对VB程序的质量有强烈的感受。很多人认为VB不配他们使用，认为它是一种给儿童和菜鸟程序员的语言。它自从设计开始就是一种简单的语言。一些C++和Java中的特性在VB中并没有出现。在感受开发的方便和快速的同时，一些类似于编译时进行类型和声明检查的功能在默认情况下是关闭的。这样一些程序员一边感叹VB的易用性，一般沮丧地地看着一些类似于“未定义类型”错误的发生。

一些批评家认为VB的简单特性使得其在未来具有伤害性。很多人自学了VB，但是并没有学到好的编程习惯。当VB进入课堂的时候，学生们不会学到很多基础的程序技术和结构，因为很多技术已经包含在那些对用户可见的组件里面了。不用学习标准的编程习惯，因为VB具有可视化的特性，所以导致了一些莫名其妙的代码的产生。而且很多错误和警告的检查默认情况下都是关闭的，程序员很难找到隐藏的错误。有经验的程序员在用VB编程的时候都会把这些选项打开。

很多批评家批评微软简单地拷贝了BASIC的思想到VB中。著名的计算机科学家Edsger Dijkstra说过一句名言：“如果一个学生最早学过BASIC，那么几乎不可能让他学会优秀的编程：因为这些人已经放弃了涅磐的希望。”（Dijkstra对待Fortran、PL/1、COBOL和APL同样也毫不留情。）

另外一个笑话是：“真正的程序员不用BASIC。12岁以下的孩子才用。”

并不是非常简便，它开发的程序只能运行在Microsoft Windows中。

个头太大了。Visual Studio要用好几张盘才能装下。VB程序在运行时候还需要一个1.4M大小的运行库。

IDE中有错误。

VB不能很好的综合Windows的基础API，很多时候要使用低级运算的“小伎俩”来进行编程。而C语言的低级内存运算比VB的要简单得多。

一、手工识别和拒绝爬虫的访问

有相当多的爬虫对网站会造成非常高的负载，因此识别爬虫的来源IP是很容易的事情。最简单的办法就是用netstat检查80端口的连接：

C代码 netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -nnetstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -n

这行shell可以按照80端口连接数量对来源IP进行排序，这样可以直观的判断出来网页爬虫。一般来说爬虫的并发连接非常高。

如果使用lighttpd做Web Server，那么就更简单了。lighttpd的mod_status提供了非常直观的并发连接的信息，包括每个连接的来源IP，访问的URL，连接状态和连接时间等信息，只要检查那些处于handle-request状态的高并发IP就可以很快确定爬虫的来源IP了。

拒绝爬虫请求既可以通过内核防火墙来拒绝，也可以在web server拒绝，比方说用iptables拒绝：

C代码 iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 84.80.46.0/24 iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 84.80.46.0/24

直接封锁爬虫所在的C网段地址。这是因为一般爬虫都是运行在托管机房里面，可能在一个C段里面的多台服务器上面都有爬虫，而这个C段不可能是用户宽带上网，封锁C段可以很大程度上解决问题。

有些人提出一种脑残的观点，说我要惩罚这些爬虫。我专门在网页里面设计动态循环链接页面，让爬虫掉进陷阱，死循环爬不出来，其实根本用不着设置陷阱，弱智爬虫对正常网页自己就爬不出来，这样做多此一举不说，而且会让真正的搜索引擎降低你的网页排名。而且运行一个爬虫根本不消耗什么机器资源，相反，真正宝贵的是你的服务器CPU资源和服务器带宽，简单的拒绝掉爬虫的请求是反爬虫最有效的策略。

二、通过识别爬虫的User-Agent信息来拒绝爬虫

有很多爬虫并不会以很高的并发连接爬取，一般不容易暴露自己；有些爬虫的来源IP分布很广，很难简单的通过封锁IP段地址来解决问题；另外还有很多各种各样的小爬虫，它们在尝试Google以外创新的搜索方式，每个爬虫每天爬取几万的网页，几十个爬虫加起来每天就能消耗掉上百万动态请求的资源，由于每个小爬虫单独的爬取量都很低，所以你很难把它从每天海量的访问IP地址当中把它准确的挖出来。

这种情况下我们可以通过爬虫的User-Agent信息来识别。每个爬虫在爬取网页的时候，会声明自己的User-Agent信息，因此我们就可以通过记录和分析User-Agent信息来挖掘和封锁爬虫。我们需要记录每个请求的User-Agent信息，对于Rails来说我们可以简单的在app/controllers/application.rb里面添加一个全局的before_filter，来记录每个请求的User-Agent信息：

Ruby代码 logger.info "HTTP_USER_AGENT #{request.env["HTTP_USER_AGENT"]}" logger.info "HTTP_USER_AGENT #{request.env["HTTP_USER_AGENT"]}"

然后统计每天的production.log，抽取User-Agent信息，找出访问量最大的那些User-Agent。要注意的是我们只关注那些爬虫的User-Agent信息，而不是真正浏览器User-Agent，所以还要排除掉浏览器User-Agent，要做到这一点仅仅需要一行shell：

统计结果类似这样：

C代码 57335 HTTP_USER_AGENT Baiduspider+(+ http://www.baidu.com/search/spider.htm)56639 HTTP_USER_AGENT Mozilla/5.0 (compatibleGooglebot/2.1+ http://www.google.com/bot.html)42610 HTTP_USER_AGENT Mediapartners-Google19131 HTTP_USER_AGENT msnbot/2.0b (+ http://search.msn.com/msnbot.htm)57335 HTTP_USER_AGENT Baiduspider+(+ http://www.baidu.com/search/spider.htm) 56639 HTTP_USER_AGENT Mozilla/5.0 (compatibleGooglebot/2.1+ http://www.google.com/bot.html) 42610 HTTP_USER_AGENT Mediapartners-Google 19131 HTTP_USER_AGENT msnbot/2.0b (+ http://search.msn.com/msnbot.htm)

从日志就可以直观的看出每个爬虫的请求次数。要根据User-Agent信息来封锁爬虫是件很容易的事情，lighttpd配置如下：

C代码 $HTTP["useragent"] =~ "qihoobot|^Java|Commons-HttpClient|Wget|^PHP|Ruby|Python" { url.rewrite = ( "^/(.*)" =>"/crawler.html" )} $HTTP["useragent"] =~ "qihoobot|^Java|Commons-HttpClient|Wget|^PHP|Ruby|Python" { url.rewrite = ( "^/(.*)" =>"/crawler.html" ) }

使用这种方式来封锁爬虫虽然简单但是非常有效，除了封锁特定的爬虫，还可以封锁常用的编程语言和HTTP类库的User-Agent信息，这样就可以避免很多无谓的程序员用来练手的爬虫程序对网站的骚扰。

还有一种比较常见的情况，就是某个搜索引擎的爬虫对网站爬取频率过高，但是搜索引擎给网站带来了很多流量，我们并不希望简单的封锁爬虫，仅仅是希望降低爬虫的请求频率，减轻爬虫对网站造成的负载，那么我们可以这样做：

C代码 $HTTP["user-agent"] =~ "Baiduspider+" {connection.delay-seconds = 10} $HTTP["user-agent"] =~ "Baiduspider+" { connection.delay-seconds = 10 }

对百度的爬虫请求延迟10秒钟再进行处理，这样就可以有效降低爬虫对网站的负载了。

三、通过网站流量统计系统和日志分析来识别爬虫

有些爬虫喜欢修改User-Agent信息来伪装自己，把自己伪装成一个真实浏览器的User-Agent信息，让你无法有效的识别。这种情况下我们可以通过网站流量系统记录的真实用户访问IP来进行识别。

主流的网站流量统计系统不外乎两种实现策略：一种策略是在网页里面嵌入一段js，这段js会向特定的统计服务器发送请求的方式记录访问量；另一种策略是直接分析服务器日志，来统计网站访问量。在理想的情况下，嵌入js的方式统计的网站流量应该高于分析服务器日志，这是因为用户浏览器会有缓存，不一定每次真实用户访问都会触发服务器的处理。但实际情况是，分析服务器日志得到的网站访问量远远高于嵌入js方式，极端情况下，甚至要高出10倍以上。

现在很多网站喜欢采用awstats来分析服务器日志，来计算网站的访问量，但是当他们一旦采用Google Analytics来统计网站流量的时候，却发现GA统计的流量远远低于awstats，为什么GA和awstats统计会有这么大差异呢？罪魁祸首就是把自己伪装成浏览器的网络爬虫。这种情况下awstats无法有效的识别了，所以awstats的统计数据会虚高。

其实作为一个网站来说，如果希望了解自己的网站真实访问量，希望精确了解网站每个频道的访问量和访问用户，应该用页面里面嵌入js的方式来开发自己的网站流量统计系统。自己做一个网站流量统计系统是件很简单的事情，写段服务器程序响应客户段js的请求，分析和识别请求然后写日志的同时做后台的异步统计就搞定了。

通过流量统计系统得到的用户IP基本是真实的用户访问，因为一般情况下爬虫是无法执行网页里面的js代码片段的。所以我们可以拿流量统计系统记录的IP和服务器程序日志记录的IP地址进行比较，如果服务器日志里面某个IP发起了大量的请求，在流量统计系统里面却根本找不到，或者即使找得到，可访问量却只有寥寥几个，那么无疑就是一个网络爬虫。

分析服务器日志统计访问最多的IP地址段一行shell就可以了：

C代码 grep Processing production.log | awk '{print $4}' | awk -F'.' '{print $1"."$2"."$3".0"}' | sort | uniq -c | sort -r -n | head -n 200 >stat_ip.log grep Processing production.log | awk '{print $4}' | awk -F'.' '{print $1"."$2"."$3".0"}' | sort | uniq -c | sort -r -n | head -n 200 >stat_ip.log

然后把统计结果和流量统计系统记录的IP地址进行对比，排除真实用户访问IP，再排除我们希望放行的网页爬虫，比方Google，百度，微软msn爬虫等等。最后的分析结果就就得到了爬虫的IP地址了。以下代码段是个简单的实现示意：

Ruby代码 whitelist = []IO.foreach("#{RAILS_ROOT}/lib/whitelist.txt") { |line| whitelist <<line.split[0].strip if line } realiplist = []IO.foreach("#{RAILS_ROOT}/log/visit_ip.log") { |line| realiplist <<line.strip if line } iplist = []IO.foreach("#{RAILS_ROOT}/log/stat_ip.log") do |line| ip = line.split[1].strip iplist <<ip if line.split[0].to_i >3000 &&!whitelist.include?(ip) &&!realiplist.include?(ip)endReport.deliver_crawler(iplist) whitelist = [] IO.foreach("#{RAILS_ROOT}/lib/whitelist.txt") { |line| whitelist <<line.split[0].strip if line } realiplist = [] IO.foreach("#{RAILS_ROOT}/log/visit_ip.log") { |line| realiplist <<line.strip if line } iplist = [] IO.foreach("#{RAILS_ROOT}/log/stat_ip.log") do |line| ip = line.split[1].strip iplist <<ip if line.split[0].to_i >3000 &&!whitelist.include?(ip) &&!realiplist.include?(ip) end Report.deliver_crawler(iplist)

分析服务器日志里面请求次数超过3000次的IP地址段，排除白名单地址和真实访问IP地址，最后得到的就是爬虫IP了，然后可以发送邮件通知管理员进行相应的处理。

四、网站的实时反爬虫防火墙实现策略

通过分析日志的方式来识别网页爬虫不是一个实时的反爬虫策略。如果一个爬虫非要针对你的网站进行处心积虑的爬取，那么他可能会采用分布式爬取策略，比方说寻找几百上千个国外的代理服务器疯狂的爬取你的网站，从而导致网站无法访问，那么你再分析日志是不可能及时解决问题的。所以必须采取实时反爬虫策略，要能够动态的实时识别和封锁爬虫的访问。

要自己编写一个这样的实时反爬虫系统其实也很简单。比方说我们可以用memcached来做访问计数器，记录每个IP的访问频度，在单位时间之内，如果访问频率超过一个阀值，我们就认为这个IP很可能有问题，那么我们就可以返回一个验证码页面，要求用户填写验证码。如果是爬虫的话，当然不可能填写验证码，所以就被拒掉了，这样很简单就解决了爬虫问题。

用memcache记录每个IP访问计数，单位时间内超过阀值就让用户填写验证码，用Rails编写的示例代码如下：

Ruby代码 ip_counter = Rails.cache.increment(request.remote_ip)if !ip_counter Rails.cache.write(request.remote_ip, 1, :expires_in =>30.minutes)elsif ip_counter >2000 render :template =>'test', :status =>401 and return false end ip_counter = Rails.cache.increment(request.remote_ip) if !ip_counter Rails.cache.write(request.remote_ip, 1, :expires_in =>30.minutes) elsif ip_counter >2000 render :template =>'test', :status =>401 and return false end

这段程序只是最简单的示例，实际的代码实现我们还会添加很多判断，比方说我们可能要排除白名单IP地址段，要允许特定的User-Agent通过，要针对登录用户和非登录用户，针对有无referer地址采取不同的阀值和计数加速器等等。

此外如果分布式爬虫爬取频率过高的话，过期就允许爬虫再次访问还是会对服务器造成很大的压力，因此我们可以添加一条策略：针对要求用户填写验证码的IP地址，如果该IP地址短时间内继续不停的请求，则判断为爬虫，加入黑名单，后续请求全部拒绝掉。为此，示例代码可以改进一下：

Ruby代码 before_filter :ip_firewall, :except =>:test def ip_firewall render :file =>"#{RAILS_ROOT}/public/403.html", :status =>403 if BlackList.include?(ip_sec)end before_filter :ip_firewall, :except =>:test def ip_firewall render :file =>"#{RAILS_ROOT}/public/403.html", :status =>403 if BlackList.include?(ip_sec) end

我们可以定义一个全局的过滤器，对所有请求进行过滤，出现在黑名单的IP地址一律拒绝。对非黑名单的IP地址再进行计数和统计：

Ruby代码 ip_counter = Rails.cache.increment(request.remote_ip)if !ip_counter Rails.cache.write(request.remote_ip, 1, :expires_in =>30.minutes)elsif ip_counter >2000 crawler_counter = Rails.cache.increment("crawler/#{request.remote_ip}") if !crawler_counterRails.cache.write("crawler/#{request.remote_ip}", 1, :expires_in =>10.minutes) elsif crawler_counter >50BlackList.add(ip_sec)render :file =>"#{RAILS_ROOT}/public/403.html", :status =>403 and return false end render :template =>'test', :status =>401 and return false end ip_counter = Rails.cache.increment(request.remote_ip) if !ip_counter Rails.cache.write(request.remote_ip, 1, :expires_in =>30.minutes) elsif ip_counter >2000 crawler_counter = Rails.cache.increment("crawler/#{request.remote_ip}") if !crawler_counter Rails.cache.write("crawler/#{request.remote_ip}", 1, :expires_in =>10.minutes) elsif crawler_counter >50 BlackList.add(ip_sec) render :file =>"#{RAILS_ROOT}/public/403.html", :status =>403 and return false end render :template =>'test', :status =>401 and return false end

如果某个IP地址单位时间内访问频率超过阀值，再增加一个计数器，跟踪他会不会立刻填写验证码，如果他不填写验证码，在短时间内还是高频率访问，就把这个IP地址段加入黑名单，除非用户填写验证码激活，否则所有请求全部拒绝。这样我们就可以通过在程序里面维护黑名单的方式来动态的跟踪爬虫的情况，甚至我们可以自己写个后台来手工管理黑名单列表，了解网站爬虫的情况。

这个策略已经比较智能了，但是还不够好！我们还可以继续改进：

1、用网站流量统计系统来改进实时反爬虫系统

还记得吗？网站流量统计系统记录的IP地址是真实用户访问IP，所以我们在网站流量统计系统里面也去操作memcached，但是这次不是增加计数值，而是减少计数值。在网站流量统计系统里面每接收到一个IP请求，就相应的cache.decrement(key)。所以对于真实用户的IP来说，它的计数值总是加1然后就减1，不可能很高。这样我们就可以大大降低判断爬虫的阀值，可以更加快速准确的识别和拒绝掉爬虫。

2、用时间窗口来改进实时反爬虫系统

爬虫爬取网页的频率都是比较固定的，不像人去访问网页，中间的间隔时间比较无规则，所以我们可以给每个IP地址建立一个时间窗口，记录IP地址最近12次访问时间，每记录一次就滑动一次窗口，比较最近访问时间和当前时间，如果间隔时间很长判断不是爬虫，清除时间窗口，如果间隔不长，就回溯计算指定时间段的访问频率，如果访问频率超过阀值，就转向验证码页面让用户填写验证码。

最终这个实时反爬虫系统就相当完善了，它可以很快的识别并且自动封锁爬虫的访问，保护网站的正常访问。不过有些爬虫可能相当狡猾，它也许会通过大量的爬虫测试来试探出来你的访问阀值，以低于阀值的爬取速度抓取你的网页，因此我们还需要辅助第3种办法，用日志来做后期的分析和识别，就算爬虫爬的再慢，它累计一天的爬取量也会超过你的阀值被你日志分析程序识别出来。

总之我们综合运用上面的四种反爬虫策略，可以很大程度上缓解爬虫对网站造成的负面影响，保证网站的正常访问。

爬虫控件程序代码用户

# 上一篇：下列关于CSS样式的说法正确的是（）这是单选题

# 下一篇：如何把HTML文件的背景图片设成全屏