perl 语法速查

时间:2020-12-01 16:40:34
perl -MCPAN -e shell

install Bio::SeqIO

  

或者直接perl -MCPAN -e 'install Excel::Writer::XLSX'

用cpan装不上,编译有问题,尝试用conda,成功安装。

conda install -c bioconda perl-bioperl  

然后还需要导出perllib,让perl能找到指定的pm包。

同时学perl、python和shell脚本会很容易将它们的语法搞混,本文主要是一个个人的总结,方便要用时的查询。

perl基本语法、安装、帮助文档


文件头格式:

#!/usr/bin/perl
use strict;
use warnings;

运行perl脚本:

#调用perl程序
perl test.pl
#可执行脚本
chmod test.pl
./test.pl

基本读写:

#键盘输入
$a = <STDIN>;
chomp($a);
print $a; #文件输入
open(IN, "<test.txt") or die "Cannot open file:$!\n";
open(OUT, ">test.txt") or die "Cannot open file:$!\n";
while(<IN>){
chomp;
print OUT "1. $_";
last;
};
close(IN);
close(OUT);

基本控制流:

if( ){

}elsif( ){

}else{

}
print "Hello!" if ( == );  #简写
while( ){
$count++;
} for($i; $i <= ; $i++){ } foreach (@array){
print $_;
}
last;   #break
next; #continue

数据结构:标量变量($),列表(),数组(@),哈希(%),文件句柄(<>)

语法结构:语句以分号(;)结束,代码块使用花括号{}划分,动态语言不必指明变量类型

单双引号:单引号q(),所有原样输出;双引号qq(),允许插入变量

语法惯例:perl中很多地方括号()是可有可无的,特别是内置函数,如print、split等;可以使用递增递减运算符

安装:Windows装Active版本,(perl -v)检查;linux装,

$ tar -zxvf stable.tar.gz -C dir
$ sh Configure # 配置
$ make # 安装
$ make test #测试是否make成功
$ make install

帮助文档:perldoc命令

perldoc  #会提示用法
perldoc perl #会显示详细用法
perldoc perlfunc #三大模块
perldoc perlop
perldoc perlfaq

建议使用浏览器查看本地的HTML文档:

查找索引


正则表达式(/ /、$1、=~、!~);模式替换(=~ s/ /);模式匹配规则;修饰符i和全局匹配g;grep函数(搜索数组)

键盘输入(<STDIN>, chomp);

函数(split、length、join、map、grep)

作用域(my、our、local)

perl版本更新与多版本安装

特殊变量

$_:默认参数,就是当前的默认操作参数,在读文件<FILE>、迭代for (@array)、split / /、print中非常重要

$!:标准错误输出,一般只与or die语句连用

$1:正则表达式模式中第一个括号内的变量,如(.*)、(string),以此类推

@_:sub函数传递的参数数组,

字符串运算符

连接字符串:并置运算符(.)

转义:反斜杠\

区分标量和字符串:{}显示指定变量名,如${name}space

重复运算符(x),如“-”x 10

数组、哈希

列表:列表是常量,由圆括号()创建,中间用逗号隔开

# 范围运算符
@a = (..)
@b = (.., ..)
@list=(aa..zz);

创建数组:用列表()创建数组

引用数组:用方括号[ ]下标引用数组

创建哈希:用列表()创建哈希,为了好看,键值对以=>形式组织;也可以单个创建

引用哈希:用花括号{}引用哈希

数组操作

@name = (..);
@b = @name[,,];
print "my name is ";
print "$#b";

(数值/字符串)比较

数字比较:(==、>、<、>=、<=、!=)

字符串比较:(eq、gt、lt、ge、le、ne)

print用法

print:可以直接接变量$var、@array、%hash,输出的就是不带空格回车,将所有元素连在一起,数组一坨,哈希一坨,其中哈希顺序是乱的。

print:可以带双引号,数组之间有空格,可以分辨了;哈希失效了,没有内容,就显示出%hash。

print:输出到文件时,文件句柄在前,中间是空格(不能是逗号),后面是输出内容

q()、qq()、qw()、qx{}

q():用单引号将内容括起来

qq():用双引号将内容括起来

qw():用单引号将空格隔开的序列组装成数组,会屏蔽里面的标量

# 两者等价,最好不要有内嵌变量
@a = qw(abc def ghi)
@b = ('abc','def','ghi')

qx{ }:捕获命令输出

$directory = `dir`;
$directory_2 = qx{dir};

正则表达式、模式、替换、匹配规则、grep函数(完)


元字符(简单元字符、转义字符、通配符、字符类、分组和选择、位置通配符)

替换(s/ / /)

修饰符 i 和 全局匹配 g

用于识别输入流中的特定模式,一般是(/ /),m可以省略,$_是默认匹配对象,指定匹配对象用(=~),$1用于取出第一个括号内匹配

#模式里可以有标量变量
$name = "lizhixin";
$surname = "li";
print "yes, $1" if $name =~ /($surname)/;

模式匹配用途有二:1.条件判断,用在if语句里;2.取出匹配上的模式,$1,对其进行操作。

  • 默认正则表达式是返回真假,可用于条件判断;
  • 如果加入括号(),就可以用$1、$2…访问相应模式,将()()()等赋值给数组;或者用/ /g赋值给数组,选出所有模式种类

模式匹配规则:

  • 从左向右依次匹配
  • 找到一个匹配项就返回真
  • 尽可能多的寻找能够匹配的字符(不代表会全部输出,除非像下面一样指定,默认是输出第一个匹配上的
#//g能够输出所有的匹配项
$name = "lizhiixiii";
@result = $name =~ /(i+)/g;
print "@result";
# i ii iii

圆点(.):匹配除换行符外的所有单个字符;通常是(*.)连用,匹配所有;(.与其前面的字符无关,可出现在任意位置)

$a="lizhiiiixin";
print "$1" if $a =~ /(i.x)/; # iix
(+):前面的字符要+(1~N次)(不能没有i,一个i是底线)(必须存在前面的字符
$a="lizhiiiixin";
print "$1" if $a =~ /(i+x)/; # iiiix
(*):前面的字符要存在0次或多次(可以没有前面的i)(必须存在前面的字符
$a="lizhiiiixin";
print "$1\n" if $a =~ /(i*x)/; # iiiix
print "$1\n" if $a =~ /(l*i)/; # li
(?):前面的字符进行0次或一次匹配(必须存在前面的字符
$a="l1zhhiixin";
print "$1\n" if $a =~ /(hi?)/; # h
{n, m} # n:匹配的最小次数;m:匹配的最大次数
/x{,}/    #好理解
/x{,}/ #最少9次
/x{,}/ #0次(不出现),最多9次
/x{}/ #刚好8次
/first.*last/ #可以匹配所有字符,包括所有

匹配方括号内中的任意字符(括号内的通配符^*等会失去原有的意义)

[abcde]  #匹配其中任何一个字符
[a-e] #同上[0-9]+ #顺序匹配一个或多个数字
[A-Za-z]{} #匹配任何一组5个字母字符[^A-Z] #不匹配A-Z中的任何单个字符
字符类快捷方式
\w   #一个单词字符,同[a-zA-Z0-9_]
\W #与\w相反
\d #一个数字,与[0-9]相同
\D #与\d相反
\s #一个白空间字符,同[\t\f\r\n]
\S #与\s相反
# 使用字符类快捷方式\d\w+等
$name = "li12345 zhi xin";
print "$1\n" if $name =~ /(\d{})/;
print "$1\n" if $name =~ /(\s\w+\s)/;

分组和选择(找任意一种模式,或)

print "yes\n" if (/dogs|cats/);
print "yes\n" if (/(fr|b|fl|cl)og/);
($one, $two) = /(.*)\sis\s(.*)/;

位置通配符

/^Help/   #只匹配Help开头的行
/^one.*two$/ #只匹配one开头和two结尾的行
/^only$/ #只匹配包含only的行
/^$/ #匹配空行
/^/ #匹配非空行
#不匹配
if($a !~ /zi/){
print "not match.\n";
}
print "yes\n" if(m/Piglet/);  # 如果使用的是斜杠//,那么m可以省略
$_="apple is red";
($fruit, $color) = /(.*)\sis\s(.*)/;

正则匹配可能会有多种可能的匹配位点,但有时只返回一种最合适的匹配结果,请问这个结果是如何选出来的?(核心问题)

$a = "one fish, two frog, red fred, blue foul";
@F = $a =~ /(f\w\w\w)/g;

替换(返回匹配的数量)

$a = "lizhizhixin";
print "$a\n";
$a =~ s/zhi/xin/; #只替换第一个匹配到的模式
print "$a\n";

修饰符(/ /i)与多次匹配(/ /g)

$name = "LiZhixin";
print "yes, $1" if $name =~ /(^li)/i; # yes, Li
$seq = "ATCTGCAATTTCCTA";
$numA = ;
while ($seq =~ /T/g){
$numA++;
}
print "$numA\n";

grep函数(搜索数组,返回匹配元素或者修改匹配元素,条件可以使正则表达式或是其他条件)

@name = qw(li zhi xin);
@result = grep(/^[^l]/, @name);
print "@result"; # zhi xin
@result = grep(s/i/o/, @name);
print "@result"; # lo zho xon
@result = grep(length($_)>, @name);
print "@result"; # zhi xin

函数

标准函数格式:

常用内置函数

split

int(5.20);

length(“nose”);

lc(“ME TOO”);

uc(“hal 9000”);

cos(50);

rand(5)

堆栈操作函数

push()

pop()

shift():将最后一个元素移走,常用语处理函数参数

unshift()

命令行

上下文

chomp

chomp是运算符,可以用圆括号,也可以用空格;它会改变参数变量,其返回值是1或0

$a = "lizhiixn\n";
print $a;
print "next\n";
chomp $a;
print $a;
print "next";
$b = chomp($a);  #极少这么用

perl版本更新与多版本安装

自己做服务器最好用Ubuntu,apt-get用着很方便,版本更新可以用系统自带的软件更新

Linux没有注册表,软件安装相对独立,理论上所有软件都是绿色版,只是稍微需要配置环境变量和软链接

或者安装多个版本,然後修改/usr/bin/perl的symbolic link到/usr/local/bin/perl,软连接的指向问题

tar zxvf perl-5.10..tar.gz
cd perl-5.10.
./Configure -des -Dprefix=/usr/local/perl # 参数-Dprefix指定安装目录为/usr/local/perl
make
make test
make install
mv /usr/bin/perl/ usr/bin/perl.bak   # 替换系统原有的perl
ln -s /usr/local/perl/bin/perl/ usr/bin/perl
perl –v perl -MCPAN-e shell # 安装一些其它perl模块
#第一次执行的话,会提示安装cpan并要求连接网络下载最新的模块列表.然后就可以安装东西了
cpan> install DBI