PHP内核探索之变量(2)-理解引用

时间:2022-05-19 00:20:40

本文主要内容:

  1. 引论
  2. 符号表与zval
  3. 引用原理
  4. 回到最初的问题

一、引论

  很久之前写了一篇关于引用的文章,当时写的寥寥草草,很多原理都没有说清楚。最近在翻阅Derick Rethans(home: http://derickrethans.nl/ Github: https://github.com/derickr)大牛之前做的报告时,发现了一篇讲解PHP引用机制的文章,也就是这个PDF.文中从zval和符号表的角度讲解了引用计数、引用传参、引用返回、全局参数等的原理,洋洋洒洒,图文并茂,甚是精彩,建议童鞋们有时间都读读原版,相信会有不少的收获。

  废话不多说,接着说今天的正题。

  我们知道,很多语言都提供了引用的机制,引用可以让我们使用不同的名字(或符号)访问同样的内容。PHP手册中对引用的定义是:"在PHP中引用意味着用不同的名字访问同一个变量内容。这并不像C的指针,替代的是,引用是符号表别名。",换句话说,引用实现了某种形式的"绑定"。例如我们经常碰到的这类面试题,便是引用的典范:

$a = array(1,2,3,4);
foreach($a as &$v){
$v *= $v;
} foreach($a as $v){
echo $v;
}

  抛开本题的输出不谈,我们今天就跟随Derick Rethans前辈的脚步,一步一步去揭开引用的神秘面纱。

二、  符号表和zval

  在开始引用的原理之前,我们有必要对于文中反复出现的术语做个简单的说明,其中最主要也最重要的便是: 1.符号表 2.zval.

1.   符号表

  计算机语言是人与机器交流的工具,但不幸的是,我们赖以生存和引以为傲的高级语言却无法直接在计算机上执行,因为计算机只能理解某种形式的机器语言。这意味着,高级语言必须要经过编译(或解释)过程才能被计算机理解和执行。在这其间,要经过词法分析、语法分析、语义分析、中间代码生成和优化等很多复杂的过程,而这些过程中,编译程序可能要反复用到源程序中出现的标识符等信息(例如变量的类型检查、语义分析阶段的语义检查),这些信息便是保存在不同的符号表中的。符号表保存了源程序中标识符的名字和属性信息,这些信息可能包括:类型、存储类型、作用域、存储分配信息和其他一些额外信息等。为了高效的插入和查询符号表项,很多编译器的符号表都使用Hashtable来实现。我们可以简单的理解为:符号表就是一个保存了符号名和该符号的各类属性的hashtable或者map。例如,对于程序:

$str = 'this is a test';

function foo( $a, $b ){
$tmp = 12;
return $tmp + $a + $b;
} function to(){ }

一个可能的符号表(并非实际的符号表)是类似这样的结构:

PHP内核探索之变量(2)-理解引用

  我们并不去关注符号表的具体结构,只需要知道:每个函数、类、命名空间等都有自己的独立的符号表(与全局的符号表分开)。说到这里,突然想起来一件事情,最开始使用PHP编程的时候,在读extract()函数的手册时,对于"从数组中将变量导入到当前的符号表"这句话的含义百思不得其解,更是对前辈们所说的"不建议使用extract($_POST)和extract($_GET)提取变量"的建议万分苦恼。实际上,extract的滥用不仅会有严重的安全性问题,而且会污染当前的符号表( active symbol table)。

  那么active symbol table又是什么东西呢?

  我们知道,PHP代码的执行过程中,几乎都是从全局作用域开始,依次扫描,顺序执行。如果遇到函数调用,则进入该函数的内部执行,该函数执行完毕之后会返回到调用程序继续执行。这意味着,必须要有某种机制用于区分不同阶段所要使用的符号表,否则就会造成编译和执行的错乱。Active symbol table便是用于标志当前活动的符号表(这时应该至少存在着全局的global symbol table和活动的active symbol table,通常情况下,active symbol table就是指global symbol table)。符号表并不是一开始就建立好的,而是随着编译程序的扫描不断添加和更新的。在进入函数调用时,zend(PHP的语言解释引擎)会创建该函数的符号表,并将active symbol table指向该符号表。也就是说,在任意时刻使用的的符号表都应该是当前的active symbol table。

  以上就是符号表的全部内容了,我们简单抽离一下其中的关键内容:

  1. 符号表记录了程序中符号的name-attribute对,这些信息对于编译和执行是至关重要的。
  2. 符号表类似一个map或者hashtable
  3. 符号表不是一开始就建立好的,而是不断添加和更新的过程。
  4. 活动符号表是一个指针,指向的是当前活动的符号表。

  更多的资料可以查看:

  1. http://www.scs.stanford.edu/11wi-cs140/pintos/specs/sysv-abi-update.html/ch4.symtab.html

  2. http://arantxa.ii.uam.es/~modonnel/Compilers/04_SymbolTablesI.pdf

2.       Zval

  在上一篇博客(PHP内核探索之变量(1)Zval)中,我们已经对zval的结构和基本原理有了一些了解。对zval不了解的童鞋可以先看看。为了方便阅读,我们再次贴出zval的结构:

struct _zval_struct {
zvalue_value value; /* value */
zend_uint refcount__gc; /* variable ref count */
zend_uchar type; /* active type */
zend_uchar is_ref__gc; /* if it is a ref variable */
}; typedef struct _zval_struct zval;

三、引用

1.  引用计数

  正如上节所言,zval是PHP变量底层的真正容器,为了节省空间,并不是每个变量都有自己独立的zval容器,例如对于赋值(assign-by-value)操作:$a = $b(假设$b,$a都不是引用型变量),Zend并不会为$b变量开辟新的空间,而是将符号表中a符号和b符号指向同一个zval。只有在其中一个变量发生变化时,才会执行zval分离的操作。这被称为COW(Copy-on-write)的机制,可以在一定程度上节省内存和提高效率。

  为了实现上述机制,需要对zval的引用状态做标记,zval的结构中,refcount__gc便是用于计数的,这个值记录了有多少个变量指向该zval, 在上述赋值操作中,$a=$b ,会增加原始的$b的zval的refcount值。关于这一点,上次(PHP内核探索之变量(1)Zval)已经做了详细的解释,这里不再赘述。

2.         函数传参

  在脚本执行的过程中,全局的符号表几乎是一直存在的,但除了这个全局的global symbol table,实际上还会生成其他的symbol table:例如函数调用的过程中,Zend会创建该函数的内部symbol table,用于存放函数内部变量的信息,而在函数调用结束后,会删除该symbol table。我们接下来以一个简单的函数调用为例,介绍一下在传参的过程中,变量和zval的状态变化,我们使用的测试脚本是:

function do_zval_test($s){
$s = "change ";
return $s;
} $a = "before";
$b = do_zval_test($a);

我们来逐步分析:

(1).   $a = "before";

  这会为$a变量开辟一个新的zval(refcount=1,is_ref=0),如下所示:

  PHP内核探索之变量(2)-理解引用

(2).   函数调用do_zval_test($a)

  由于函数的调用,Zend会为do_zval_test这个函数创建单独的符号表(其中包含该函数内部的符号s),同时,由于$s实际上是函数的形参,因此并不会为$s创建新的zval,而是指向$a的zval。这时,$a指向的zval的refcount应该为3(分别是$a,$s和函数调用堆栈):

a: (refcount=3, is_ref=0)='before func'

  如下图所示:

  PHP内核探索之变量(2)-理解引用

(3).函数内部执行$s = "change "

  由于$s的值发生了改变,因此会执行zval分离,为s专门copy生成一个新的zval:

PHP内核探索之变量(2)-理解引用

(4).函数返回 return $s ; $b = do_zval_test($a).

  $b与$s共享zval(暂时),准备销毁函数中的符号表:

PHP内核探索之变量(2)-理解引用

(5).   销毁函数中的符号表,回到Global环境中:

PHP内核探索之变量(2)-理解引用

  这里我们顺便说一句,在你使用debug_zval_dump()等函数查看zval的refcount时,会令zval本身的refcount值加1,所以实际的refcount的值应该是打印出的refcount减1,如下所示:

$src = "string";
debug_zval_dump($src);

结果是:

string(6) "string" refcount(2)

3.         引用初探

同上,我们还是直接上代码,然后一步步分析(这个例子比较简单,为了完整性,我们还是稍微分析一下):

$a = "simple test";
$b = &a;
$c = &a; $b = 42;
unset($c);
unset($b);

则变量与zval的对应关系如下图所示:(由此可见,unset的作用仅仅是将变量从符号表中删除,并减少对应zval的refcount值)

PHP内核探索之变量(2)-理解引用

上图中值得注意的最后一步,在unset($b)之后,zval的is_ref值又变成了0。

那如果是混合了引用(assign-by-reference)和普通赋值(assign-by-value)的脚本,又是什么情况呢?

我们的测试脚本:

(1). 先普通赋值后引用赋值

$a = "src";
$b = $a;
$c = &$b;

具体的过程见下图:

PHP内核探索之变量(2)-理解引用

(2). 先引用赋值后普通赋值

$a = "src";
$b = &$a;
$c = $a;

具体过程见下图:

PHP内核探索之变量(2)-理解引用

4.  传递引用

同样,向函数传递的参数也可以以引用的形式传递,这样可以在函数内部修改变量的值。作为实例,我们仍使用2(函数传参)中的脚本,只是参数改为引用的形式:

function do_zval_test(&$s){
$s = "after";
return $s;
} $a = "before";
$b = do_zval_test($a);

这与上述函数传参过程基本一致,不同的是,引用的传递使得$a的值发生了变化。而且,在函数调用结束之后 $a的is_ref恢复成0:

PHP内核探索之变量(2)-理解引用

可以看出,与普通的值传递相比,引用传递的不同在于:

(1)     第3步 $s = "change";时,并没有为$s新建一个zval,而是与$a指向同一个zval,这个zval的is_ref=1。

(2)     还是第3步。$s = "change";执行后,由于zval的is_ref=1,因此,间接的改变了$a的值

5.  引用返回

  PHP支持的另一个特性是引用返回。我们知道,在C/C++中,函数返回值时,实际上会生成一个值的副本,而在引用返回时,并不会生成副本,这种引用返回的方式可以在一定程度上节省内存和提高效率。而在PHP中,情况并不完全是这样。那么,究竟什么是引用返回呢?PHP手册上是这么说的:"引用返回用在当想用函数找到引用应该被绑定在哪一个变量上面时",是不是一头雾水,完全不知所云?其实,英文手册上是这样描述的"Returning by reference is useful when you want to use a function to find to which variable a reference should be bound"。提取文中的主干和关键点,我们可以得到这样的信息:

(1).       引用返回是将引用绑定在一个变量上。

(2).       这个变量不是确定的,而是通过函数得到的(否者我们就可以使用普通的引用了)。

这其实也说明了引用返回的局限性:函数必须返回一个变量,而不能是一个表达式,否者就会出现类似下面的问题:

PHP Notice:  Only variable references should be returned by reference in xxx(参看PHP手册中的Note).

那么,引用返回时如何工作的呢?例如,对于如下的例子:

function &find_node($key,&$tree){
$item = &$tree[$key];
return $item;
} $tree = array(1=>'one',2=>'two',3=>'three');
$node =& find_node(3,$tree);
$node ='new';

Zend都做了哪些工作呢?我们一步步来看。

(1).    $tree = array(1=>'one',2=>'two',3=>'three')

同之前一样,这会在Global symbol table中添加tree这个symbol,并生成该变量的zval。同时,为数组$tree的每个元素都生成相应的zval:

tree: (refcount=1, is_ref=0)=array (
1 => (refcount=1, is_ref=0)='one',
2 => (refcount=1, is_ref=0)='two',
3 => (refcount=1, is_ref=0)='three'
)

如下图所示:

PHP内核探索之变量(2)-理解引用

(2). find_node(3,&$tree)

  由于函数调用,Zend会进入函数的内部,创建该函数的内部symbol table,同时,由于传递的参数是引用参数,因此zval的is_ref被标志为1,而refcount的值增加为3(分别是全局tree,内部tree和函数堆栈):

PHP内核探索之变量(2)-理解引用

(3)$item = &$tree[$key];

  由于item是$tree[$key]的引用(在本例的调用中,$key是3),因而更新$tree[$key]指向zval的is_ref和refcount值:

PHP内核探索之变量(2)-理解引用

(4)return $item,并执行引用绑定:

PHP内核探索之变量(2)-理解引用

(5)函数返回,销毁局部符号表。

  tree对应的zval的is_ref恢复了0,refcount=1,$tree[3]被绑定在了$node变量上,对该变量的任何改变都会间接更改$tree[3]:

PHP内核探索之变量(2)-理解引用

(6) 更改$node的值,会反射到$tree的节点上,$node ='new':

PHP内核探索之变量(2)-理解引用

Note:为了使用引用返回,必须在函数定义和函数调用的地方都显式的使用&符号。

6.    Global关键字

PHP中允许我们在函数内部使用Global关键字引用全局变量(不加global关键字时引用的是函数的局部变量),例如:

$var = "outside";
function inside()
{
$var = "inside";
echo $var;
global $var;
echo $var;
} inside();

输出为insideoutside

我们只知道global关键字建立了一个局部变量和全局变量的绑定,那么具体机制是什么呢?

使用如下的脚本测试:

$var = "one";
function update_var($value){
global $var;
unset($var);
global $var;
$var = $value;
} update_var('four');
echo $var;

具体的分析过程为:

(1).$var = 'one';

同之前一样,这会在全局的symbol table中添加var符号,并创建相应的zval:

PHP内核探索之变量(2)-理解引用

(2).update_var('four')

由于直接传递的是string而不是变量,因而会创建一个zval,该zval的is_ref=0,ref_count=2(分别是形参$value和函数的堆栈),如下所示:

PHP内核探索之变量(2)-理解引用

(3)global $var

  global $var这句话,实际上会执行两件事情:

(1).在函数内部的符号表中插入局部的var符号

(2).建立局部$var与全局变量$var之间的引用.

PHP内核探索之变量(2)-理解引用

(4)unset($var);

这里要注意的是,unset只是删除函数内部符号表中var符号,而不是删除全局的。同时,更新原zval的refcount值和is_ref引用标志(引用解绑):

PHP内核探索之变量(2)-理解引用

(5).global $var

同3,再次建立局部$var与全局的$var的引用:

PHP内核探索之变量(2)-理解引用

(6)$var = $value;

  更改$var对应的zval的值,由于引用的存在,全局的$var的值也随之改变:

PHP内核探索之变量(2)-理解引用

(7)函数返回,销毁局部符号表(又回到最初的起点,但,一切已经大不一样了):

PHP内核探索之变量(2)-理解引用

据此,我们可以总结出global关键字的过程和特性:

  1. 函数中声明global,会在函数内部生成一个局部的变量,并与全局的变量建立引用
  2. 函数中对global变量的任何更改操作都会间接更改全局变量的值。
  3. 函数unset局部变量不会影响global,而只是解除与全局变量的绑定。

四、回到最初的问题

现在,我们对引用已经有了一个基本的认识。让我们回到最初的问题:

$a = array(1,2,3);
foreach($a as &$v){
$v *= $v;
} foreach($a as $v){
echo $v;
}

这之中,究竟发生了什么事情呢?

(1).$a = array(1,2,3);

这会在全局的symbol table中生成$a的zval并且为每个元素也生成相应的zval:

PHP内核探索之变量(2)-理解引用

(2).   foreach($a as &$v) {$v *= $v;}

这里由于是引用绑定,所以相当于对数组中的元素执行:

$v = &$a[];
$v = &$a[];
$v = &$a[];

执行过程如下:

PHP内核探索之变量(2)-理解引用

我们发现,在这次的foreach执行完毕之后,$v = &$a[2].

(3)第二次foreach循环

foreach($a as $v){
echo $v;
}

这次因为是普通的assign-by-value的赋值形式,因此,类似与执行:

$v = $a[];
$v = $a[];
$v = $a[];

别忘了$v现在是$a[2]的引用,因此,赋值的过程会间接更改$a[2]的值。

过程如下:

PHP内核探索之变量(2)-理解引用

因此,输出结果应该为144.

附:本文中的zval的调试方法。

如果要查看某一过程中zval的变化,最好的办法是在该过程的前后均加上调试代码。例如

$a = 123;
xdebug_debug_zval('a');
$b=&$a;
xdebug_debug_zval('a');

配合画图,可以得到一个直观的zval更新过程。

参考文献:

  1. http://en.wikipedia.org/wiki/Symbol_table
  2. http://arantxa.ii.uam.es/~modonnel/Compilers/04_SymbolTablesI.pdf
  3. http://web.cs.wpi.edu/~kal/courses/cs4533/module5/myst.html
  4. http://www.cs.dartmouth.edu/~mckeeman/cs48/mxcom/doc/TypeInference.pdf
  5. http://www.cs.cornell.edu/courses/cs412/2008sp/lectures/lec12.pdf
  6. http://php.net/manual/zh/language.references.return.php
  7. http://*.com/questions/10057671/how-foreach-actually-works

由于写作匆忙,文中难免会有错误之处,欢迎指出探讨。

PHP内核探索之变量(2)-理解引用的更多相关文章

  1. PHP内核探索之变量(4)- 数组操作

    上一节(PHP内核探索之变量(3)- hash table),我们已经知道,数组在PHP的底层实际上是HashTable(链接法解决冲突),本文将对最常用的函数系列-数组操作的相关函数做进一步的跟踪. ...

  2. PHP内核探索之变量(1)Zval

    作为数据的容器,我们常常需要跟变量打交道,不管这个变量是数字.数组.字符串.对象还是其他,因而可以说变量是构成语言的不可或缺的基础.本文是PHP内核探索之变量的第一篇,主要介绍zval的基本知识,包括 ...

  3. PHP内核探索之变量(7)- 不平凡的字符串

    切,一个字符串有什么好研究的. 别这么说,看过<平凡的世界>么,平凡的字符串也可以有不平凡的故事.试看: (1)       在C语言中,strlen计算字符串的时间复杂度是?PHP中呢? ...

  4. PHP内核探索之变量(6)- 后续内核探索系列大纲备忘

    年前因为工作比较饱和,现在又忙着换工作的事情,基本停止了对博文的更新.后续的博文,还是慢慢补上吧. 为了不至于过于发散,先搞个未成形的大纲,如下: PHP内核探索之变量  不平凡的字符串 PHP内核探 ...

  5. PHP内核探索之变量(3)- hash table

    在PHP中,除了zval, 另一个比较重要的数据结构非hash table莫属,例如我们最常见的数组,在底层便是hash table.除了数组,在线程安全(TSRM).GC.资源管理.Global变量 ...

  6. PHP内核探索之变量(5)- session的基本原理

    这次说说session. session可以说是当前互联网提到的最多的名词之一了.它的含义很宽泛,可以指任何一次完整的事务交互(会话):如发送一次HTTP请求并接受响应,执行一条SQL语句都可以看做一 ...

  7. PHP内核探索之变量 图解

    http://blog.csdn.net/ohmygirl/article/details/41542445 http://www.laruence.com/2008/09/19/520.html

  8. PHP内核探索之变量(1)变量的容器-Zval

    http://blog.csdn.net/ohmygirl/article/details/41542445

  9. php内核探索 &lbrack;转&rsqb;

    PHP内核探索:从SAPI接口开始 PHP内核探索:一次请求的开始与结束 PHP内核探索:一次请求生命周期 PHP内核探索:单进程SAPI生命周期 PHP内核探索:多进程/线程的SAPI生命周期 PH ...

随机推荐

  1. Android安装apk时报错:INSTALL&lowbar;FAILED&lowbar;NO&lowbar;MATCHING&lowbar;ABIS

    问题背景 OS:无关 AS:无关 Genymotion:2.5.2 Virtual Device:Google Nexus 5 - 5.1.0 - API 22 原因分析 CPU架构不符 解决方案 对 ...

  2. HTML5中的Range对象的研究

    一:Range对象的概念 Range对象代表页面上的一段连续区域,通过Range对象,可以获取或修改页面上的任何区域,可以通过如下创建一个空的Range对象,如下: var  range = docu ...

  3. Subarray Sum &amp&semi; Maximum Size Subarray Sum Equals K

    Subarray Sum Given an integer array, find a subarray where the sum of numbers is zero. Your code sho ...

  4. 微信公众号jssdk使用的惨痛经历

    最近一直在做微信公众号开发,遇到个DT的问题: 大家都知道使用jssdk的时候开发人员必须在后台按照官方文档给定的规则生成签名,我前前个月就写好了这个测试demo页面,而且完全正常能用,像分享等这些功 ...

  5. Ubuntu14&period;04 如何修改&sol;etc&sol;sudoers 和错误修改权限的解决办法

    开始学习hadoop啦!!! 在Ubuntu14.04上新建了一个名为hadoop的用户,但总是遇到各种权限问题,于是就想干脆把这个账户变成root账户. 网上查到说是直接修改/etc/sudoers ...

  6. C&num; 图结构操作

    仿造<<Java常用算法手册>>里面对的算法,使用C#实现了一遍. 理论知识我就不讲解了,在这本书里面已经写的非常完美! 代码如何下: using System; using ...

  7. mybatis 详解(六)------通过mapper接口加载映射文件

    通过 mapper 接口加载映射文件,这对于后面 ssm三大框架 的整合是非常重要的.那么什么是通过 mapper 接口加载映射文件呢? 我们首先看以前的做法,在全局配置文件 mybatis-conf ...

  8. 25&period;创业真的需要app吗?真的需要外包吗?

    两个星期前,一名亲戚的朋友打算投入自己的二十多万元去搞个摄影社交app,问我有没有靠谱的外包推荐,我赶紧劝住他,现在app的成本已经非常高了,初期的研发就要十几万,加上后期的推广(每个用户成本大概2元 ...

  9. sql server 性能调优之 CPU消耗最大资源分析1 &lpar;自sqlserver服务启动以后&rpar;

    一. 概述 上次在介绍性能调优中讲到了I/O的开销查看及维护,这次介绍CPU的开销及维护, 在调优方面是可以从多个维度去发现问题如I/O,CPU,  内存,锁等,不管从哪个维度去解决,都能达到调优的效 ...

  10. linux ---部署django项目篇

    uWSGI + nginx+ django + virtualenv + supervisor发布web服务器 项目部署步骤 1.项目准备阶段 1.准备项目代码,从本地拷贝 2.将项目上传到linux ...