C++可变参数的实现方法
作者:
可变参数的实现要解决三个问题:
1.如何调用带有可变参数的函数
2.如何编译有可变参数的程序
3.在带有可变参数的函数体中如何持有可变参数
第一个问题, 调用时在可以传入可变参数的地方传入可变参数即可,当然,还有一些需要注意的地方,后面会提到。
第二个问题,编译器需要在编译时采用一种宽松的检查方案,,这会带来一些问题, 比如对编程查错不利。
第三个是我在这里要关心的问题,先以C语言为例分析其实现原理。
printf和scanf是C语言标准库中最常见的可变参数函数, printf的签名是
int printf(const char* format, ...);
其中,... 表示可变参数,现在模仿printf写一个简单的例子。
一、一个简单了例子:
#include <windows.h>
#include <stdio.h>
void VariableArgumentMethod(int argc, ...);
int main(){
VariableArgumentMethod(6, 4, 7, 3, 0, 7, 9);
return 0;
}
void VariableArgumentMethod(int argc, ...){
// 声明一个指针, 用于持有可变参数
va_list pArg;
// 将 pArg 初始化为指向第一个参数
va_start(pArg, argc);
// 输出参数
for(int i = 0; i != argc; ++i){
// 获取 pArg 所指向的参数并输出
printf("%d, ", va_arg(pArg, int) );
}
va_end(pArg);
}
void VariableArgumentMethod(int argc, ...)是一个可变参数函数,这个函数用于将 argc 指定个数的可变参数输出。
VariableArgumentMethod(6, 4, 7, 3, 0, 7, 9); 是对这个函数的调用,第一个实参 6 表示后面跟了 6 个参数。
在 VariableArgumentMethod 的函数体中:
1. va_list pArg;
定义了一个用于持有可变参数的指针,通过将这个指针在传入的可变参数表中移动,可以持有第一个可变参数。
2. va_start(pArg, argc);
让 pArg 指向可变参数列表中的第一个参数。argc 是一个用来定位的参数,因为可变参数是从 argc 后开始的,后面会说明为什么要这样定位。
3. va_arg(pArg, int);
这句话放在循环体中,用于取出可变参数表中的参数。并且,它会让 pArg 移向下个可变参数(如果已经到达末尾,则它将指向一个没有意义的地址)。
4. va_end(pArg);
给 pArg 清零,个人认为在这里可有可无,因为 pArg 已经不需要了。
就这样,VariableArgumentMethod 函数体遍历了可变参数表中传入的参数,并用printf("%d, ", va_arg(pArg, int) ) 进行了输出。
二、实现细节
1. 先了解一下编译器如何处理传递参数这个问题的。
编译器是将参数压入栈中进行传递的。传递实参的时候,编译器会从实参列表中,按从右到左的顺序将参数入栈,对于 VariableArgumentMethod(6, 4, 7, 3, 0, 7, 9)调用,则入栈的顺序是 9, 7, 0, 3, 7, 4, 6 (注意没有可变参数与不可变参数之分)。由于栈的地址是从高到低的,所以实参入栈后,实参在栈中的分布如下图。可以看出,实参在栈中,还是保持了左边参数处于低地址,右边参数处于高地址的状态。OK,知道这些就够了。
低地址 高地址
... |
6 |
4 |
7 |
3 |
0 |
7 |
9 |
... |
栈
2. va_list, va_start, va_arg 和 va_end
va_list 是一个定义的指针类型,va_start, va_arg 和 va_end 都是C语言用于处理可变参数而定义的宏,在stdarg.h文件中。由于硬件平台的不同,编译器的不同,导致它们的定义也有所不同,但基本思路相同。以下是相关宏的定义。
typedef char * va_list;
#define _ADDRESSOF(v) ( &(v) )
#define _INTSIZEOF(n) ( (sizeof(n) + sizeof(int) - 1) & ~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)_ADDRESSOF(v) + _INTSIZEOF(v) )
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )
#define va_end(ap) ( ap = (va_list)0 )
可以看出,此处引入了另外两个宏 _ADDRESSOF 和 _INTSIZEOF。
_ADDRESSOF(v) 是用于获取变量地址的,这一眼就能看出来;
_INTSIZEOF(n) 是用于对齐的。(什么是对齐呢?这是因为栈的结构导致的,在 32 位机中,栈中每个单元都是占 4 个字节的,这往往是一个 int 型的长度,但实际传过来的参数可能并不正好是 4 个字节,或者正好是 4 的倍数个字节,就好像坐车时不会卖半个座位给乘客一样,如果传入的数据没有正好占 4 个或 4 的倍数个字节,则需要对齐(补齐)。至于为什么这个表达式能够对齐,需要分析一下);
va_start(ap,v) 中,ap 是用于持有可变参数的指针, v 是最后一个非可变参数的参数,(va_list)_ADDRESSOF(v) 获取 v 的地址,并转为 va_list 类型的,v 是最后一个非可变参数的参数,在本例中应为 6, 在上图中处理栈的低地址端,_INTSIZEOF(v) 获取了一个对齐地址,这里应为 4, 两个相加后,即指向了第一个可变参数,即上图中的 4, 将这个值赋给 ap 后,就让 ap 指向了第一个可变参数。(从这里可以看出,将va_list 定义为 char* 是很有用的,因为 char 长度为一个字节,便于指针运算);
va_arg(ap,t) 中,ap 是用于持有可变参数的指针,t 是要获取参数的类型,ap += _INTSIZEOF(t) 让 ap 指向下一个参数,但是,此处还需要获取当前参数的值,所以又将表达式减回来,返回的应是一个 va_list(char*) 型的指针,因此要转型为 t* 后再进行解引用运算,得到当前参数的值。(注意这里有个将 ap 移向下一个参数又减回来的操作,本人感觉不太好,一方面这里有个浪费的操作,对性能会有一些影响,另一方面,我更希望将取当前值的操作和移向下一个的操作分离,这样可以让程序员有更多的控制,并且容易理解。)
va_end(ap) 则是让 ap 指向一个空地址。
通过以上分析,可以发现,C 语言中可变参数是从栈中按顺序访问的,过程中所使用的三个宏,也只是对操作的简单包装,完全可以自己编程实现。而且,参数的类型和个数是不能直接确定的,在本例中,VariableArgumentMethod 的第一个参数用于指定参数的个数,而参数的类型约定为整形,这样程序才能正常运行,再说到 printf,它之所以能识别参数的个数,是因为它的第一个参数中必须要描述后面参数的格式字符串,这正是一开始所提到的第一个问题中说到的要注意的问题。这也是它被很多人所诟病的原因,但是,本人认为这种方式是很好的,后面会与 java 和 .net 的实现方式进行比较。
三、java 和 .net 实现可变参数的方式。
java 从1.5以后,开始支持可变参数,其定义语法为:
void testMethod(String ... args)
对于这个方法,可以这样调用:testMethod("gly", "zxy", "ChenFei");
.net 也支持可变参数,其定义语法为:
void TestMethod(params string[] args)
对于这个方法,可以这样调用:TestMethod("gly", "zxy", "ChenFei");
在 java 和 .net 中,对于可变参数的实现基本是一样的:编译器在编译时,将方法签名中的可变参数视为相应类型的数组,编译相应的调用时,根据实参生成一个数组,将参数装入到数组中进行传递,而在可变参数方法的方法体中,按使用数组的方式使用可变参数。
四、两种实现方式的比较
C 语言的实现方式与 java .net 的实现方式相比,C 语言需要程序员做更多的工作,而且,确实增加了出错的机会,java .net 的实现方式可以很容易的确定参数的类型和个数,这些 C 的实现中是没有的,但是 java .net 的实现方式会生成临时数组,当然 java .net 有垃圾回收机制,但是,垃圾什么时候被回收是不确定的,而且是代价很大的,垃圾回收是个好东西,但我不喜欢,我认为不需要的东西应该立即释放,这是完美的一个方面的体现。C 中没有这个问题,参数的个数和类型问题可以靠约定或指定来解决,而这两个问题在 java 和 .net 中,参数个数其实是间接传递过去了(数组的长度),参数类型则是在方法签名中约定了。当然,java .net 的设计目标和 C 语言不同,这里说多了。