本文共 8598 字,大约阅读时间需要 28 分钟。
直接开门见山好了,程序入口为vmmain.c
的main
函数,启动过程总结起来是以下四步
具体代码分析如下
int main(int argc, char *argv[]) { tp_vm *tp = tp_init(argc,argv); // 根据命令行参数生成tp_vm实例 tp_import(tp,argv[1],"__main__",0,0); // 执行目标python文件 tp_deinit(tp); // 释放tp_vm实例占用的资源 return(0);}
然后再看看tp_init
函数做了什么
tp_vm *tp_init(int argc, char *argv[]) { tp_vm *tp = _tp_init(); // 分配内存,初始化GC以及根节点对象 tp_builtins(tp); // 注册built-in函数 tp_args(tp,argc,argv); // 初始化命令行,赋值到全局变量ARGV tp_compiler(tp); // 编译源文件 return tp;}
代码执行过程主要在tp_import
函数中,让我们来看看具体是怎么样子的。
核心代码如下
// _tp_importif (!((fname.type != TP_NONE && _tp_str_index(fname,tp_string(".tpc"))!=-1) || code.type != TP_NONE)) { return tp_ez_call(tp,"py2bc","import_fname",tp_params_v(tp,2,fname,name));}g = tp_dict(tp);tp_set(tp,g,tp_string("__name__"),name); // 模块名tp_set(tp,g,tp_string("__code__"),code); // 模块字节码tp_set(tp,g,tp_string("__dict__"),g); // 模块的全局对象,也就是globals()tp_frame(tp,g,code,0); // 非常重要,初始化方法栈,可以理解为初始化临时变量表locals(),创建新的函数调用栈tp_set(tp,tp->modules,name,g); // 注册模块到根节点,tp->moduels等价于python中的sys.modulesif (!tp->jmp) { tp_run(tp,tp->cur); } // 看到run终于舒了一口气,要开始执行了
大丈夫不拘小节,抛开细节,我们看到tp_run
最终是下面这样
tp->jmp += 1; if (setjmp(tp->buf)) { tp_handle(tp); } // 处理异常,不管while (tp->cur >= cur && tp_step(tp) != -1); // 就是你了tp->jmp -= 1; // 恢复现场
山重水复疑无路,柳暗花明又一村。tp_step
其实才是我们要找的函数,看看函数大小就知道了,哈哈哈。tp_step
实际上就已经是字节码的执行过程了,字节码听起来非常高大上,一说大家就想到了jvm
啊之类的。其实字节码是非常简单,这也是实现跨平台的常用技术,其实就是字节化的中间代码。tinypy
中一共有50个字节码,其中有49个有具体的含义,最后一个TP_ITOTAL
无特殊意义,作为记录字节码长度作用(枚举值从0开始,TP_ITOTAL刚好等于前面的字节码个数)
下面开始介绍字节码,首先tinypy
是基于寄存器的虚拟机字节码,主流语言使用寄存器的语言我知道的主要是lua和dalvik(安卓上的jvm),于此相对的是基于栈的虚拟机,目前大部分高级语言的虚拟机(java,C#,python)等都是基于栈的,关于这方面知识R大大在中讲的非常清楚,大家有兴趣的可以去看看
这里简单介绍一下基于寄存器的虚拟机,现实中的CPU绝大部分是基于寄存器的,比如X86,ARM等。基于寄存器的虚拟机指令一般是
操作符 结果寄存器(RA) 参数1(RB) 参数2(RC)
举个例子
c = a + b;
编译成字节码就是
ADD [c] [a] [b] // [n] 指变量n对应的寄存器地址,虚拟机地址一般是寄存器数组的下标
再举个复杂一点的例子
if (a > 10): print('a > 10')
编译成字节码是
1: TP_INUMBER B 10 // B = 102: TP_ILT C B A // tinypy只定义了 <符号,> 操作需要交换两个值; C = B < A3: TP_IIF C // if C: 跳过一条指令4: TP_IJUMP 4 // 跳过4条指令5: TP_ISTRING D 'print' // D = 'print6: TP_IGGET E D // E = globals()[D]7: TP_ISTRING F 'a > 10' // F = 'a > 10'8: TP_ICALL E F 1 // tp_call(E, 1, F); 符号,>
tinypy
中的有三个宏RA
,RB
,RC
分别对应这三个寄存器
int tp_step(TP) { tp_frame_ *f = &tp->frames[tp->cur]; tp_obj *regs = f->regs; tp_code *cur = f->cur; while(1) { #ifdef TP_SANDBOX tp_bounds(tp,cur,1); #endif tp_code e = *cur; /* fprintf(stderr,"%2d.%4d: %-6s %3d %3d %3d\n",tp->cur,cur - (tp_code*)f->code.string.val,tp_strings[e.i],VA,VB,VC); int i; for(i=0;i<16;i++) { fprintf(stderr,"%d: %s\n",i,TP_xSTR(regs[i])); } */ switch (e.i) { case TP_IEOF: tp_return(tp,tp_None); SR(0); break; // 处理返回值 case TP_IADD: RA = tp_add(tp,RB,RC); break; // 加法运算 case TP_ISUB: RA = tp_sub(tp,RB,RC); break; // 减法运算 case TP_IMUL: RA = tp_mul(tp,RB,RC); break; // 乘法运算 case TP_IDIV: RA = tp_div(tp,RB,RC); break; // 除法运算 case TP_IPOW: RA = tp_pow(tp,RB,RC); break; // 乘方运算 case TP_IBITAND: RA = tp_bitwise_and(tp,RB,RC); break; // 与 case TP_IBITOR: RA = tp_bitwise_or(tp,RB,RC); break; // 或 case TP_IBITXOR: RA = tp_bitwise_xor(tp,RB,RC); break; // 异或 case TP_IMOD: RA = tp_mod(tp,RB,RC); break; // 取模运算 case TP_ILSH: RA = tp_lsh(tp,RB,RC); break; // 左移运算 case TP_IRSH: RA = tp_rsh(tp,RB,RC); break; // 右移运算 case TP_ICMP: RA = tp_number(tp_cmp(tp,RB,RC)); break; // 比较运算 case TP_INE: RA = tp_number(tp_cmp(tp,RB,RC)!=0); break; // 不等于判断 case TP_IEQ: RA = tp_number(tp_cmp(tp,RB,RC)==0); break; // 等于判断 case TP_ILE: RA = tp_number(tp_cmp(tp,RB,RC)<=0); break; // 小于等于判断 case TP_ILT: RA = tp_number(tp_cmp(tp,RB,RC)<0); break; // 小于判断 case TP_IBITNOT: RA = tp_bitwise_not(tp,RB); break; // 按位取反,也就是~ case TP_INOT: RA = tp_number(!tp_bool(tp,RB)); break; // not操作 case TP_IPASS: break; // pass操作 case TP_IIF: if (tp_bool(tp,RA)) { cur += 1; } break; // RA为真则继续,下一个指令时跳转指令 case TP_IIFN: if (!tp_bool(tp,RA)) { cur += 1; } break; // RA不为真继续 case TP_IGET: RA = tp_get(tp,RB,RC); GA; break; // RA = RB[RC] case TP_IITER: // 迭代器,RB是计数器 if (RC.number.val < tp_len(tp,RB).number.val) { RA = tp_iter(tp,RB,RC); GA; RC.number.val += 1; #ifdef TP_SANDBOX tp_bounds(tp,cur,1); #endif cur += 1; } break; case TP_IHAS: RA = tp_has(tp,RB,RC); break; // 包含运算 case TP_IIGET: tp_iget(tp,&RA,RB,RC); break; // RA = RB[RC], 如果RB没有RC属性,不会抛出异常 case TP_ISET: tp_set(tp,RA,RB,RC); break; // RA[RB] = RC case TP_IDEL: tp_del(tp,RA,RB); break; // delete RA[RB] case TP_IMOVE: RA = RB; break; // RA = RB case TP_INUMBER: // RA = 数字,相当于反序列化或者解码 #ifdef TP_SANDBOX tp_bounds(tp,cur,sizeof(tp_num)/4); #endif RA = tp_number(*(tp_num*)(*++cur).string.val); cur += sizeof(tp_num)/4; continue; case TP_ISTRING: { // RA = 字符串,同数字 #ifdef TP_SANDBOX tp_bounds(tp,cur,(UVBC/4)+1); #endif /* RA = tp_string_n((*(cur+1)).string.val,UVBC); */ int a = (*(cur+1)).string.val-f->code.string.val; RA = tp_string_sub(tp,f->code,a,a+UVBC), cur += (UVBC/4)+1; } break; case TP_IDICT: RA = tp_dict_n(tp,VC/2,&RB); break; // RA = [RB开始的K-V列表组成的字典,长度为RC/2] case TP_ILIST: RA = tp_list_n(tp,VC,&RB); break; // RA = [RB开始列表,长度为RC] case TP_IPARAMS: RA = tp_params_n(tp,VC,&RB); break; // RA = [RB开始的参数列表,长度为RC] case TP_ILEN: RA = tp_len(tp,RB); break; // RA = len(RB) case TP_IJUMP: cur += SVBC; continue; break; // 跳转, SVBC是RB<<4 + RC case TP_ISETJMP: f->jmp = SVBC?cur+SVBC:0; break; case TP_ICALL: // 调用函数,tp_call #ifdef TP_SANDBOX tp_bounds(tp,cur,1); #endif f->cur = cur + 1; RA = tp_call(tp,RB,RC); GA; return 0; break; case TP_IGGET: // RA = globals()[RB] if (!tp_iget(tp,&RA,f->globals,RB)) { RA = tp_get(tp,tp->builtins,RB); GA; } break; case TP_IGSET: tp_set(tp,f->globals,RA,RB); break; // globals()[RA] = RB case TP_IDEF: { // 定义函数, tp_def把函数字节码关联到函数结构体上/* RA = tp_def(tp,(*(cur+1)).string.val,f->globals);*/ #ifdef TP_SANDBOX tp_bounds(tp,cur,SVBC); #endif int a = (*(cur+1)).string.val-f->code.string.val; RA = tp_def(tp, /*tp_string_n((*(cur+1)).string.val,(SVBC-1)*4),*/ tp_string_sub(tp,f->code,a,a+(SVBC-1)*4), f->globals); cur += SVBC; continue; } break; case TP_IRETURN: tp_return(tp,RA); SR(0); break; // 返回结果 case TP_IRAISE: _tp_raise(tp,RA); SR(0); break; // 抛出异常 case TP_IDEBUG: // DEBUG tp_params_v(tp,3,tp_string("DEBUG:"),tp_number(VA),RA); tp_print(tp); break; case TP_INONE: RA = tp_None; break; // RA = None case TP_ILINE: // 当前行代码,用于异常的展示 #ifdef TP_SANDBOX tp_bounds(tp,cur,VA); #endif ; int a = (*(cur+1)).string.val-f->code.string.val;/* f->line = tp_string_n((*(cur+1)).string.val,VA*4-1);*/ f->line = tp_string_sub(tp,f->code,a,a+VA*4-1);/* fprintf(stderr,"%7d: %s\n",UVBC,f->line.string.val);*/ cur += VA; f->lineno = UVBC; break; case TP_IFILE: f->fname = RA; break; // 设置文件名,打印异常栈使用 case TP_INAME: f->name = RA; break; // 设置模块名,初始化模块 case TP_IREGS: f->cregs = VA; break; // 初始化寄存器数组 default: tp_raise(0,tp_string("(tp_step) RuntimeError: invalid instruction")); break; } #ifdef TP_SANDBOX tp_time_update(tp); tp_mem_update(tp); tp_bounds(tp,cur,1); #endif cur += 1; } SR(0);}
我实现的虚拟机
转载地址:http://ltuws.baihongyu.com/