Tensilica 是一个迅速成长的公司,公司主要产品是在专业性应用程序微处理器上,为现今高容量嵌入式系统提供最优良的解决方案。公司成立于1997年7月,该公司的投资者包括三家声名卓著的创投公司:Oak Investment Partners, Worldview Technology Partners 和 Foundation Capital, 与高科技电子业内著名的五家公司:Cisco Systems,Inc,Matsushita Electric Industrial Company Ltd, Altera Corporation,NEC Corporation 和 Conexant Systems。Tensilica的创始人为Chris Rowen,同时也是第一任CEO,他原来曾任职于Intel,Stanford,MIPS,SGI和Synopsys,同时他也是可重构处理思想的提出者和实践者。Tensilica公司创立的目的则是提供一种可以实现可重构的、核基于ASIC的、拥有对应软件开发工具的专用微处理器解决方法。
其HIFI系列产品的主要应用包括:
Xtensa处理器作为可配置处理器核,支持指令扩展,用户可以将常用逻辑封装成电路,并增加新的指令进行调用,例如:
f表示函数,既可以是FFT,也可以是CRC等等任何算法。
1.现代处理器为了更好的支持高级编程语言的高效编译,通常处理器所拥有的通用寄存器的数目都有16个甚至32个之多,如此多的寄存器在比较复杂的应用程序上实现深度嵌套调用的时候,为了保证程序的正确执行,寄存器要频繁的进行入栈和出栈操作,这样频繁的堆栈存储器访问将明显降低应用程序的性能,为有效解决这一问题,tensilica的Xtensa架构设计了一种Windows旋转方式的寄存器管理机制,将逻辑寄存器和物理寄存器分开,在函数调用的时候通过windows滑动切换逻辑寄存器,从而避免寄存器覆盖,在设计上增加了一层抽象,减少压栈和出栈的操作,更大限度的提高性能。下图展示在64个物理寄存器上实现的寄存器窗口,虽然ISA仅仅定义了16个AR寄存器,但是实际微架构设计是不限物理寄存器的数量的,当然,成本是随着微架构寄存器的数目增加而增加的。
更具体的一个映射的例子:
关于寄存器窗口工作机制中,WindowBase和指令中的src,dst字段一起,对最终物理寄存器进行寻址,过程可以用下图表示,下图表示的是一个64个32位物理寄存器微架构实现的寻址方案,连线中的斜线旁数字一起表示数据位宽。
其中第一级muxer是组selector,64个物理寄存器每4个一组,这是callX指令的最小粒度,分为16组,通过4BIT的windowbase selector选择后,输出为以此组为BASE的16个GPR寄存器,之后,在由指令中的寄存器字段t或者s进行下一步的选择。定位到最终的物理寄存器。
物理寄存器数量是有限的,如果嵌套多层调用call4/8/12,则一定会发生覆盖原来寄存器窗口的情况,覆盖发生时,Xtensa通过寄存器窗口异常来处理这种情况。寄存器窗口机制中,任何地方引用a0-a3都不会产生register window异常,用户在c或者汇编代码里面可以任意使用,因为在任意环境里,当前逻辑窗口的寄存器,要么无覆盖发生,要么已经在call/entry指令中进行了压栈保存。a4-a15的高位寄存器引用会触发低位寄存器的覆盖检测,哪怕没有显示的使用低位寄存器,触发的顺序是先进行overflow4,然后overflow8至overflow12.
entry指令的执行伪码:
2.ESP32和HIFI3/4/5的区别
HIFI3/4/5的ISA是一样的,区别可能在于资源数,执行单元的实现方式方面。
总结:
- HIFI系列在Xtensa核心的基础上,集成了DSP Extensions,比如集成VLIW计算单元加速各种DSP操作等等,ESP32核心则没有这些扩展。
- ESP32和HIFI系列的base ISA部分应该是一样的,这有点类似于RISCV ISA RV32I/64I extensions的设计。但是,Base ISA相同并不表示处理器的特性是完全一样的,尤其是Xtensa这种支持可重构的处理器设计架构,它非常容易扩展新的指令,所以HIFI系列作为xtensa core的DSP实现,一定在增加了支持fast DSP操作DSP指令。ESP32不是DSP,它没有这些。
- ESP32确实有一些32bit mac单指令,比如单周期的乘累加指令,虽然也可以用它做一些DSP操作,但是这和HIFI核的做法是完全不一样的,HIFI核基于硬件vector和VLIW的方式实现,是面向DSP处理的,性能肯定不在一个水平上。
- 实际上github上有一个项目,就是实现了一个用ESP32进行类似DSP操作的算法库。esp-dsp项目。
- HIFI5 DSP是LX系列处理器的一个configuration option,可以加入在LX系列处理器核里面构成DSP核,没有加入的当然不算是DSP,当使用DSP的扩展配置后,编译器会自动将指令用HIFI5 DSP加速的方式编译。
- HIFI5 DSP is built on the baseline of Xtensa RISC Architecture, 它最厉害的能力来源于DSP指令集和音频指令集扩展,而非baseline ISA,如果想看baseline ISA咋样,可以去用esp32或esp8266体验一下。
- HIFI系列处理器最多可以同时发射5条指令(没有结构,数据相关),并将这五条指令打包成128位的超长指令,分配给五套VILW Machine slots执行单元去执行。存在结构相关的指令无法在一起打包成VLIW,比如,由于只有 slot0支持store操作,所以无法同时打包两条或者以上的内存store操作执行,其它依赖slot能力的指令也有限制,具体要看每个slot的支持信息。
- 貌似xtensa对自家编译器xcc的寄存器调度能力非常自信,所以它不推荐用户在HIFI5上手搓DSP汇编
- 相对于HIFI4和HIFI5性能有所增强,包括VLIW machine 槽数(HIFI4 4个,HIFI5 5个),这使得HIFI有更强的计算资源,例如MACs,和load/store带宽,在其其它方面,HIFI5也有所增强。但是从软件开发的角度,HIFI4/5都是基于Xtensa LX processor,并且支持的都是 XEA2异常模型。
- The ESP32 has the MAC16 which adds some 16-bit multiply/add instructions to the ISA, but it does not have HiFi extensions. I think this may mean there are no VLIW machine slots, but I'm not sure... There's some examples of this here if you're interested; the linked code compiles for & runs on an ESP32.
- Window ABI has a limitation that all the codes should be put in the same GB region. e.g. 0 ---- 0x3FFFFFFF or 0x40000000 --- 0x7FFFFFFF, call4/call8/call12 has the effective range (524284 to 524288 bytes). But they have another long call version: callx4/callx8/callx12 which can be enabled by compiler option -mlongcalls. Complier will automatically use them if required. They can allow a call in the 1GB region.
- The Xtensa ISS (invoked with xt-run) supports two major simulation modes, cycle-accurate and fast functional, which the user specifies via a command-line option. In the default cycle-accurate mode, the ISS directly simulates multiple instructions in the pipeline cycle by cycle, modeling most micro-architectural features of the Xtensa processor while maintaining a very high degree of accuracy. In this mode, the ISS can be used as a reference model for a detailed hardware simulation.
In the fast functional (or TurboXim) mode, the ISS does not model the micro-architectural details but performs an architecturally correct simulation of all Xtensa instructions and exceptions. For long-running programs, the fast functional simulation can be 40 to 80 times faster than the cycle-accurate simulation, which makes it ideal for high-level verification of application software.
Our ISS models iDMA and memory, but does not currently support QEMU – which would allow expansion of other system IP. However, we have another tool (XTSC) that supports both transaction-level modeling and pin-level modeling of the Xtensa cores in a SystemC or SystemC/Verilog environment. And we have customers currently co-simulating XTSC alongside other IP on QEMU. - Xtensa tools environment setup and processor configuration select are required before compiling the project.
Xtensa LX处理器具有称为FLIX(可变长度指令扩展)的功能,允许处理器将现有的16位和24位Xtensa指令混和生成定制的宽指令,VLIW示意图,slot是执行单元,每个能力不同,需要注意指令不能存在结构相关。
3.根据谷歌到的关于xtensa的资料,提取到的一些关于VLIW应用场景和用法的一些信息,一共包括十种指令打包格式,每种格式在所用资源,应用场景,指令长度方面有所差异。
4:根据经验,一般情况下,处理器ISA的异常入口定义,暴漏给软件的使用方式有两种:
第一种:就是ISA固定死异常的入口地址,比如之前的arm9只有0x00000000/0xffff0000两个选择,mips的启动向量在0xbfc00000等等.
第二种:ISA提供异常基地址寄存器,软件可以将异常入口地址写入,这样异常入口放在地址空间的任何位置都可以,比如 riscv/cortex-a系列。
但是我在 xtensa的spec里面,没有看到关于入口地址的定义,也没有再代码里面找到把异常入口配置给某个寄存器(软件反编译后找符号表,没有找到异常符号设置给某个寄存器的逻辑)
所以造成的困惑是,我知道异常时它会调用某个异常处理函数,但是却不知道执行流从哪里进来的!
所以,如果上面两个选项都否的话,第三种异常处理方式是什么呢?难道是HW数字设计的时候入口地址就决定了,然后生成配置文件(这里就是链接脚本xmm),软件按照这个配置文件将异常代码放在正确的地方,这样我也能理解。
经过确认,xtensa就是这样处理的,也就是说,异常向量表的地址可以重新map,这也是它声称自己作为可重构处理器的一个方面,探查esp32/exp8266SDK的编译链接方式可以知道,软核重构产生的xmm文件产生链接脚本,软件按照产生的链接脚本布局代码和数据,所以说地址和HW里面的异常入口逻辑是绑定的,那么芯片T.O后,如果我再修改xmm文件,造成异常入口代码和实际硬件的不一致,CPU进入了错误的入口处理程序,就会出问题。
不过软件常说,解决一个问题,可以通过加一个层的方式解决,这种说法也适用于硬件,毕竟都是语言嘛,数字设计的时候可以在外围配置一些寄存器,这些寄存器不属于xtensa ISA,通过这些寄存器设定的逻辑,可以灵活设置异常入口,达到类似于riscv mtvec/stvec或者cortex-a CP15 vbar地址效果。
可重构处理器比较灵活,它可以根据不同的配置生成HDL代码,要改变处理器的功能,只需要重新配置生成代码就行,这一点有点类似于软件开发中的配置头文件,不是么?
5:ESP32 xtensa架构freeRTOS 启动流程,注意调用wsr.vecbase指令设置windowoverflow异常入口的操作。
关于WindowOverFlow设置的问题,ESP32里面通过"cpu_hal_set_vecbase"设置基地址,
6:ESP32的异常处理架构:
7:Xtensa ISA Windows check的时机,注意entry指令也会触发windowoverflow exception.
8:Xtensa ABI:
Window ABI和Call0 ABI不能混用,当然,安全的手搓汇编包含call0的除外。window rotate滑动的最小粒度为4个寄存器,不能是16个寄存器,否则就没有可以传递参数的overlap共享寄存器了。
9:Xtensa的寄存器窗口机制深入剖析
从github上cadence维护的freeRTOS开发仓库下载支持xtensa LX系列处理器的代码,这个仓库是cadence提供,开源。
git clone https://github.com/foss-xtensa/amazon-freertos.git
Window ABI是Xtensa架构的一大特色,也是它最难以理解的地方,call4/call8/call12的调用会对callee函数使用的寄存器产生影响,子函数和父函数之间,相同的寄存器名却对应到不同的物理寄存器,这在ARM,X86,MIPS或者RISCV等架构中是很难想象的,这也对Xtensa架构的理解造成很大障碍。
经过深入分析Xtensa的文档,发现它的寄存器窗口概念虽然学习曲线很陡,主要是由于对文档的理解不够全面,漏掉了很多细节,实际上,关于寄存器窗口转换的核心逻辑,以及当发生窗口覆盖时处理器需要做的WindowOverflowException处理,ISA 架构文档都有介绍的,只是英文读起来比较生涩,相关章节多读几次,慢慢就有些感觉了。
经过总结,实际上,它的寄存器窗口对系统软件有一个很强的假设,这个假设是mandatory的,那就是所有线程的调用栈顶层,要么用call4发起对first function的调用,要么通过手搓汇编手工捏造一个符合call8 exception handler或者call12 exception handler的调用,以满足WindowException触发的最顶层逻辑,这个逻辑就是WindowOverflow8/12需要一个初始的base save area以获取堆栈指针,见下图:
可以看到,_WindowOverflow8/_WindowOverflow12异常开始都需要从堆栈中获取一个sp,这个SP的来源,要么通过call4产生的_WindowOverflow4进行初始化,要么手工捏造一个堆栈布局保证window register机制可以有效运行。文档中有关于堆栈布局的详细描述,总结后如下图所示:
经过实例分析,一个三级深度的函数调用堆栈布局如下:
基于同样的原因,在FreeRTOS线程创建初始化堆栈填充的时刻,由于线程入口函数上层没有调用链,为了保证寄存器窗口能够正常工作,也要伪造一个call4的现场,方法如下面截图所示:
代码在freertos/kernel/FreeRTOS/portable/XCC/Xtensa/port.c pxPortInitialiseStack函数实现中。
通过开启window register(WOE),设置PS_UM(用户exception)以及最主要的CALLINC(1),恰好对应call4的callinc,EXCM设置为1的目的是保证rfe异常返回。
在线程入口函数执行entry指令的时刻,会用到这里设置的callinc。
10: 关于初始化堆栈是否需要初始化以及如何初始化的逻辑:
如果需要初始化,需要按照如下步骤:
什么情况不需要初始化:
什么时候必须初始化:
12:call8/call12 初始化stack手工捏造的逻辑,注意以下几点:
1.蓝色部分是 bringup初始化流程手搓的当前堆栈,代表的是bringup汇编所使用的堆栈,一般是_start标志的流程。
2.这个堆栈没有local object,只有褐黄色部分的extra save area和下方紫色部分的base saved area,这个很好理解,汇编阶段捏造的堆栈,本身就不需要栈中的存储。
3.执行流程为,如果由firstfunction发起的调用链在某次函数调用中覆盖了这一层的寄存器,则window会旋转到call8这里代表的寄存器窗口视图,执行WindowOverflow8异常处理,处理过程中,首先获取sp-12地址存储的上一个栈帧的sp(a1,其实这个栈帧都是捏造的,哪里存在上一个栈帧,这里取上一级sp的目的是,只有通过这一层的sp,再加上16个字节的便宜skip掉base saved area(蓝色部分),才能对黄色部分extra save area进行寻址.).
4.在WindowOverflow8中,继续通过a9,也就是firstfunction的栈地址,将bringup栈中a0-a3的值保存到firstfunction的base save area中。
5.为call8/12 捏造一个堆栈的目的是模拟上层存在一个call4的调用,已经为发生过一次windowoverflow4异常,并且将自身的sp保存到call8的base save area里面,这样对于call8层来说,可以通过保存的sp的值寻址到本层的extra save area.
而call8本身的a0-a3是保存在callee的base save area中的。
call12初始化堆栈与call8大同小异,在细节上有所不同,call12考虑到传参和本地变量的空间,传参上,它考虑到了在extra save area为a8-a11预留出16字节的空间,然后又预留了16字节整数倍的loc字节作为stack local 变量的空间.
经过这种堆栈的捏造,线程的调用源头的第一个c函数调用就可以不用call4来实现了.
不得不说,Xtensa的堆栈布局太TM毁三观了,看完Xtensa再回头在看ARM,RV,感觉ARM,RV可爱多了。
13:为了夯实对Window Register ABI的理解,继续分析一下setjmp这个和软件ABI关系最密切的函数。
Xtensa的struct jmp_buf定义如下:
14:特殊指令对特殊寄存器的影响
15:WindowCheck的逻辑
WindowCheck能够正常工作的前提条件是CWOE=1,它是两个条件的组合
所以异常发生的时候,PS.EXCM为1,寄存器窗口机制是不工作的。在实践中,也可以程序手动修改设置PS_EXCM为1,这样异常寄存器窗口不工作,可以i通过栈存储和滑动寄存器窗口操作,读取当前核的所有物理AR寄存器,保存起来,用于分析DEBUG。
16:貌似xt-xcc编译器编译c代码只能产生call8指令,call4/call12只能由使用者手搓汇编实现,看下面一个可执行文件的call4/8/12的使用频率即可说明。
call0是一个独立的ABI,只能手搓,除非系统选中CALL0 ABI而非Window ABI.
alloca堆栈分配内存指令会产生"movsp"指令,貌似也不太多:
比如,下图中的movsp指令是因为alloc_in_stack中调用了alloca而产生的。
总结:
1.call8要求extra save area 16个字节和base save area 16个字节,所以入口处的entry至少是32.
2.call12要求extra save area 32个字节和base save area 16个字节,所以入口处的entry至少是48.
3.由于c代码编译默认只用call8指令,所以对于非叶子函数来说,入口处一定不能是entry 16.对于叶子函数,貌似c编译器也是以entry 32开始的,其实为了节省空间,应该可以手搓汇编用entry 16开始,然后内部用call4调用或者不进行函数调用。
4.根据寄存器窗口的工作原理,由于进行子函数调用时,旋转寄存器窗口到新的寄存器视图,所以父子函数之间没有寄存器冲突,也就是说,父函数有用的寄存器,不会被子函数踩踏,所以父函数不需要保存,同样的,子函数也不用怕踩踏破坏父函数的执行现场,子函数只会破坏调用链更远处的调用现场,触发W.O.F Exception.
movsp指令的硬件执行逻辑,中间会触发alloca异常搬运当前堆栈的base save area[sp-16,sp]到新的[as-16,as]范围内,算是lazy restore的一种方式。
异常处理流:
被call4/call8/call12/callx4/callx8/callx12调用的callee函数,入口第一条指令必须是entry指令,但由于entry指令必须在PS.WOE=1并且PS.EXCM=0的时候才能正常执行,也就是说必须开启了WindowOverflow检测,并且程序在正常执行的上下文中,entry才会正确执行,看ISA文档中描述:
看freeRTOS中是如何处理的,可以看到,这里将PS.EXCM清除。
call4/call8/call12/callx4/callx8/callx12本身并不进行window的旋转,即便在windowcheck发生异常的时候,会临时旋转到父级窗口处理一下异常,处理完毕后,会通过rfwo异常返回指令回复原来的窗口,所以callx指令不会旋转寄存器窗口。
相反, 真正进行寄存器窗口旋转操作的是entry指令,偏移量在callx执行时存储在PS.CALLINC 域中。
17:xtensa原生xt-xcc貌似不支持"__builtin_apply_args" "__builtin_apply" "__builtin_return" 几个GNU GCC内建扩展,不知道ESP32 的xtensa gcc支持度怎么样.
18:ill/ill.n指令类似于riscv的unimp指令,作用是无条件触发非法指令异常,软件中用于调试
19:关于xtensa的中断逻辑:
1.中断LEVEL数字越大,中断的优先级越高,所以Level-1, Level-2, Level-3,...优先级逐渐升高.
2.EXCMLEVEL 默认设置一个比较大的数字,表示可以屏蔽掉大部分中断,当异常发生,PS.EXCM为1,下图表示的公式,处理器的异常level级CINTLEVEL 由PS.EXCM乘积项决定,所以异常发生时刻会屏蔽大部分中断,这种在异常中屏蔽中断的做法,
MPS,ARM,RISCV都有类类似实现,不足为奇。
3.根据PS.UM配置的不同,异常可以走KernelExceptionVector或者UserExceptionVector, UserException可以在处理之前切换堆栈,而KernelException直接使用内核栈.
4.关于中断优先级,NMI最高,DEBUG次之,随着level越小,优先级越低。DEBUG level是优先级仅次于NMI的中断。
5.interrupt寄存器作用类似于通用处理器上的interrupt pending寄存器,标志当前活跃待处理的中断请求。
6.中断处理流程:
7.在用Xplorer ISS模拟器运行FreeRTOS测试用例项目的时候,编译过了,但到了最后一步链接总是不过,原因是FreeRTOS原生代码xtensa_vector.S中的异常处理使用了call0指令,但是由于xtensa指令编码的offset域只有18bit,单位是WORD,换算过来也只支持
1M byte的偏移,而且链接器链接的时候将call0 后面的函数连接到了超过1M远的地址,所以链接不过,类似的问题在MIPS中也存在。
为了解决这个问题,根据xt-xcc手册,需要编译的时候加入一个编译选项:
本来是想通过xplorer的build配置页面增加-mlongcalls编译选项的,试了多了不成功,可能是对这套工具不太熟悉的缘故把,后来索性自己修改以下汇编代码,如下图,左边是修改后的,将call0指令变成加载指令和callx指令,发现不同架构在跳转后加入后缀-x 表示寄存器跳转,这一点是相同的,例如arm bx,mips jalx, riscv也有后缀为x的跳转指令。
视立即数的位宽, 编译器判断是否将movi指令编译成l32r指令
8:寄存器窗口工作机制中,一条指令可能会触发多个WindowOverflowException, 举例说明,如果当前函数窗口的调用栈中,当前窗口的a4...a7仍然保留有前面调用帧的有效数据,而a8..a15会被当前函数的调用函数用到,这个时候,如果当前函数指令中访问a10(很正常,比如为call8 的callee 准备参数),则应该首先spill 之前调用链中的call4引发的调用,之后再spill a8-a15,所以一条指令触发了两个异常。
9.一种dump ESP32的所有AR寄存器的实现,基于寄存器窗口旋转,基本原理是保存当前窗口的a0-a15,在旋转,继续保存,再旋转在保存,旋转一圈之后将寄存器保存起来。注意旋转过程中一定要手动设置PS.EXCM为1,这样的话可以防止产生WindowOverflow异常破坏AR物理寄存器现场。
上面的流程实际上有BUG,此函数的目的是保存进入函数之前,父函数点的所有寄存器上下文,但模拟器运行发现,它的a0,a2在入口和出口点不一样,也就是别破坏掉了,这当然不行,后面经过分析,打上下面的补丁此问题圆满解决。
补丁在每轮循环后都会恢复a0,a2的原来的值(随着 window窗口变化,a0,a2对应的物理寄存器实际上在不断变化).
Linux内核中寄存器异常处理的实现,arch/xtensa/kernel/vector.S:
可以运行LINUX的XTENSA架构平台
分页机制
Xtensa支持二级页表,PGD和PTE,PMD被折叠,下面一段描述来自内核源码中的说明linux-6.4.15/arch/xtensa/include/asm/pgtable.h:
26 /*
27 * The Xtensa architecture port of Linux has a two-level page table system,
28 * i.e. the logical three-level Linux page table layout is folded.
29 * Each task has the following memory page tables:
30 *
31 * PGD table (page directory), ie. 3rd-level page table:
32 * One page (4 kB) of 1024 (PTRS_PER_PGD) pointers to PTE tables
33 * (Architectures that don't have the PMD folded point to the PMD tables)
34 *
35 * The pointer to the PGD table for a given task can be retrieved from
36 * the task structure (struct task_struct*) t, e.g. current():
37 * (t->mm ? t->mm : t->active_mm)->pgd
38 *
39 * PMD tables (page middle-directory), ie. 2nd-level page tables:
40 * Absent for the Xtensa architecture (folded, PTRS_PER_PMD == 1).
41 *
42 * PTE tables (page table entry), ie. 1st-level page tables:
43 * One page (4 kB) of 1024 (PTRS_PER_PTE) PTEs with a special PTE
44 * invalid_pte_table for absent mappings.
45 *
46 * The individual pages are 4 kB big with special pages for the
xtensa架构和早期的MIPS有些类似,采用了软件TLB重填机制,所以没有设计存放mm_struct->pgd的系统寄存器,一切页面翻译均来自于TLB,由软件负责TLB重填。TLB miss时的异常处理handler在系统启动时填入异常向量表中,如下图所示:
重填处理中,通过 GET_CURRENT和_PGD_OFFSET获取到当前进程的mm_struct->pgd,根据页表中的数据完成重填。
SIMD vs VLIW:
VLIW将没有资源冲突的多条指令打包为一条指令,发射给不同的执行单元进行指令级并行,在DSP架构中广泛使用。
SIMD则是数据级并行,一条执行流,多条数据流,并且当前的许多架构下,对数据的layout都是有要求的。SIMD在CPU和GPU中有较多应用:
一些问题
疑问1:Candence DSP HIFI4/HIFI5 DSP支持DSP指令集,泰凌微的ESP32也支持DSP指令,但是却被称为CPU,那么什么样的Xtensa ISA处理器可以被称为DSP,什么样的处理器是CPU? 标准是什么?同一条DSP指令,在ESP32和HIFI处理器上的性能是否有差异?
1.HIFI系列和ESP32系列都是Candence基于自身的TIE指令集扩展配置技术(简单来说,TIE语言提供了通过模块化配置进行指令集扩展,并生成对应的编译器的能力 ) ,但是实现同一条DSP指令背后的微架构却可能不同,HIFI4/HIFI5可能使用专用硬件,VLIW技术,宽的数据通道等技术实现,而在ESP32上可能就是简单的基于SIMD,ALU或者MAC单元的计算,所以性能是明显不同的。这也回答了第一个疑问,DSP是通过专用硬件,VLIW等DSP设计思路设计处理器,而XTENSA的CPU则是沿用了通用CPU流水线的设计思路实现的,是BASE的指令集+一些TIE指令扩展。相较于CPU,DSP有更大的效能比,所以在数据处理密集的应用场景,比如AUDIO,视觉,信号处理领域有广泛应用。
ESP32和HIFI的BASE CORE是一样的,HIFI在基本核的基础上,通过TIE扩展了几百条DSP指令。同一条指令在不同的系列上微架构实现不同,性能自然也会有所不同。
2.Xtensa是哈佛架构还是冯诺伊曼架构?
L1 CACHE使用独立的I/D CACHE,从L1的角度看,是哈佛架构,但是L2 CACHE是统一的,所以从L2的角度看,是冯诺伊曼架构。
4.Xtensa CPU是否可以 DISABLE window register功能?
可以,只要AR物理寄存器实现为和ISA规定的逻辑寄存器数量相同,也就是16个,那样就会DISABLE寄存器窗口机制,配置处理器的时候,也有WINDOW ABI选项,如果去选,则不会支持WINDOW 寄存器窗口机制,这样编程模型就和ARM,RISCV,MIPS等处理器一致了。
5.大部分处理器仅仅支持顶点矢量,而有些算法或者软件不好定点化,使用浮点更加现实和灵活,Xtensa处理器支持浮点矢量。
6.Xtensa被做成了深嵌入式系统架构,特点是专业,精进,封闭,不依赖太多生态,概括Xtensa的特点再合适不过。
7.Tensilica允许用户自定义异常处理向量在存储器中的位置,这带来更大的灵活性并简化了系统设计。
8.除AMBA AHB转接桥,Tensilica现在还可提供AMBA AXI转接桥。这些转接桥可帮助设计者非常便捷地将Xtensa标准处理器集成到基于AMBA总线的SOC系统当中去。所有Tensilica钻石系列处理器都带有高性能PIF总线接口,可桥接至其它任何片上总线接口(如OCP,CoreConnect),或通过桥接提供AMBA AXI/AHB接口。因此,SOC设计者可选择任意流行的片上总线,以利用现有架构和外部设备。
总结:
使用寄存器窗口这种架构思路的芯片不止xtensa一家,其它比如Intel Itanium,Oracle SPARC也都有类似的机制实现。
参考文档
http://meseec.ce.rit.edu/756-projects/spring2014/1-3.pdf