sophon bm1684x 算法耗时测试报告

1.测试对象

公司算能计算板卡,采用一个过遮挡的对地车辆视频进行跟踪+识别测试。
alt text

目标识别程序:
采用算能FP16精度模型,模型分辨率1280*1024

目标传统跟踪算法:
采用跟踪基线(初始化为对地场景),KCF开3尺度,TLD抗遮挡模块开(OPENMP未开启)。

2.测试方法与结果

在算能板运行测试程序,并将识别、跟踪结果绘制在双路视频上,为了测试方便,双路均使用了相同的注入视频(视频规格1080p)。

为贴近实际产品,已有图像采集线程运行中。

2.1 用例1

单路传统跟踪

仅运行单路传统算法跟踪程序时,单帧处理算法耗时如下,目标后半段过遮挡后有较大波动,其余大约在15ms左右。
alt text

2.2 用例2

单路目标识别+单路目标传统跟踪

目标识别接口自身可异步调用,因此直接同时运行即可。

alt text
同时运行目标识别+目标跟踪算法后,平均耗时提升到18ms,已较难满足50Hz,需要进一步优化程序。
过遮挡时,整体波动更为明显。

2.3 用例3

按照双路目标识别+双路目标传统跟踪

双路目标跟踪采用线程并行

alt text

双路同时识别+跟踪与单路差异不大。双路识别跟踪效果如下:

alt text

此时的CPU占用如下:
alt text

3.结果说明

算能板在2.3G主频下算力较为可观,能够基本满足50Hz对地需要,且双路跟踪与单路的耗时差异不大。
整体上还需要进行一些针对性的优化将稳态耗时降低到15ms附近才能保证跟踪稳定。

对空算法整体资源消耗明显低于对地跟踪算法,且搜索与跟踪容易并行,可以充分利用多核优势,这里不再进行测试。

4.其他问题

目前的算能板功耗和散热需要优化,双路跟踪仅需运行几分钟后,主频即减半,耗时提升一倍。