【pytorch模型转onnx模型】一些模型转化和加速推理的知识

最近，学习了一些模型转化和加速推理的知识，本文是对学习成果的总结。

对模型的转化，本文实现了pytorch模型转onnx模型和onnx转TensorRT，在转为TensorRT模型的过程中，实现了模型单精度的压缩。

对于加速推理，本文实现GPU环境下的onnxruntime推理、 TensorRT动态推理和TensorRT静态推理。

希望本文能帮助大家。

CUDA版本：11.3.1
cuDNN版本：8.2.1
TensorRT版本：8.0.3.4
显卡：1650
pytorch：1.10.2

模型的转化和推理对版本有要求，如果版本对应不上很可能出现千奇百怪的问题，所以我把我的版本信息列出来给大家做参考。

ONNX，全称： Open Neural Network Exchange（ONNX，开放神经网络交换），是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移。

ONNX是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。它使得不同的人工智能框架（如Pytorch, MXNet）可以采用相同格式存储模型数据并交互。ONNX的规范及代码主要由微软，亚马逊，Facebook 和 IBM 等公司共同开发，以开放源代码的方式托管在Github上。目前官方支持加载ONNX模型并进行推理的深度学习框架有：Caffe2, PyTorch,MXNet，ML.NET，TensorRT和Microsoft CNTK，并且TensorFlow也非官方的支持ONNX。---维基百科

onnx模型可以看作是模型转化之间的中间模型，同时也是支持做推理的。一般来说，onnx的推理速度要比pytorch快上一倍。

onnx模型转换和推理需要安装Python包，如下：

新建模型转换脚本pytorch2onnx.py。

导入需要的包。

打印pytorch版本。

定义input_name和output_name变量。

定义输入格式。

加载pytorch模型。

导出onnx模型，这里注意一下参数opset_version在8.X版本中设置为13，在7.X版本中设置为12。

yolov5中这么写的。

查看转化后的模型，如下图：

推理的写法有两种，一种直接写，另一种将其封装为通用的推理类。

第一种推理写法

先看第一种写法，新建test_onnx.py，插入下面的代码：

导入包

定义get_test_transform函数，实现图像的归一化和resize。

读取图像

对图像做resize和归一化。

增加一维batchsize。

将图片转为数组。

定义onnx_model_path模型的路径。

加载onnx模型。

定义输入。

执行推理。

获取预测结果。

到这里第一种写法就完成了，是不是很简单，接下来看第二种写法。

第二种推理写法

新建onnx.py脚本，加入以下代码：

调用onnx.py实现推理，新建test_onnx1.py插入代码：

输出结果如下：

TensorRT是英伟达推出的一个高性能的深度学习推理（Inference）优化器，可以为深度学习应用提供低延迟、高吞吐率的部署推理。

TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。

TensorRT现已能支持TensorFlow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架，将TensorRT和NVIDIA的GPU结合起来，能在几乎所有的框架中进行快速和高效的部署推理。

TensorRT 是一个C++库，从 TensorRT 3 开始提供C++ API和Python API，主要用来针对 NVIDIA GPU进行高性能推理（Inference）加速。

TensorRT的安装可以参考我以前的文章：

https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/120360288。

本次用的8.X版本的，安装方式一样。

本文实现Python版本的 TensorRT 推理加速,需要安装tensorrt包文件。这个文件不能直接通过pip下载，我在下载的TensorRT安装包里，不过我下载的8.0.3.4版本中并没有，在8.2.1.8的版本中存在这个包文件。

所以我安装了8.2.1.8中的whl文件。

安装方式，进入模型所在的目录，执行：

模型推理用到了pycuda，执行安装命令：

将onnx模型转为TensorRT 模型，新建onnx2trt.py，插入代码：

build_engine函数共有三个参数：

onnx_file_path： onnx模型的路径。

engine_file_path：TensorRT模型的路径。

half：是否使用单精度。

单精度的模型速度更快，所以我选择使用单精度。

通过上面的代码就可以完成模型的转化，下面开始实现推理部分，推理分为动态推理和静态推理。

新建test_trt,py文件，插入代码：

导入需要的包。

定义load_engine函数和get_test_transform函数。

load_engine用于加载TensorRT模型。

get_test_transform实现图像的resize和归一化。

图片的预处理，和onnx一样，最后转为数组。

输出结果：

静态推理

静态推理和动态推理的代码差不多，唯一不同的是不需要

运行结果：