RVS AI训练/推理失败怎么办?

注意

使用 RVS 1.6 版本进行训练和推理时需要重新下载安装 RVS

原因及解决办法

常见的 RVS 训练失败总结及解决办法如下:

1.请检查 NIVDIA 独立显卡是否正常运行。

2.出现“ CUDA out of memory “的报错。

Python_AITrain_log

解决方案:

可以调整算子参数,可降低 batch_size 或者降低 img_size 。

3.初次训练需要联网下载预训练的权重文件,可能是网络异常导致下载失败。

解决方案:

可进行如下检查:

Linux 版本在根目录下搜索 model_final_f10217.pkl.lock 文件(Windows 版本在 C 盘目录下搜索该文件),检查该文件所在目录是否有 model_final_f10217.pkl 文件。如果没有 model_final_f10217.pkl 文件,可从 RVS 安装目录下的 rvs_sdk 文件夹内找到 model_final_f10217.pkl 文件,将该文件复制到 model_final_f10217.pkl.lock 文件所在目录下。再次进行训练即可。

4.出现 FileNotFoundError

20240605152919

解决方案:

  1. 检查标注数据是否有误。

  2. 检查文件夹结构是否错误。文件夹结构应该包含多个子文件夹,每个子文件夹代表一组图像数据,其中必须包含有一张命名为 xxx.png 的图像以及一个命名为 xxx.json 的标注文件。

    路径中不支持中文与空格。

    image-20240605153839010

  3. 如果后期调整过标注图或者文件的名称,则必须至 rgb.json 中修改路径。

    image-20240605153550023