RVS AI训练/推理失败怎么办?
注意
使用 RVS 1.6 版本进行训练和推理时需要重新下载安装 RVS 。
原因及解决办法
常见的 RVS 训练失败总结及解决办法如下:
1.请检查 NIVDIA 独立显卡是否正常运行。
2.出现“ CUDA out of memory “的报错。
解决方案:
可以调整算子参数,可降低 batch_size 或者降低 img_size 。
3.初次训练需要联网下载预训练的权重文件,可能是网络异常导致下载失败。
解决方案:
可进行如下检查:
Linux 版本在根目录下搜索 model_final_f10217.pkl.lock
文件(Windows 版本在 C 盘目录下搜索该文件),检查该文件所在目录是否有 model_final_f10217.pkl
文件。如果没有 model_final_f10217.pkl
文件,可从 RVS 安装目录下的 rvs_sdk 文件夹内找到 model_final_f10217.pkl
文件,将该文件复制到 model_final_f10217.pkl.lock
文件所在目录下。再次进行训练即可。
4.出现 FileNotFoundError
解决方案:
-
检查标注数据是否有误。
-
检查文件夹结构是否错误。文件夹结构应该包含多个子文件夹,每个子文件夹代表一组图像数据,其中必须包含有一张命名为 xxx.png 的图像以及一个命名为 xxx.json 的标注文件。
路径中不支持中文与空格。
-
如果后期调整过标注图或者文件的名称,则必须至 rgb.json 中修改路径。