华为云首页用户手册

AI开发平台MODELARTS-自动学习训练作业失败:预测分析作业失败的排查思路

时间：2024-11-22 17:40:39

AI开发平台MODELARTS 模型训练

预测分析作业失败的排查思路

检查用于预测分析的数据是否满足要求。
由于预测分析任务未使用数据管理的功能发布数据集，因此当数据不满足训练作业要求时，会出现训练作业运行失败的错误。

建议检查用于训练的数据，是否满足预测分析作业的要求。要求如下所示，如果数据满足要求，执行下一步检查。如果不满足要求，请根据要求仅需数据调整后再重新训练。
- 文件规范：名称由以字母数字及中划线下划线组成，以'.csv'结尾，且文件不能直接放在OBS桶的根目录下，应该存放在OBS桶的文件夹内。如：“/obs-xxx/data/input.csv”。
- 文件内容：文件保存为“csv”文件格式，文件内容以换行符（即字符“\n”，或称为LF）分隔各行，行内容以英文逗号（即字符“,”）分隔各列。文件内容不能包含中文字符，列内容不应包含英文逗号、换行符等特殊字符，不支持引号语法，建议尽量以字母及数字字符组成。
- 训练数据：训练数据列数一致，总数据量不少于100条不同数据（有一个特征取值不同，即视为不同数据）。训练数据列内容不能有时间戳格式（如：yy-mm-dd、yyyy-mm-dd等）的数据。确保指定标签列的取值至少有两个且无数据缺失，除标签列外数据集中至少还应包含两个有效特征列（列的取值至少有两个且数据缺失比例低于10%）。训练数据的csv文件不能包含表头，否则会导致训练失败。当前由于特征筛选算法限制，标签列建议放在数据集最后一列，否则可能导致训练失败。
由于ModelArts会自动对数据进行一些过滤，过滤后再启动训练作业。当预处理后的数据不满足训练要求时，也会导致训练作业运行失败。
对于数据集中列的过滤策略如下所示：
- 如果某一列空缺的比例大于系统设定的阈值（0.9），此列数据在训练时将被剔除。
- 如果某一列只有一种取值（即每一行的数据都是一样的），此列数据在训练时将被剔除。
- 对于非纯数值列，如果此列的取值个数等于行数（即每一行的数值都是不一样的），此列数据在训练时将被剔除。
经过上述过滤后，如果数据集不再满足第一点中关于训练数据的要求，则会导致训练失败或无法进行。建议完善数据后，再启动训练。
数据集文件有以下限制：
1. 如果您使用2u8g规格，测试建议数据集文件应小于10MB。当文件大小符合限制要求，如果存在极端的数据规模（行数列数之积）时，仍可能会导致训练失败，建议的数据规模低于10000。
  如果您使用8u32g规格，测试建议数据集文件应小于100MB。当文件大小符合限制要求，如果存在极端的数据规模（行数列数之积）时，仍可能会导致训练失败，建议的数据规模低于1000000。
如果上述排查操作仍无法解决，请联系华为云技术支持。