检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
超过最大递归深度导致训练作业失败 问题现象 ModelArts训练作业报错: RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练失败。
附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
ModelArts的Notebook实例upload后,数据会上传到哪里? 针对这个问题,有两种情况: 如果您创建的Notebook使用OBS存储实例时 单击“upload”后,数据将直接上传到该Notebook实例对应的OBS路径下,即创建Notebook时指定的OBS路径。
分布式Tensorflow无法使用“tf.variable” 问题现象 多机或多卡使用“tf.variable”会造成以下错误: WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法:
日志文件的大小达到限制 问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:90), process
场景介绍 本小节通过一个具体问题案例,介绍模型精度调优的过程。 如下图所示,使用MindSpore Lite生成的图像和onnx模型的输出结果有明显的差异,因此需要对MindSpore Lite pipeline进行精度诊断。 图1 结果对比 在MindSpore Lite 2.0
在ModelArts中同一个账户,图片展示角度不同是为什么? 有的图片存在旋转角度等属性,不同的浏览器的处理策略不同,对浏览器的兼容性如表1和表2所示。 L代表last,L3-产品版本上线时最新的3个稳定浏览器版本。 如果您当前使用的浏览器版本过低,将在一定程度上影响页面的显示效果,系统会提示您尽快对浏览器进行升级。
训练作业找不到GPU 问题现象 训练作业运行出现如下报错: failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。
日志提示“Out of bounds nanosecond timestamp” 问题现象 在使用pandas.to_datetime转换时间时,出现如下报错: pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of
订阅的模型一直处于等待同步状态 问题现象 订阅的模型一直处于等待同步状态。 原因分析 订阅的模型一直处于等待同步状态,可能原因如下: 由于ModelArts的数据存储、模型导入以及部署上线等功能依赖OBS、SWR等服务,需获取依赖服务的授权后,才能正常使用ModelArts的相关功能。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(
创建导入任务 支持从OBS中导入新的数据,导入方式包括目录导入和Manifest文件导入。 dataset.import_data(path=None, anntation_config=None, **kwargs) 不同类型的数据集支持的导入方式如表1所示。 表1 不同数据集支持的导入方式
快速开始 ModelArts SDK目前仅支持在ModelArts开发环境Notebook和本地PC两种环境使用。 ModelArts SDK不支持在训练作业和在线服务中使用。 ModelArts SDK已经集成在ModelArts开发环境Notebook中,可以直接使用,无需进行Session鉴权。
作业状态参考 作业状态如表1所示。 表1 作业状态 状态值 作业状态说明 0 JOBSTAT_UNKNOWN,作业状态未知。 1 JOBSTAT_INIT,作业初始化状态。 2 JOBSTAT_IMAGE_CREATING,作业镜像正在创建。 3 JOBSTAT_IMAGE_FAILED,作业镜像创建失败。
创建标注任务 基于数据集创建标注任务。 dataset.create_label_task(self, task_name=None, task_type=None, **kwargs) 示例代码 示例一:基于图像类型的数据集创建物体检测标注任务。 from modelarts.session
解析Pascal VOC文件 解析xml文件支持本地和OBS,如果是OBS,需要Session信息。 PascalVoc.parse_xml(xml_file_path, session=None) 示例代码 指定xml路径,通过调用parse_xml来解析获取xml文件的信息。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池