检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成so
动态挂载OBS 获取动态挂载OBS实例信息列表 获取动态挂载OBS实例信息列表。 动态挂载OBS 在运行态Notebook实例,动态挂载OBS。 获取动态挂载OBS实例详情 获取动态挂载OBS实例详情。 动态卸载OBS 动态卸载OBS。
CPU内核占用量 ma_container_cpu_used_core 该指标用于统计测量对象已经使用的CPU核个数 核(Core) ≥0 NA NA NA CPU内核总量 ma_container_cpu_limit_core 该指标用于统计测量对象申请的CPU核总量。
PD分离部署手动配比调优(推荐) 配比调优理论分析 PD分离部署性能对比对象为相同实例个数、实例使用相同卡数、相同SLO要求下的PD混推性能。 PD性能测评脚本与绘图工具请参考PD分离性能调优工具使用说明章节。
抹零金额 华为云产品定价精度为小数点后8位(单位:元),因此在计费过程中会产生小数点后8位的资源使用费用。而在实际扣费时,仅扣除到小数点后2位,小数点后第3位到第8位部分金额会被舍弃,这种舍弃部分的金额称作抹零金额。
在标注对象中,选择物体的起始点,单击鼠标确定直线的起始点,然后使得直线覆盖标注对象,然后再单击鼠标完成标注。 虚线。也可使用快捷键【5】。在标注对象中,选择物体的起始点,单击鼠标确定虚线的起始点,然后使得虚线覆盖标注对象,然后再单击鼠标完成标注。 点。也可使用快捷键【6】。
重装的包与镜像装CUDA版本不匹配 问题现象 在现有镜像基础上,重新装了引擎版本,或者编译了新的CUDA包,出现如下错误: 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src
中,具体参考代码上传至OBS。
模型管理 使用从训练或者从OBS中选择创建模型,推荐用户使用动态加载的方式导入,动态加载实现了模型和镜像的解耦,便于进行模型资产的保护。用户需要及时更新模型的相关依赖包,解决开源或者第三方包的漏洞。模型相关的敏感信息,需要解耦开,在“在线服务”部署时进行相应配置。
两个参数填写的均是OBS路径。 “数据集输入位置”即原始数据存储的OBS路径。 “数据集输出位置”,指在ModelArts完成数据标注后,执行数据集发布操作后,在此指定路径下,按数据集版本,生成相关目录。包含ModelArts中使用的Manifest文件(包含数据及标注信息)。
验证OBS权限。 在左上角的服务列表中,选择OBS服务,进入OBS管理控制台。 在OBS管理控制台,单击右上角的“创建桶”,如果能正常打开页面,表示当前用户具备OBS的操作权限。 验证SWR权限。 在左上角的服务列表中,选择SWR服务,进入SWR管理控制台。
AI开发的目的是什么 AI开发的目的是将隐藏在一大批数据背后的信息集中处理并进行提炼,从而总结得到研究对象的内在规律。 对数据进行分析,一般通过使用适当的统计、机器学习、深度学习等方法,对收集的大量数据进行计算、分析、汇总和整理,以求最大化地开发数据价值,发挥数据作用。
此处仅介绍关键参数,设置AI应用的详细参数解释请参见从OBS中选择元模型。 根据需要自定义应用的名称和版本。 模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。
快速配置ModelArts委托授权 创建OBS桶(可选) 创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,使用Modelarts Standard进行AI开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS桶中进行存储、读取。
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象 训练日志中出现AttributeError: module '***' has no attribute '***'错误。如:AttributeError
日志提示“Please upgrade numpy to >= xxx to use this pandas version” 问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version
{"key": "name", "operator": "like", "value": ["trainjob"]}]) print(job_list) 参数说明 表1 get_job_list请求参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象
模型的configuration包含了构建模型所需的所有信息的对象,需要尽可能完整。
代码上传至OBS 将AscendSpeed代码包AscendCloud-3rdLLM-905-xxx.zip在本地解压缩后,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。