检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
该指标用于统计测量对象的CPU使用率。 百分比(Percent) 0~100% 连续2个周期原始值 > 95% 建议 排查是否符合业务资源使用预期,如果业务无问题,无需处理。 CPU内核占用量 ma_container_cpu_used_core 该指标用于统计测量对象已经使用的CPU核个数
使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配 问题现象 用户使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No
训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查: 检查依赖包是否存在 检查依赖包路径是否能被识别 检查训练作业使用的资源规格是否正确 建议与总结 检查依赖包是否存在 如果依赖包不存在,您可以使用以下两种方式完成依赖包的安装。 方式一(推
Mindspore版本与CANN版本,CANN版本与Ascend驱动/固件版本均有严格的匹配关系,版本不匹配会导致训练失败。 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和文件夹,
大,推荐先通过obsutil工具将数据集传到OBS桶后,再将数据集迁移至SFS。 在本机机器上运行,通过obsutil工具将本地数据集传到OBS桶。 # 将本地数据传至OBS中 # ./obsutil cp ${数据集所在的本地文件夹路径} ${存放数据集的obs文件夹路径} -f
针对已发布的数据集,使用此数据集的Manifest文件,重新导入,此时出现导入失败的错误。 原因分析 针对已发布的数据集,其对应的OBS目录下,发生了数据变化,如删除图片,导致此Manifest文件与当前OBS目录下的数据情况不符。使用此Manifest文件再次导入时,出现错误。 解决方案 方法1(推荐),建
设置输入与输出。需根据实际数据情况选择“数据集”或“OBS目录”。设置为“数据集”时,需填写“数据集名称”和“数据集版本”;设置为“OBS目录”时,需填写正确的OBS路径。 图3 输入输出设置-数据集 图4 输入输出设置-OBS目录 确认参数填写无误后,单击“创建”,完成数据处理任务的创建。
设置输入与输出。需根据实际数据情况选择“数据集”或“OBS目录”。设置为“数据集”时,需填写“数据集名称”和“数据集版本”;设置为“OBS目录”时,需填写正确的OBS路径。 图2 输入输出设置-数据集 图3 输入输出设置-OBS目录 确认参数填写无误后,单击“创建”,完成数据处理任务的创建。
必填,单击右边的“选择”,从容器镜像中选择上一步上传到SWR的镜像。 代码目录 选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。 需要提前将代码上传至OBS桶中,目录内文件总大小要小于或等于5GB,文件数要小于或等于1000个,文件深度要小于或等于32。
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow:停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Notebook:删除Notebook实例。删除存储到OBS中的数据及OBS桶。 停止Notebook实例时
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象 训练日志中出现AttributeError: module '***' has no attribute '***'错误。如:AttributeError:
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
hidden_dropout_prob = hidden_dropout_prob self.attention_probs_dropout_prob = attention_probs_dropout_prob self.max_position_embeddings =
torchair_cache文件夹,避免由于缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.3版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
torchair_cache文件夹,避免由于缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.0版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
"src_path" : "https://infers-data.obs.xxxxx.com/xgboosterdata/", "dest_path" : "https://infers-data.obs.xxxxx.com/output/", "req_uri"