检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 如果镜像使用ECS中构建新镜像构建的新镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;
'2'”为打印所有的通信信息。“os.environ['PS_RESEND'] = '1'”为在“PS_RESEND_TIMEOUT”毫秒后没有收到ACK消息,Van实例会重发消息。 父主题: 业务代码问题
service due to connection refused. " 出现该报错有两种情况: 流量超过了模型的处理能力。可以考虑降低流量或者增加模型实例数量。 镜像自身有问题。需要单独运行镜像确保镜像本身能正确提供服务。 "error_msg":"Due to self protection
在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有模型对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作。 云监控可以帮助用户更好地了解服务和模型的各项性能指标。 详细内容请参见ModelArts支持的监控指标。 父主题: 安全
nels/my-py3-tensorflow-env/logo-* 进入虚拟环境的IPython Kernel。 刷新JupyterLab页面,可以看到自定义的虚拟环境Kernel。如下所示: 单击my-py3-tensorflow-env图标,验证是否为当前环境,如下所示: 清理环境。
准备镜像 镜像方案说明 ECS获取和上传基础镜像 ECS中构建新镜像(可选) 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
执行训练任务 执行训练任务【新】 执行训练任务【旧】 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
是否使用昇腾 (CANN版本) URL 包含的依赖项 Tensorflow 1.15 是 (CANN 5.1) swr.{region-id}.{局点域名}/atelier/ tensorflow_1_15_ascend:tensorflow_1.15-cann_5.1.0-py_3.7-euler_2
上传单个文件到指定仓库目录 上传整个文件夹 准备工作 获取“repo_id”和待上传的文件名。 获取“repo_id” 在AI Gallery页面的资产详情页,单击复制完整的资产名称,如图1所示,获取到的信息即为“repo_id”。例如,复制出的信息为“ur5468675/test_
例如: 增量训练 分布式训练 训练加速 训练高可靠性 查看训练结果和日志 查看训练作业详情 训练作业运行中或运行结束后,可以在训练作业详情页面查看训练作业的参数设置,训练作业事件等。 查看训练作业日志 训练日志用于记录训练作业运行过程和异常信息,可以通过查看训练作业日志定位作业运行中出现的问题。
_url”。使用“data_url”当做训练数据输入的本地路径。 检查报错的路径是否存在 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。 推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 示例:
specification 是 String 部署本地服务时,取值为“local”。 instance_count 是 Integer 模型部署的实例数,当前限制最大实例数为128,部署本地服务Predictor时,取值为1。 envs 否 Map<String, String> 运行模型需要的环境变量键值对,可选填,默认为空。
保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 镜像版本