检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图9 注册镜像 Step9 通过openssl创建SSL pem证书 在ECS中执行如下命令,会在当前目录生成cert.pem和key.pem,并将生成的pem证书上传至OBS。证书用于后续在推理生产环境中部署HTTPS推理服务。 openssl genrsa -out key.pem
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoi
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后,m
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoi
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
镜像会以快照的形式保存,保存过程约5分钟,请耐心等待。此时不可再操作实例。 镜像保存成功后,实例状态变为“运行中”,重启Notebook实例。 打开Grafana页面。 新打开一个浏览器窗口,在地址栏输入3中配置的root_url后。出现Grafana登录页面即代表在Notebook中安装和配置Gr
否 16 Int 每个输出序列要生成的最大tokens数量。 top_k 否 -1 Int 控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。 适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在
云技术支持发起运维申请后,按钮会变为可点状态。 在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。 重启节点 在节点的操作列,选择“更多>重启”,支持重启单个节点。也可以勾选节点名称,在节点列表上方单击“重启”,进行批量重启节点操作。重启节点将影响相关业务的运行,请谨慎操作。
llm_inference bash build.sh 运行完后,在当前目录下会生成ascend_vllm文件夹,即为昇腾适配后的vLLM代码。 将生成的ascend_vllm文件夹从ECS中取出并上传至OBS中。 Step10 通过openssl创建SSL pem证书 在ECS中执行如下命令,会在当前目录生成cert
任务和数据,避免过拟合和欠拟合问题,进一步提高模型的泛化能力。 参见表3 调优后模型名称 设置调优后产生的新模型的名称。 参见表3 调优后模型权重存放路径 选择调优后模型权重文件的OBS存放路径。训练后将在指定路径下自动创建以作业ID命名的新文件夹进行权重存储。 /maas-test/news/out
安装固件,安装完后需要reboot重启机器。 chmod 700 *.run # 注意替换成实际的包名 ./Ascend-hdk-型号-npu-firmware_版本号.run --full reboot 安装驱动,提示处输入“y”,安装完后直接生效不用重启机器。 # 注意替换成实际的包名
确认服务的部署区域,获取项目名称和ID、获取帐号名和ID和获取用户名和ID。 操作步骤 调用认证鉴权接口获取用户的Token。 请求消息体: URI格式:POST https://{iam_endpoint}/v3/auth/tokens 请求消息头:Content-Type →application/json
新版本下载失败。 在KeyPair中选择该Notebook实例对应的密钥,选择完成后,单击Apply进行远程Notebook一键配置,等待一段时间后,会出现重启IDE的确认框,单击确认重启,重启后即可生效。 图13 ToolKit连接Notebook配置界面 KeyPair: 需
如果业务受到影响,转硬件换卡 业务可能受到影响终止 Snt3P 300IDuo NPU: 需要重启实例 RebootVirtualMachine 提示 当前故障很可能需要重启进行恢复 在收集必要信息后,重启以尝试恢复 重启可能中断客户业务 Snt3P 300IDuo Snt9B Snt9C NPU:
ocessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。 自定义镜像构建完成,在ModelArts
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 故障恢复 更新管理 认证证书 安全边界
单击目标服务名称,进入服务详情页面,单击右上角“删除”按钮进行删除。 删除操作无法恢复,请谨慎操作。 没有委托授权时,无法删除服务。 重启服务 批量服务不支持重启。 父主题: 管理批量推理作业