检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
附录:工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe
对多卡运行的推理,缺少负载均衡,利用率低。
对多卡运行的推理,缺少负载均衡,利用率低。
对多卡运行的推理,缺少负载均衡,利用率低。
对多卡运行的推理,缺少负载均衡,利用率低。
对多卡运行的推理,缺少负载均衡,利用率低。
大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。 出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。 父主题: 实例故障
安全组起着虚拟防火墙的作用,为服务实例提供安全的网络访问控制策略。安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 否 str cluster_id 专属资源池ID,默认为空,不使用专属资源池。
对多卡运行的推理,缺少负载均衡,利用率低。
在云监控平台查看在线服务性能指标 ModelArts支持的监控指标 为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标
对多卡运行的推理,缺少负载均衡,利用率低。
安全组起着虚拟防火墙的作用,为服务实例提供安全的网络访问控制策略。安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。
自动学习下线公告 【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 【下线公告】华为云ModelArts服务旧版数据集下线公告 【下线公告】华为云ModelArts服务模型转换下线公告 【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表1。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡
准备Notebook(可选) 本步骤为可选操作。ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。 本案例中,如果用户有自定义开发的需要,比如查看和编辑代码、数据预处理、权重转换等操作,可通过Notebook
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 数据集下载 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优
准备权重 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法一:网页下载:通过单击表格中权重文件获取地址的访问链接,即可在模型主页的Files and Version中下载文件。 方法二:huggingface-cli:huggingface-cli
准备镜像 镜像方案说明 ECS获取和上传基础镜像 ECS中构建新镜像(可选) 父主题: 准备工作
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest