检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在对专属资源池有一定了解后,如果您需要创建一个自己的专属资源池,您可参考创建Standard专属资源池来进行创建。 专属资源池创建成功后,可在查看Standard专属资源池详情中查看专属资源池的详细信息。 如果专属资源池的规格与您的业务不符,可通过扩缩容Standard专属资源池来调整专属资源池的规格。
ma-cli)" 此外,可以通过“ma-cli auto-completion Fish”或“ma-cli auto-completion Fish”命令查看“Zsh”、“Fish”中的自动补全命令。 命令概览 $ ma-cli auto-completion -h Usage: ma-cli auto-completion
1~1 默认值:1 top_k 选择在模型的输出结果中选择概率最高的前K个结果。 取值范围:1~1000 默认值:20 在对话框中输入问题,查看返回结果,在线体验模型服务。 图2 体验模型服务
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 执行如下命令,查看训练环境的cuda版本,确认当前cuda版本是否支持so文件。 os.system("cat /usr/local/cuda/version
面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。 停止 单击指定节点查看详情,可以对运行中的节点进行停止操作。 继续运行 对于单个节点中设置了需要运行中配置的参数时,节点运行会处于“等待操作”状态,用户完成相关
下架镜像 AI Gallery中已上架的资产支持下架操作。 在AI Gallery首页,选择右上角“我的Gallery”。 在“我的资产”下,查看已上架的资产。 单击资产名称,进入资产详情页。 在资产详情页,单击“下架”,在弹窗中单击“确定”。即可将资产下架。 删除镜像 当资产不使用时,支持删除,释放AI
操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超
进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。 单击进入专属资源池详情页面,查看作业列表。 观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。 如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。
专属资源池磁盘空间大小必须超过1T。您可以通过专属资源池详情页面,规格页签,查看专属资源池磁盘信息。当服务部署失败,提示磁盘空间不足时,请参考服务部署、启动、升级和修改时,资源不足如何处理? 图2 查看专属资源池磁盘信息 创建模型 使用大模型创建模型,选择从对象存储服务(OBS)中导入,需满足以下参数配置:
FullAccess权限。 SWR OperateAccess 必选 CES云监控 授予子用户使用CES云监控服务的权限。通过CES云监控可以查看ModelArts的在线服务和对应模型负载运行状态的整体情况,并设置监控告警。 CES FullAccess 必选 SMN消息服务 授予子
程会消耗较长时间。 处理方法 在创建训练作业时,数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。 如果文件较小,可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录,解压以后使用。
ineDistanceThreshold =0.99表示余弦相似度至少为99%,--inputShapes可将模型放入到netron官网中查看。 图1 benchmark对接结果输出示例图 为了简化用户使用,ModelArts提供了Tailor工具便于用户进行Benchmark精
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效。 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性。 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力。 SSH直达节点和容器,一致体验。
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
&& \ chmod 770 /root && \ usermod -a -G root ma-user 其他现象,可以在已有的训练故障案例查找。 建议与总结 用户使用自定义镜像训练作业时,建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。 父主题: 训练作业运行失败
benchmark_parallel.csv 参数说明 --backend:服务类型,支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host:服务部署的IP,${docker_ip}替换为宿主机实 际的IP地址。 --port:推理服务端口。 --
benchmark_parallel.csv 参数说明 --backend:服务类型,支持tgi、vllm、mindspore、openai等后端。本文档使用的推理接口是openai。 --host:服务部署的IP,${docker_ip}替换为宿主机实际的IP地址。 --port:推理服务端口。 --t
errorMessage:None reason:Service Unavailable 如果是client数太多,尤其对于5G以上文件,OBS接口不支持直接调用,需要分多个线程分段复制,目前OBS侧服务端超时时间是30S,可以通过如下设置减少进程数。 # 设置进程数 os.envir
ard”属性中数据信息。 图1 导入manifest文件 导入成功后,数据将自动同步到数据集中。您可以在“数据集”页面,单击数据集的名称,查看详细数据,并可以通过创建标注任务进行数据标注。 文件型数据标注状态 数据标注状态分为“未标注”和“已标注”。 未标注:仅导入标注对象(指待