检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
service_predict.py # 发送请求的服务。支持vllm的openai,atb的tgi模板 ├── ... ├──benchmark_tools #性能评测 ├── benchmark.py # 可以基于默认的参数跑完静态benchmark和动态benchmark
在需要查看的事件左侧,单击展开该事件的详细信息。 单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。 父主题: 使用CTS审计ModelArts服务
dtypes for data must be int, float or bool 原因分析 出现该问题的可能原因如下: 训练数据中出现了非int、float、bool类型数据。 处理方法 可参考如下代码,将错误列进行转换: from sklearn import preprocessing
解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name}
解决方法: 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod,通过delete的方式删除,但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name}
infer_type 否 String 推理方式,取值为:real-time/batch/edge,默认不过滤推理方式。 offset 否 Integer 分页列表的起始页,默认为:“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为:“1000”。 service_status
获取“repo_id”和待上传的文件名。 获取“repo_id” 在AI Gallery页面的资产详情页,单击复制完整的资产名称,如图1所示,获取到的信息即为“repo_id”。例如,复制出的信息为“ur5468675/test_cli_model1”,则该资产的“repo_id”为“u
Server在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。 高危操作风险等级说明: 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。 中:对于可能导致安全风险及可靠性降低的高危操作。 低:高、中风险等级外的其他高危操作。 表1
查看训练作业事件 训练作业的(从用户可看见训练作业开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。 方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示: 训练作业创建成功 训练作业创建失败报错:
图1 运行代码报错 原因分析 根据报错提示,需要排查是否将大量数据被保存在“/tmp”中。 处理方法 进入到“Terminal”界面。在“/tmp”目录下,执行命令du -sh *,查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K
根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用。 处理方法 一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。 当出现此报错时,建议检查并重新填写训练作业的“训练输出路径”,以避免创建作业失败。 父主题: 云上迁移适配故障
(1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library version mismatch 处理方法 执行命令:lsmod | grep
],列表中元素“service_instance”对象即为服务管理章节描述的可调用服务接口。 支持按照检索参数查询服务列表,返回满足检索条件的服务list,检索参数如表1所示。 在查询列表时,返回list的同时,默认会打印模型列表的详细信息,如表2和表3所示。 表1 查询检索参数说明 参数 是否必选
同时该网络的解除关联SFS Turbo按钮置灰不可操作。 图3 关联SFS Turbo状态 原因分析 ModelArts缺少SFS Turbo委托权限导致关联或解除关联失败。 处理方法 需要您给ModelArts配置SFS Turbo委托权限,配置步骤请参考最佳实践的“委托授权ModelArts云服务使用SFS
IDIA驱动后,需要重新加载新版本的内核模块才能使变更生效。 此外,如果使用了多个NVIDIA显卡,每个显卡都需要加载相应的内核模块才能正常工作。在这种情况下,也需要手动执行“nvidia-modprobe”命令来加载所有必要的内核模块。 处理方法 方案1:操作系统内核重新加载nvidia_uvm。
如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。 支持1个VPC下多个子网的打通,如果VPC下有多个子网,会显示“+”,您可单击“+”即可添加子网(上限10个)。 如果需要使用打通VPC的方式实现专属资源池访问公网,由于要访问的公网地址不确定,一般是建议
该报错信息表示验证集中有label在训练集中不存在,可能由于在发布数据集版本进行数据切分时,训练集比例填写为0导致发布的数据全部为验证集,所以出现上述报错。 处理方法 重新发布数据,切分比例为0.8 或者0.9重新创建训练作业进行训练。 父主题: 训练作业运行失败
包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明
包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。