检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
示”页面,勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后,单击“继续订阅”才能继续进行模型订阅。 模型被订阅后,详情页的“订阅”按钮显示为“已订阅”,订阅成功的资产也会展示在“我的Gallery > 我的资产 > 模型 > 我的订阅”。 使用免费模型
传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份,保证在原数据被破坏或损坏的情况下可以恢复业务。 开发环境故障恢复 针对用户创建的Notebook计算实例,后台计算节点故障后会立即自动迁移到其他可用节点上
xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。 由
D+进程。 "D+"表示进程状态为"Uninterruptible Sleep (usually IO)",即进程正在等待I/O操作完成,此时无法被中断。 在正常情况下,nvidia-smi进程通常只会短暂地出现D+状态,因为它们是由内核控制的,该进程处于等待I/O操作完成的状态,可能是
samples JSON Array 样本列表。样本属性请见表3。 表3 sample样本属性 参数 参数类型 描述 source String 被标注对象的URI,支持OBS、HTTPS、Content。其中Content为文本内容,例如:“source”:“s3://path-to-
准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启 训练作业已被手动终止 训练作业已被终止(最大运行时长:1h)
打开的状态,“no-auto-default=*”含义是关闭DH Client,无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。 当服务器有网卡配置文件, NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager
请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。 使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。
选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后,单击“继续订阅”才能继续进行模型订阅。 Workflow被订阅后,详情页的“订阅”按钮显示为“已订阅”,订阅成功的资产也会展示在“我的Gallery > 我的资产 > Workflow > 我的订阅”。
部分训练任务会在训练过程中生成checkpoint文件,并进行更新。如更新过程中,未删除历史的checkpoint文件,会导致/cache目录逐步被用完。 实际存储空间足够,却依旧报错“No Space left on device”。可能是inode不足,或者是触发操作系统的文件索引缓
系统负载问题:最初测试GPU卡间带宽时,可能存在其他系统负载,如进程、服务等,这些负载会占用一部分网络带宽,从而影响NVLINK带宽的表现。重新安装软件后,这些负载可能被清除,从而使NVLINK带宽恢复正常。 父主题: Lite Server
在推理生产环境中部署推理服务 本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。
Turbo的VPC网段,推荐网段为10.X.X.X。具体操作请参见修改虚拟私有云网段。 如果满足条件,则继续下一步。 查看SFS Turbo的VPC网段的安全组是否被限制了。 在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业,当训练作业处于“运行中”时,通过Cloud Shell功能登录训练作业worker-0实例,使用curl
在推理生产环境中部署推理服务 本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。
详情说明请参见表2。 表2 批量服务页签 参数 说明 事件 展示当前服务使用过程中的关键操作,比如服务部署进度、部署异常的详细原因、服务被启动、停止、更新的时间点等。 事件保存周期为1个月,1个月后自动清理数据。 查看服务的事件类型和事件信息,请参见查看在线服务的事件 日志 展
选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,可以设置同时被重置节点的最高比例。 按实例数量:重置任务包含多个节点时,可以设置同时被重置节点的最大个数。 驱动版本 可以在下拉框中指定重置节点的驱动版本。 图1 重置节点 单击“操作记录”
avg_best_idx 要探索试验的几何分布平均,从按照分数排序的试验中选择 float,一般不建议用户修改 shrink_coef 随着更多的点被探索,邻域采样大小的减少率 float,一般不建议用户修改 父主题: 自动模型优化(AutoSearch)
按堆叠度统计框数量的分布 Overlap Score of Bounding Boxes 横坐标:堆叠度,单个框被其他的框重叠的部分,取值范围为0~1,值越大表示被其他框覆盖的越多。 纵坐标:框数量(统计所有图片中的框)。 主要用于判断待检测物体的堆叠程度,堆叠物体一般对于检测
像详情,在镜像详情页,单击“创建Notebook”,也会跳转到基于该自定义镜像创建Notebook的页面。 镜像保存时,哪些目录的数据可以被保存 可以保存的目录:包括容器构建时静态添加到镜像中的文件和目录,可以保存在镜像环境里。 例如:安装的依赖包、“/home/ma-user”目录
像详情,在镜像详情页,单击“创建Notebook”,也会跳转到基于该自定义镜像创建Notebook的页面。 镜像保存时,哪些目录的数据可以被保存 可以保存的目录:包括容器构建时静态添加到镜像中的文件和目录,可以保存在镜像环境里。 例如:安装的依赖包、“/home/ma-user”目录