检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
指定可用区扩容时,指定可用区的节点数。 表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion
da的镜像,而不是选择一个PyTorch引擎和Cuda都不满足的镜像,如MindSpore+Cuda11.X,这样基础镜像就会很大,同样的操作最终目的镜像就很大。 此外下面举出几种常见的减少镜像大小的方式。 减少目的镜像层数 举例:假设需要安装两个pip包six,numpy,将安装放到同一层,而不是放到不同层:
描述 session 是 Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明
`rope_scaling` must be a dictionary with two fields, `type` and `factor`, 解决方法:该问题通过将transformers升级到4.44.0,修改对应transformers中的transformers/models/llama/modeling_llama
使用自定义镜像创建Notebook后打开没有kernel 问题现象 使用自定义镜像创建实例启动后,打开JupyterLab>新建Notebook,选不到kernel。 原因分析 自定义镜像的python环境没有注册。 解决方案 在Terminal里执行命令排查实例存在几个Conda环境。 conda env list
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 status 否 Integer 数据集版本状态。可选值如下:
`rope_scaling` must be a dictionary with two fields, `type` and `factor`, 解决方法:该问题通过将transformers升级到4.44.0,修改对应transformers中的transformers/models/llama/modeling_llama
0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 status 否 Integer 标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除 update_time 否 Long 更新时间。 worker_id 否 String
可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access
nvidia-fabricmanager.service failed because the control process exited with error code 通过命令查看nvidia-fabricmanager的版本,发现nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致。
题。 将两份梯度数据进行相似度对比。在有标杆问题中,可以确认训练过程中精度问题出现的Step,以及抓取反向过程中的问题。 使用步骤如下: 通过pip安装msprobe工具。 # shell pip install mindstudio-probe 创建配置文件config.json。
训练详情页 作业运行中,没有用户日志情况下,在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面 进入JupyterLab页面后加载页面内容。 0.5秒 Notebook列表页 已有50个Notebook实例,在ModelArts控制台主页面单击开发环境后的时间。
String Pascal VOC格式的XML文件保存路径。 session 否 Object 会话对象,初始化方法请参见Session鉴权。 当需要操作OBS时必填。 save_mode 否 String 保存模式。默认为w,即重写模式,另外还支持a,为追加模式。 父主题: Manifest管理
infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniband驱动需要在制作镜像时安装。 操作步骤 下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz。 进入地址,单击“Download”,选择“Archive
描述 session 是 Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明
Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。 在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh -i <密钥相对路径> -p <端口>
可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access
`rope_scaling` must be a dictionary with two fields, `type` and `factor`, 解决方法:该问题通过将transformers升级到4.44.0,修改对应transformers中的transformers/models/llama/modeling_llama
华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华
是 String Manifest文件保存路径。 session 否 Object 会话对象,初始化方法请参见Session鉴权。 当需要操作OBS时必填。 save_mode 否 String 保存模式。默认为w,即重写模式,另外还支持a,为追加模式。 父主题: Manifest管理