检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用stable-diffusion的典型模型:TextEncoder、VaeEncoder、unet、VaeDecoder、SafetyChecker,没有使用LoRA等动态加载的诉求。 - 模型训练方式 关于推理业务中使用的模型,填写该模型训练时使用的框架以及套件。 例如:模型使用PyTor
此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。 如果没有用户组,也可以创建一个新的用户组,并通过“用户组管理”功能添加用户,并配置授权。如果指定的子用户没有在用户组中,也可以通过“用户组管理”功能增加用户。 使用Cloud Shell 参考前提条件:给子账号配置允许使用Cloud
模型或镜像大小超过限制,请精简模型或镜像后,重新导入。FAQ 异常 用户xxx没有OBS的obs:object:PutObjectAcl权限。 User %s does not have obs:object:PutObjectAcl permission 子用户没有OBS的obs:object:PutObjec
从而执行'dp.start'触发profiling采集。 图3 dynamic_profile 存储profiling数据。 多机场景如果没有挂载共享存储如SFS Turbo,需要将多机上的profiling复制至同一个目录下才能进行性能分析,这个操作相对较为繁琐且耗时。使用Mo
推荐您根据以下使用流程对Lite Cluster进行使用。 资源开通:您需要开通资源后才可使用Lite Cluster,在开通资源前,请确保完成所有相关准备工作,包括申请开通所需的规格和进行权限配置。随后,在ModelArts控制台上购买Lite Cluster资源。请参考Lite Cluster资源开通。
/sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data) sleep 300 y=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data) res=$(($y-$x)) echo
持驱动一致,目标版本可选择当前驱动版本,升级完成后所有节点驱动会升级为统一版本。 升级方式:可选择安全升级或强制升级。 安全升级:待节点上没有作业时再升级,升级周期可能比较长。 强制升级:忽略运行中作业,直接升级,可能会导致运行中作业失败。 开启滚动:开启开关后,支持滚动升级的方
请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 content String 日志内容。如果日志大小没有超过上限(n兆)则返回全部内容,如果日志超过了上限(n兆)则返回最新的n兆的日志。2022/03/01 00:00:00 (GMT+08:
重装后再测试又恢复到了正式模式,GPU0和GPU4之间带宽恢复到370GB/s。 可能原因如下,仅供参考: 驱动程序问题:可能是由于驱动程序没有正确安装或配置,导致NVLINK带宽受限。重新安装nvidia驱动、CUDA和nvidia-fabricmanager等软件后,驱动程序可能已经正确配置,从而解决了这个问题。
csv属于API级,标明每个API是否通过测试。建议用户先查看accuracy_checking_result_{timestamp}.csv文件,对于其中没有通过测试的或者特定感兴趣的API,根据其API name字段在 accuracy_checking_details_{timestamp}
Specification 参数 参数类型 描述 is_open Boolean 是否开放此规格,默认是true;取值为false时,用户需要提工单申请才可使用此规格。 spec_status String 规格状态,取值为: normal:正常。 sellout:售罄,售罄时无法使用此规格部署服务。
FullAccess权限和ModelArts CommonOperations权限只能二选一,不能同时选。 选择说明如下: ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子账号配置此权限。 如果需要给子账号开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts
Turbo文件系统。 云上挂载路径:输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置:输入用户的“子目录挂载”路径。如果默认没有填写,则忽略。 图4 选择SFS Turbo 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.912代码包中AscendCloud-LLM代码包结构如下:
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 软件包结构说明 本教程需要使用到的AscendCloud-6.3.912中的AscendCloud-LLM-xxx
包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.907代码包中AscendClo
AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.907中的AscendCloud-LLM-xxx
已有50条训练作业,单击训练模块后的时间。 6秒 日志加载 作业运行中,已经输出1兆的日志文本,单击训练详情页面需要多久加载出日志。 2.5秒 训练详情页 作业运行中,没有用户日志情况下,在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面 进入JupyterLab页面后加载页面内容。
包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.908代码包中AscendClo
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.911代码包中AscendClo