检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NCCL_IB_TC=128:数据包走交换机的队列4通道,这是RoCE协议标准。 NCCL_IB_TIMEOUT=22:把超时时间设置长一点,正常情况下网络不稳定会有5秒钟左右的间断,超过5秒就返回timeout了,改成22预计有二十秒左右,算法为4.096 µs * 2 ^
查询服务更新日志 功能介绍 查询实时服务更新日志。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/logs
25 --width 688 --height 1024 参数说明如下: --width :生成图片的宽 --height: 生成图片的长 --num_inference_steps:推理步数 --dynamo: 使用图模式。如果使用该参数,则首次编译时间较长,请耐心等待。 推
IFA算子(增量decode阶段的flash-attention)是否使用高精度模式;默认值为0表示不开启。针对Qwen2-7B、Qwen2-57b、Qwen2-72B,在长序列下需要开启,否则会有概率性精度异常;其他模型不建议开启,会影响增量时延增加5%~10%。 export USE_PREFIX_HIGH_PRECISION_MODE=1
IFA算子(增量decode阶段的flash-attention)是否使用高精度模式;默认值为0表示不开启。针对Qwen2-7B、Qwen2-57b、Qwen2-72B,在长序列下需要开启,否则会有概率性精度异常;其他模型不建议开启,会影响增量时延增加5%~10%。 export USE_PREFIX_HIGH_PRECISION_MODE=1
"black-forest-labs/FLUX.1-dev" 和 "black-forest-labs/FLUX.1-schnell" h_list :生成图片的长,默认为 [688, 1024] w_list: 生成图片的宽,默认为 [1024, 1024] INFER_STEP:推理步数,默认20步
创建IAM用户并授权使用ModelArts 快速配置ModelArts委托授权章节中介绍的一键式自动授权方式创建的委托的权限比较大,基本覆盖了依赖服务的全部权限。如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用ModelArts服务的其他功能。
API Issues 下图展示了低优先的亲和API替换,通常仅在首次将训练任务从GPU迁移至NPU时需要关注这部分内容。已经在NPU上进行长训的任务出现性能问题,可以忽略该部分。html中提示存在torch_npu.confusion_transpose, 梯度裁剪和亲和优化器等
更新服务配置 功能介绍 更新模型服务配置。也可以使用此接口启停服务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/services/{service_id}
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看。
Lite Cluster资源开通 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如下图所示。 图1 用户侧任务流程 表1 Cluster资源开通流程 任务 说明 Step1 申请开通资源规格 当前部分规格为受限购买,需要提前联系客户经理申请开通资源规格,预计1~3个