检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nt4的权重进行打包。昇腾上使用int8对权重进行打包,在线转换会增加启动时间,可以提前对权重进行转换以减少启动时间,转换步骤如下: 进入llm_tools/AutoAWQ代码目录下执行以下脚本: 执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式,请在转换前备份。
actOutput] properties 节点的属性信息 否 dict policy 节点的执行策略,主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置 否 StepPolicy depend_steps 依赖节点的列表,该字段决定了DAG的结构,也决定了节点执行的顺序
current_consume 否 Integer 当前消费。 current_date 否 String 当前时间。 limit_enable 否 Boolean 限制开关。 created_at 否 String 创建时间。 package_id 否 String 订阅包的UUID。创建时不需要填,由后台自动生成。
0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64-roma-20220309171256-40adcc1 镜像构建时间:20220309171256 (yyyy-mm-dd-hh-mm-ss) 镜像系统版本:Ubuntu 18.04.4 LTS cuda:10
Workforce 参数 参数类型 描述 create_time Long 标注团队的创建时间。 description String 标注团队的描述。 update_time Long 标注团队的更新时间。 worker_count Integer 标注团队的成员总数。 workforce_id
)。例如: 图片、较小视频文件。 异步请求:单次推理,需要异步处理返回结果(约>60s)。例如: 实时视频推理、大视频文件。 创建时间 模型的创建时间。 描述 模型的描述。 操作 部署:将模型发布为在线服务、批量服务或边缘服务。 创建新版本:创建新的模型版本。参数配置除版本外,将
mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training
begin_timestamp Integer 实例排队的开始时间,13位时间戳。 remain_time Integer 排到队的剩余时间,单位为秒。 end_timestamp Integer 实例排队的预计停止时间,13位时间戳。 rank Integer 实例在队列中的排位。 表20
IAM修改委托权限”。 图6 去IAM修改委托权限 进入IAM控制台的委托页面。找到对应的委托信息,修改该委托的基本信息,主要是持续时间。“持续时间”可以选择永久、1天,或者自定义天数,例如 30天。 图7 手动创建的委托 在授权记录页面单击“授权”,勾选要配置的策略,单击下一步
begin_timestamp Integer 实例排队的开始时间,13位时间戳。 remain_time Integer 排到队的剩余时间,单位为秒。 end_timestamp Integer 实例排队的预计停止时间,13位时间戳。 rank Integer 实例在队列中的排位。 表27
置信度,数值类型,范围0<=confidence<=1,表示机器标注的置信度。 creation_time String 创建该标注的时间。是用户写入标注的时间,不是Manifest生成时间。 annotated_by String 标注人。 annotation_format String 描述标注文件的格式。默认为“PASCAL
rk目录下生成excel表格: 性能结果 LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下: 父主题: 训练benchmark工具
任务完成之后会在test-benchmark目录下生成excel表格: 性能结果LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx 表格样例如下: 父主题: 训练benchmark工具
响应Body参数 参数 参数类型 描述 create_time Long 标注团队的创建时间。 description String 标注团队的描述。 update_time Long 标注团队的更新时间。 worker_count Integer 标注团队的成员总数。 workforce_id
只支持自定义镜像导入模型部署的在线服务。 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 SSE在线服务调用 SSE协议本身不提供额外的认证方式,和HTTP请求方式一致。
value 否 Long 付费工作流可使用的时间值。 响应参数 状态码:201 表4 响应Body参数 参数 参数类型 描述 result String 认证结果。 请求示例 对在线服务进行鉴权。设置付费工作流计费周期为“day”,付费工作流可使用的时间为“100”。 POST https
mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training
0:标注人员(默认值) 1:审核人员 2:团队管理员 sort_by 否 String 指定查询的排序方式。可选值如下: create_time:按创建时间排序(默认值) email:按邮件排序 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 total_number
prompt和多轮对话场景首token时延,提升用户体验。其优势主要包括: 更短的prefill时间:由于跨请求的重复token序列对应的KV Cache可以复用,那么就可以减少一部分前缀token的KV Cache计算时间,从而减少prefill的时间。 更高效的显存使用:当正在处理的请求相互之间存在公共前缀时,公共前缀部分的KV
RunningRecord 参数 参数类型 描述 start_at Integer 本次运行开始时间的unix时间戳,单位为秒(s)。 end_at Integer 本次运行结束时间的unix时间戳,单位为秒(s)。 start_type String 本地运行的启动方式: init_