检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String 训练作业的引擎名称。 engine_id Long 训练作业的引擎ID。 engine_version String 训练作业使用的引擎版本。 user_image_url String 自定义镜像训练作业的自定义镜像的SWR-URL。如:“100.125.5.235:2020
得部分任务在不同节点的运行情况不一致,请谨慎操作。存量节点不支持修改容器引擎空间大小。 修改操作系统。在“操作系统”下拉列表中指定操作系统版本。 指定节点计费模式。用户增加节点数量时,可以打开“节点计费模式”开关,为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动
于缓存文件与实际推理不匹配而报错。 若要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,若不开启,目前vllm0.6.0版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
您可以在资源池规格中选择对应的规格进行使用。 “模型来源” 根据您的实际情况选择“自定义模型”或者“订阅模型”。 “选择模型及版本” 选择状态“正常”的模型及版本。 “输入数据目录位置” 选择输入数据的OBS路径,即您上传数据的OBS目录。只能选择文件夹或“.manifest”文件。“
技术支持开启集群的cabinet调度权限。同时,训练作业要满足如下要求才能正常实现ranktable动态路由加速。 训练使用的Python版本是3.7或3.9。 训练作业的实例数要大于或等于3。 路由加速的原理是改变rank编号,所以代码中对rank的使用要统一。 将训练作业完成
Content-Type →application/json 请求Body: { "name": "test_workspace", "description": "It is my workspace", "enterprise_project_id": "0", "auth_type":
的是http,就会遇到上述错误。反之,如果您选择的是http,但镜像里面实际提供的是https,也会遇到类似错误。 您可以创建一个新的模型版本,选择正确的协议(http或者https),重新部署在线服务或更新已有在线服务。 请求预测时间过长 报错:{"error_code": "ModelArts
即可创建专属资源池。 步骤二:使用Docker安装和配置正向代理 购买弹性云服务器ECS,详情请见购买ECS。镜像可选择Ubuntu最新版本。虚拟私有云选择提前创建好的VPC。 申请弹性公网IP EIP,详情请见申请弹性公网IP。 将弹性公网IP绑定到ECS,详情请见将弹性公网IP绑定至实例。
用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 表2 Query参数 参数 是否必选 参数类型 描述 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
String 实验名称,最大长度64,不支持特殊字符。 description 否 String 描述信息,最大长度256,不支持特殊字符。 workspace_id 否 String 工作空间ID,默认为0。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 metadata
缓存文件与实际推理不匹配而报错。 如果要使用eagle投机,配置环境变量,使eagle投机对齐实验室版本实现。目前默认开启此模式,如果不开启,目前vllm0.6.0版本与实验室版本权重无法对齐,会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1
objects Workflow工作流包含的步骤定义。 user_name 否 String 创建Workflow工作流的用户名。 workspace_id 否 String 工作空间ID。 data_requirements 否 Array of DataRequirement objects
iam_user”和“iam_password”;如果使用AK/SK认证,则需要填写配置项“iam_ak”、“iam_sk”和加密配置。 华为账号只能使用AK/SK认证。如果要使用账号密码认证,且必须先创建一个IAM用户再获取IAM用户名和密码进行认证,操作指导请参见创建IAM用户。
这里使用的是Prometheus最基本的功能,如有更高级的诉求,可参考prometheus的官方文档。 步骤五:安装Grafana 运行社区最新发行的Grafana版本: docker run -d -p 3000:3000 grafana/grafana-oss 在BMS页面打开Grafana所在节点的
Cluster节点默认会安装os-node-agent插件,用于对节点进行管理,例如: 驱动升级:通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。 故障检测:通过os-node-agent插件在系统内周期性巡检故障特征,及时发现节点故障。 指标采集:通过os-node-a
创建调试训练作业 调试训练作业 模型训练前,一般会先对代码进行调试,ModelArts提供多种方式创建调试训练作业。 ModelArts提供了云化版本的JupyterLab,无需关注安装配置,即开即用。 ModelArts也提供了本地IDE的方式开发模型,通过开启SSH远程开发,本地ID
WorkflowStep objects Workflow工作流包含的步骤定义。 user_name String 创建Workflow工作流的用户名。 workspace_id String 工作空间ID。 data_requirements Array of DataRequirement objects
分页单次查询返回数。 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v2 kind String 节点池类型。可选值如下: NodePool:节点池池 metadata NodePoolMetadata
单击模型名称,进入模型详情页面,查看模型详情信息。 部署服务并查看详情 在模型详情页面,单击右上角“部署>在线服务”,进入服务部署页面,模型和版本默认选中,选择合适的“实例规格”(例如CPU:2核 8GB),其他参数可保持默认值,单击“下一步”,跳转至服务列表页,当服务状态变为“运行中”,服务部署成功。