检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务升级关系着业务实现,不当的升级操作会导致升级期间业务中断的情况,请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备,做好验证,即可实现业务不中断的无损升级。 表1 支持无损滚动升级的场景 创建模型的元模型来源 服务使用的是公共资源池 服务使用的是专属资源池 从训练中选择元模型
com/SafeAILab/EAGLE/ 版本实现 export ENABLE_SPEC_METRIC=0 # 是否关闭投机推理的metric采集功能,关闭有助于提升投机推理性能,默认关闭 如果需要使用eagle投机推理功能,需要进入 lm_tools/spec_decode/EAGLE文件
源占用过大或者OOM类问题导致的notebook实例异常。 5 disable_profiling_comparison False 否 关闭快慢卡算子比对。对于集群任务的profiling分析,如果存在快慢卡问题则会自动进行集群内部快慢卡的算子性能比对,包括npu侧计算的算子比
#查询nginx进程 ps -ef |grep nginx #关闭所有nginx相关进程 kill -9 {进程ID} #运行run.sh脚本 sh run.sh 也可以执行pkill nginx命令直接关闭所有nginx进程。 #关闭所有nginx进程 pkill nginx #运行run
过滤出相应的工作流。 图1 属性类型 单击搜索框右侧的按钮,可设置Workflow列表页需要展示的内容和展示效果。 表格内容折行:默认为关闭状态。启用此功能可以让Workflow列表页中的内容在显示时自动换行。禁用此功能可截断文本,Workflow列表页中仅显示部分内容。 操作
功能获取相关信息,存在锁死的风险。出现D+进程后可以尝试如下方法: 方法1: 可以根据ps -aux查到的进程号, 使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2: 如果方法1执行后无法消除D+进程, 请尝试重启服务器。 父主题: Lite Server
返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“声音分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 训练完成后,
云服务”模式,客户端请求应答可接受的最长时延为2秒。 - 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息 提供实际模型、网络验证的代码和数据。 提供与业务类型类似的开源模型,例如GPT3 10B/13B。 提供测试模型以及对应的Demo代码路径(开源或共享)。
Stopping service. - 正常 服务已停止。 Service stopped. - 正常 自动停止开关已关闭。 Auto-stop switched off. - 正常 自动关闭功能开启,服务将在xs后停止。 Auto-stop switched on, service will be
返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“物体检测”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 图2 运行成功
健康检查端口是否可以正常工作 自定义镜像中配置了健康检查,需要在测试镜像时,同步测试健康检查接口是否可以正常工作,具体参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。 创建模型界面上配置的健康检查地址与实际配置的是否一致 如果使用的是ModelArts提供的基础镜像创建模型,健康检查URL默认必须为/health。
复制Workflow弹窗,新名称会自动生成(生成规则:原工作流名称 + '_copy')。 用户也可以自行修改新工作流名称,但会有校验规则验证新名称是否符合要求。 新的Workflow名称,必须为1~64位只包含英文、数字、下划线(_)和中划线(-)且以英文开头的名称。 删除Workflow
false:发布时不清除数据集已有的usage信息 train_evaluate_sample_ratio 否 String 发布版本时切分训练验证比例,默认为1.00,即全部分为训练集。 version_format 否 String 数据集版本格式。可选值如下: Default:默认格式
Stopping service. - 正常 服务已停止。 Service stopped. - 正常 自动停止开关已关闭。 Auto-stop switched off. - 正常 自动关闭功能开启,服务将在xs后停止。 Auto-stop switched on, service will be
--filter String 否 镜像名关键字。根据镜像名关键字过滤镜像列表。 -v / --verbose Bool 否 显示详细的信息开关,默认关闭。 -i / --image-id String 否 查询指定镜像ID的镜像详情。 -n / --image-name String 否 查询指定镜像名称的镜像详情。
返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“文本分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 图2 运行成功
com/SafeAILab/EAGLE/ 版本实现 xport ENABLE_SPEC_METRIC=0 # 是否关闭投机推理的metric采集功能,关闭有助于提升投机推理性能,默认关闭 如果需要使用eagle投机推理功能,需要进入lm_tools/spec_decode/EAGLE 文件
如果您使用的是自定义镜像导入的模型,请增大自定义镜像中所使用的web server的keep-alive的参数值,尽量避免由服务端发起关闭连接。如您使用的Gunicorn来作为web server,可以通过Gunicorn命令的--keep-alive参数来设置该值。其他方式导入的模型,服务内部已做处理。
在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
在ECS服务器中安装obsutil工具,具体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作