检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Websphere8.5中部署 选择“新建应用程序 > 新建企业应用程序” 图1 选择 在如下界面下,选择浏览按钮,在本地找到需要部署的包 图2 部署的包 此处注意,长文件名websphere不支持,需要修改文件名。 选择下一步 图3 下一步1 选择下一步 图4 下一步2 继续下一步
IHS的部署 以下操作在WEBSPHEREIHS主机上执行。 之前的操作仅仅是部署了一个应有到一个集群上,但是这个时候负载均衡未时实现,所以需要配置HIS来实现负载均衡. 解压C88TLML_WASND_61_LINUX_X86_64_SUPPLEMENT.tar.gz 解压后执行
创建Weblogic域、集群中辅节点操作 创建Weblogic域 单击“创建”按钮 图1 创建Weblogic域1 图2 创建Weblogic域2 图3 创建Weblogic域3 创建无误后,单击“完成”按钮。 集群中辅节点操作 本例是weblogic双机集群,以上操作均在主节点中完成。
MRS Hive、MRS HBase和MongoDB的Mapping映射手动输入时,是否区分大小写? Mapping映射时会区分大小写,源端字段、目标端字段都必须和所选择的字段大小写一致。若不一致,MRS Hive和MRS HBase将会运行异常,MongoDB数据库不受影响,运行正常。
边缘节点被删除后如何恢复,是只需要再纳管一次,还是要重新注册? 边缘节点被删除后如需恢复,必须重新注册并重新纳管边缘节点。不可以将旧的安装工具和配置文件安装在新的边缘节点上,因为在IEF上注册的边缘节点与实际的边缘节点机器是一对一的关系,一个边缘节点的安装工具和配置文件只能安装在一台实际的边缘节点上。
在WiseDBA中新增数据库账号权限 如果当前账号权限不满足业务需求,可以为账号新增权限。 约束与限制 GaussDB和RDS for PostgreSQL数据库不支此功能。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 新增权限
在WiseDBA中查看数据库接口调用情况 支持查看GeminiDB(for Cassandra)数据库SDS SDK接口调用统计数据,帮助业务快速定位问题接口。 全量接口洞察 可以查看选定时间范围内客户端接口调用多种指标排序、历史趋势,方便用户分析接口调用量、时延、成功率等。 进入AppStage运维中心。
在SLB中配置负载均衡实例共享 AppStage的资源按照服务级隔离,跨服务使用负载均衡实例时,需要配置共享。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置SLB实例共享 进入AppStage运维中心。 在顶部导航栏选择服务。
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 原因分析 未安装VS Code或者安装版本过低。 解决方法 下载并安装VS Code(Windows用户请单击“Win”,其他用户请单击“其他”下载),安装完成后单击“刷新”完成连接。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
语言模型推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范
训练的数据集预处理说明 以 llama2-13b 举例,运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理的过程。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
训练启动脚本说明和参数配置 本代码包中集成了不同模型的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data
训练的数据集预处理说明 以 llama2-13b 举例,运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理的过程。 如果已完成数据集预处理,则直接执行预训练任务。如果未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成