华为云用户手册

  • 功能简介 将用户本地数据通过DIS通道不断上传至DIS服务。 目前数据支持存储至DIS和 对象存储服务 (Object Storage Service,简称OBS) MapReduce服务 (MapReduce Service,简称 MRS )、 数据仓库 服务(Data Warehouse Service,简称DWS)、 数据湖探索 (Data Lake Insight,简称 DLI ),具体存储位置在新增转储任务的“数据转储”中配置。 DIS为临时存储器,存储在DIS中的数据最长保留时间为步骤 3中配置的“生命周期”的值。
  • 查看通道监控信息 用户可以通过控制台查看通道的监控信息,支持按照App维度监控App在通道中消费的数据信息。 使用注册账户登录DIS控制台。 单击管理控制台左上角的,选择区域和项目。 在左侧列表栏中选择“通道管理”。 单击需要查看监控信息的通道名称,进入监控页面。 根据实际情况在“通道管理”页面选择“通道监控”或“分区监控”页签,查看各监控项情况。监控信息参数说明如表1所示。其中,通道基本信息的参数说明请参见表1。 表1 DIS监控信息参数说明 参数 说明 时间范围 选择查看监控信息的时间段,可查看所选时间范围内的监控信息。 取值范围: 1h 3h 12h 可自定义查看监控信息的时间段。 单击“自定义”页签后的,分别设置开始时间和结束时间。 其中,结束时间不能晚于当前的系统时间。 开始时间与结束时间的差值不超过72h。 分区监控 分区编号 流分区编号,默认从0开始。取值方式:从下拉框选择。 该分区的总输入/输出流量(KB/秒) 用户指定时间范围内,指定分区的输入/输出流量。单位:KB/s。 该分区的总输入/输出记录数(个/秒) 用户指定时间范围内,指定分区的输入/输出记录数。单位:个/秒。 通道监控 总输入/输出流量(KB/秒) 用户指定时间范围内,指定通道的输入/输出流量。单位:KB/s。 总输入/输出记录数(个/秒) 用户指定时间范围内,指定通道的输入/输出记录数。单位:个/秒。 上传/下载请求成功次数(个/秒) 用户指定时间范围内,指定通道的上传/下载请求成功次数。单位:个/秒。 因流控拒绝的上传/下载请求次数(个/秒) 用户指定时间范围内,指定通道因流控拒绝的上传/下载请求次数。单位:个/秒。 上传/下载请求平均处理时间(毫秒/个) 用户指定时间范围内,指定通道的上传/下载请求平均处理时间。单位:毫秒/个。 当在消费通道中提交了checkpoint操作,如何提交请参见新增Checkpoint,支持按照App维度监控App在通道中消费的数据信息。根据实际情况在“通道管理”页面选择“通道监控”,开启“App监控”,设置App名称,即可查看。 图1 App监控 在监控指标视图右上角,单击可放大查看监控指标视图详情。 通过调整放大视图游标位置,可查看游标范围内时间段的监控指标详情。 游标范围所定义的时间段,隶属于监控面板设置的时间段子集。 图2 调整游标 父主题: 管理通道
  • Linux服务器上安装DIS Agent 使用PuTTY工具登录日志所在服务器,即检查依赖的服务器。 将获取DIS Agent包中获取的“dis-agent-X.X.X.zip”安装包上传到“/opt”文件夹中。 解压“dis-agent-X.X.X.zip”压缩包。 unzip dis-agent-X.X.X.zip 进入“dis-agent-X.X.X”文件夹。 cd dis-agent-X.X.X
  • Windows服务器上配置DIS Agent 使用文件管理器进入安装包解压后的目录,例如“C:\dis-agent-X.X.X”。 使用编辑器打开“agent.yml”文件,根据实际情况修改各配置项的值并保存。 “agent.yml”文件为linux格式,建议使用通用文本编辑器工具编辑文件。 关于日志文件的补充说明: 在dis-agent程序的安装路径下,logs目录中存放程序运行产生的日志文件,其中dis-agent.log文件记录程序运行状况,dis-agent-2022-10-28.log等带日期的log文件记录文件上传记录,每天生成一个日志文件。 为此,用户也可以在dis-agent程序安装路径下的conf文件夹修改log4j2.xml文件,自定义log文件的存放位置(如下图红框所示位置修改)。 图2 log4j2
  • Linux服务器上配置DIS Agent 使用PuTTY 工具登录日志所在服务器。 执行cd /opt/dis-agent-X.X.X/命令,进入“dis-agent-X.X.X”文件夹。 执行vim conf/agent.yml命令,打开DIS Agent配置文件“agent.yml”,根据实际情况修改各配置项的值并保存,配置项说明请参见表1。 表1 agent.yml配置文件说明 配置项 是否必填 说明 默认值 region 是 DIS服务所在区域。 说明: 获取DIS区域请参见终端节点及区域说明。 cn-north-1 AK 是 用户的Access Key。 说明: 支持用户自己加密AK以保证安全,也可以使用明文的AK,如若需要对AK加密,请查看表格下关于AK/SK加密的使用说明。 获取方式请参见检查认证信息。 请根据实际情况配置 SK 是 用户的Secret Key。 说明: 支持用户自己加密SK以保证安全,也可以使用明文的SK,如若需要对SK加密,请查看表格下关于AK/SK加密的使用说明。 获取方式请参见检查认证信息。 请根据实际情况配置 encrypt.key 否 用户加密时使用key值。 说明: 如果用户需要使用加密的AK或者SK,则必须配置该参数(自己在agent.yml文件中添加),请务必保证加密时使用的key值和此处写的encrypt.key保持一致,否则将会解密失败。 请根据实际情况配置 projectId 是 用户所属区域的项目ID。 获取方式请参见检查认证信息。 请根据实际情况配置 endpoint 是 DIS数据网关地址。 格式:https://DIS终端节点。 说明: 获取DIS终端节点请参见终端节点及区域说明。 https://dis.cn-north-1.myhuaweicloud.com body.serialize.type 否 DIS数据包上传格式。(非原始数据格式) json:DIS数据包封装为json格式,满足普通使用。 protobuf:DIS数据包封装为二进制格式,可以减少体积约1/3,在数据量较大的情况下推荐使用此格式。 json body.compress.enabled 否 是否开启传输数据压缩。 false body.compress.type 否 开启压缩时选择的数据压缩格式,目前支持的压缩格式如下: lz4:综合来看效率最高的压缩算法,更加侧重压缩解压速度,压缩比并不是第一。 zstd:一种新的无损压缩算法,旨在提供快速压缩,并实现高压缩比。 lz4 PROXY_HOST 否 配置代理IP,请求走代理服务器的需要配置。 请根据实际情况配置 PROXY_PORT 否 配置代理端口。 80 PROXY_PROTOCOL 否 配置代理协议。支持http和https。 http PROXY_USERNAME 否 配置代理用户名。 请根据实际情况配置 PROXY_PASSWORD 否 配置代理密码。 请根据实际情况配置 [flows] 监控的文件信息,可同时配置多个监控文件信息。 当前支持如下模式上传: DISStream:持续监控文本文件,实时收集增量数据按分隔符解析并上传到DIS通道(通道源数据类型为BLOB/JSON/ CS V),配置项说明请参见表2。 具体配置格式可以参见版本包中的“agent.yml”的样例。 关于AK/SK加密的使用说明: 参照安装DIS Agent下载安装dis-agent,利用dis-agent包中bin目录下的脚本对AK和SK进行加密,按照如下所示步骤进行操作(windows环境下): 进入到dis-agent的bin目录中,右键git bash here运行脚本,示例: ./dis-encrypt.sh {key} {ak},即可得到加密后的AK,将其配置在“agent.yml“配置文件中,SK同理。 按上述操作将AK和SK加密之后,将加密后的AK/SK,key全部配置到"agent.yml”即可。 图1 加密示例 表2 DISStream配置项说明 配置项 是否必填 说明 默认值 DISStream 是 DIS 通道名称。 将“filePattern”所匹配到的文件内容按分隔符解析并上传到此通道。 请根据实际情况配置 filePattern 是 文件监控路径,只能监控一个目录下的文件,无法递归目录监控。 如果要监控多个目录,可以在flows下面配置多个“DISStream”,文件名可使用“*”进行匹配。 “/tmp/*.log”表示匹配“/tmp”目录下所有以“.log”结尾的文件。 “/tmp/access-*.log”表示匹配“/tmp”目录下所有以“access-”开头,以“.log”结尾的文件。 Windows上路径范例为“D:\logs\*.log”。 请根据实际情况配置 directoryRecursionEnabled 否 是否查找子目录 false:不递归查找子目录,只匹配根目录下的文件 true: 递归查找所有子目录。如filePattern配置为/tmp/*.log,此时可以匹配到/tmp/one.log,/tmp/child/two.log,/tmp/child/child/three.log false initialPosition 否 监控起始位置。 END_OF_FILE:开始启动时不解析当前匹配的文件,而是从新增文件或新增的内容开始按分隔符解析并上传。 START_OF_FILE:将“filePattern”配置的所有匹配文件按照修改时间,从旧到新按分隔符解析并上传到DIS服务。 START_OF_FILE maxBufferAgeMillis 否 最长上传等待时间。 单位:毫秒 记录队列满则立即上传。 记录队列未满,等待此配置项配置的时间后上传到DIS服务。 5000 maxBufferSizeRecords 否 记录队列缓存的最大记录数,如果队列达到此值则立刻上传这批数据。 500 partitionKeyOption 否 每条记录会携带一个PartitionKey,相同PartitionKey的记录会分配到同一个分区。此配置项可设置每条记录的PartitionKey值,取值如下: RANDOM_INT:PartitionKey的值为随机数字的字符串,记录均匀分布在每个分区。 FILE_NAME:PartitionKey的值为文件名称字符串,记录分布在特定的一个分区中。 FILE_NAME,RANDOM_INT:PartitionKey的值为文件名称字符串与随机数字字符串的组合体,以英文逗号分隔,记录携带所属的文件名并均匀分布在所有分区。 RANDOM_INT recordDelimiter 否 每条记录之间的分隔符。 取值范围:任意一个字符,且包含在双引号内。 取值不可为空,即该配置项不可配置为“”。 说明: 如果取值为特殊字符,使用反斜杠(\)转义,如分隔符为引号("),可配置为"\"",如果为反斜杠(\),可配置为"\\"。 如果为控制字符如STX(正文开始),可配置为"\u0002"。 "\n" isRemainRecordDelimiter 否 上传记录时,是否携带分隔符。 true:携带分隔符。 false:不携带分隔符。 false isFileAppendable 否 文件是否有追加内容的可能。 true:文件可能会追加内容。Agent持续监控文件,若文件追加了内容则根据recordDelimiter解析后上传记录。此时要保证文件以recordDelimiter结尾,否则Agent会认为文件追加未完成,继续等待recordDelimiter写入。 false:文件不会追加内容。文件最后一行不以recordDelimiter结尾,Agent仍会当做最后一条记录上传,上传完成后根据“deletePolicy”和“fileSuffix”的配置执行文件删除或重命名操作。 true maxFileCheckingMillis 否 最长文件变动检查时间,如果文件在此时间内“大小”、“修改时间”和“文件ID”都没有变化,则认为文件已经完成并开始上传。 请根据实际文件变动的频率配置此值,避免文件未完成已开始上传的情况。 若文件上传后有变动,则会重新全量上传。 单位:毫秒 说明: “isFileAppendable”配置为“false”时该配置项生效。 5000 deletePolicy 否 文件内容上传完成之后的删除策略。 never:文件内容上传完毕后不删除文件。 immediate:文件内容上传完毕后删除文件 。 说明: “isFileAppendable”配置为“false”时该配置项生效。 never fileSuffix 否 文件内容上传完成之后添加的文件名后缀。 例如:原文件名为“x.txt”,“fileSuffix”配置为“.COMPLETED”,则文件上传后的命名为“x.txt.COMPLETED”。 说明: “isFileAppendable”配置为“false”,同时“deletePolicy”配置为“never”,该配置项生效。 .COMPLETED sendingThreadSize 否 发送线程数。默认单线程发送。 须知: 使用多线程会导致如下问题: 数据发送不保证顺序。 程序异常停止并重新启动时会丢失部分数据。 1 fileEncoding 否 文件编码格式,支持UTF8, GBK, GB2312, ISO-8859-1等 UTF8 resultLogLevel 否 每次调用DIS数据发送接口后的结果日志级别。 OFF:日志中不输出每次接口调用的结果。 INFO:每次接口调用的结果以INFO级别输出到日志。 WARN:每次接口调用的结果以WARN级别输出到日志。 ERROR:每次接口调用的结果以ERROR级别输出到日志。 INFO
  • 操作步骤 使用PuTTY工具(或其他终端工具)远程登录Flume服务器。 进入到Flume的安装目录。 cd ${FLUME_HOME} 上传“dis-flume-plugin-X.X.X.zip”安装包到此目录下。 解压安装包。 unzip dis-flume-plugin-X.X.X.zip 进入安装包解压后的目录。 cd dis-flume-plugin 运行安装程序。 bash install.sh DIS Flume Plugin安装在“${FLUME_HOME}/plugin.d/dis-flume-plugin”目录下,安装完成后,显示类似如下内容,表示安装成功。 Install dis-flume-plugin successfully.
  • 验证DIS Source 使用PuTTY工具远程登录Flume所在服务器。 确认已配置好包含dis source的配置文件 可基于Flume自带的flume-conf.properties.template修改,文件样例如下所示: agent.sources = dissourceagent.channels = memoryChannelagent.sinks = loggerSink# 定义 Source (使用dis source,从DIS读取数据)agent.sources.dissource.channels = memoryChannelagent.sources.dissource.type = com.cloud.dis.adapter.flume.source.DISSource agent.sources.dissource.streams = YOU_DIS_STREAM_NAMEagent.sources.dissource.ak = YOU_AC CES S_KEY_IDagent.sources.dissource.sk = YOU_SECRET_KEY_IDagent.sources.dissource.region = YOU_Regionagent.sources.dissource.projectId = YOU_PROJECT_IDagent.sources.dissource.endpoint = https://dis.${region}.cloud.comagent.sources.dissource.group.id = YOU_APP_NAME# 定义 Channelagent.channels.memoryChannel.type = memoryagent.channels.memoryChannel.capacity = 10000# 定义 Sink (使用logger sink,输出到控制台)agent.sinks.loggerSink.type = loggeragent.sinks.loggerSink.channel = memoryChannel 启动Flume程序,启动命令请参考Apache Flume官网指导。 如果从Flume安装目录启动,示例命令如下所示: bin/flume-ng agent --conf-file conf/flume-conf.properties.template --name agent --conf conf/ -Dflume.root.logger=INFO,console 其中bin/flume-ng agent表示启动Flume Agent;--conf-file 为用户编写的配置文件路径; --name 为配置文件中agent的名称, --conf 为Flume自带的conf/路径 启动之后查看日志,若日志中有类似“source disSource started.”内容,表示DIS Source正常启动,其中“disSource”是用户配置的source名称。 检查DIS Source下载数据是否正常。 向source指向的通道上传数据,如果flume没有报错且sink端能正常获取到数据,表示下载正常。 如果使用步骤 2中示例的配置,则从DIS获取的数据会输出到控制台上,其内容显示为字节数组格式。 登录DIS控制台,等待2分钟后,查看表1中“streams”配置的通道的监控。如果显示有数据下载(蓝色线条),表示DIS Source运行成功。
  • 验证DIS Sink 使用PuTTY工具远程登录Flume所在服务器。 确认已配置好包含dis sink的配置文件 可基于Flume自带的flume-conf.properties.template修改,文件样例如下所示: agent.sources = execagent.channels = memoryChannelagent.sinks = dissink# 定义 Source (使用exec source,监控/tmp/dis.txt文件)agent.sources.exec.type = execagent.sources.exec.command = tail -F /tmp/dis.txtagent.sources.exec.shell = /bin/bash -cagent.sources.exec.channels = memoryChannel# 定义 Channelagent.channels.memoryChannel.type = memoryagent.channels.memoryChannel.capacity = 10000# 定义 Sink (使用dis sink,输出到dis通道)agent.sinks.dissink.channel = memoryChannelagent.sinks.dissink.type = com.cloud.dis.adapter.flume.sink.DISSinkagent.sinks.dissink.streamName = YOU_DIS_STREAM_NAMEagent.sinks.dissink.ak = YOU_ACCESS_KEY_IDagent.sinks.dissink.sk = YOU_SECRET_KEY_IDagent.sinks.dissink.region = YOU_Regionagent.sinks.dissink.projectId = YOU_PROJECT_IDagent.sinks.dissink.endpoint = https://dis.${region}.myhuaweicloud.comagent.sinks.dissink.resultLogLevel = INFO 启动Flume程序,启动命令请参考Apache Flume官网指导。 如果从Flume安装目录启动,示例命令如下所示 bin/flume-ng agent --conf-file conf/flume-conf.properties.template --name agent --conf conf/ -Dflume.root.logger=INFO,console 其中bin/flume-ng agent表示启动Flume Agent;--conf-file 为用户编写的配置文件路径; --name 为配置文件中agent的名称, --conf 为Flume自带的conf/路径。 查看日志,若日志中有类似“Dis flume sink [dissink] start.”内容,表示DIS Sink正常启动,其中“dissink”是用户配置的sink名称。 检查DIS Sink上传数据是否正常。 向Flume的source端输入数据,在DIS Sink的resultLogLevel级别不为OFF且不低于log4j配置的值,查看日志输出类似如下结果,表示DIS Sink上传数据正常。 CurrentPut 5 events[success 5 / failed 0] spend 131 ms. 如果使用步骤 2中示例的配置,您可创建/tmp/dis.txt文件,并在此文件中追加内容。则启动Flume之后,追加的每行内容会被Flume读取并通过dis sink插件发动到DIS通道中。 登录DIS控制台,等待2分钟后,查看表2中“streamName”配置的通道的监控。如果显示有数据上传(绿色线条),表示DIS Sink运行成功。
  • 配置DIS Source 表1 DIS Source配置项说明 配置项 是否必填 说明 默认值 channels 是 Flume channel的名称。 请根据实际情况配置 type 是 Source的类型。 com.cloud.dis.adapter.flume.source.DISSource streams 是 指定在DIS服务上创建的通道名称。 与DIS控制台“购买接入通道”时配置的“通道名称”取值一致。 ak 是 用户的Access Key。 获取方式请参见检查认证信息。 请根据实际情况配置 sk 是 用户的Secret Key。 获取方式请参见检查认证信息。 请根据实际情况配置 region 是 将数据上传到指定Region的DIS服务。 请根据实际情况配置 projectId 是 用户所属区域的项目ID。 获取方式请参见检查认证信息。 请根据实际情况配置 endpoint 是 DIS对应Region的数据接口地址。 请根据实际情况配置 group.id 是 DIS App名称,用于标识一个消费组,由英文字符、数字、-、_组成。 请根据实际情况配置
  • 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的名称、描述,让资产更吸引人。也可以修改资产的可见性。 编辑Notebook介绍 在Notebook详情页,单击“项目介绍”。 在基础设置中设置“许可证”、“语言”、“框架”、“任务类型”和“硬件资源”等信息。 单击“确定”。 编辑设置 基本设置 单击右侧的,可以更改Notebook名称和描述。 编辑完成之后单击“确定”。 关联资产 在输入框中输入资产ID后,单击“关联”即可关联其他资产,更方便其他使用者进行查找。算法可以关联数据集资产。 选择“关联资产”,在输入框中输入待关联资产的ID,单击“关联”。 在弹出的“资产信息”页面,单击“确定”即可关联资产。 可见范围设置 您可以选择更改您的资产可见性,可选择“公开”或“私密”(私密状态下,也可以选择“仅自己可见”或“指定成员可见”)。 在编辑资产详情时,请勿输入涉政、迷信、违禁等相关敏感词汇。
  • 安装Gallery CLI配置工具 当Gallery CLI配置工具包下载完成后,进入服务器安装工具。不管是ModelArts Lite云服务,还是本地Windows/Linux等服务器,安装操作都相同。 登录服务器,激活python虚拟环境。 conda activate [env_name] # 例如使用conda管理python环境(需要确认环境已安装Anaconda) 在python环境中安装CLI工具。 pip install ./gallery_cli-0.0.3-py3-none-any.whl 配置CLI工具的环境信息。 在服务器的任意目录下(本文以“/gallerycli”为例)新建CLI配置文件“config.env”,包含如下配置信息。 # IAM 相关配置iam_url=https://iam.myhuaweicloud.com/v3/auth/tokensiam_project=cn-north-7iam_timeout=15# 账号密码,和AK/SK二选一iam_domain=xxxiam_user=xxxiam_password=xxx# AK/SK,和账号密码二选一iam_ak=xxxiam_sk=xxx# 托管仓库相关配置repo_url=https://{ModelArts-Endpoint}.myhuaweicloud.com# 系统相关配置cached_dir=/test# 加解密配置sdk_encrypt_implementation_func=/path/to/crypt.py.my_encrypt_funcsdk_decrypt_implementation_func=/path/to/crypt.py.my_decrypt_func 表1 配置项参数说明 参数名称 说明 iam_url IAM地址,默认为“https://iam.myhuaweicloud.com/v3/auth/tokens”。 iam_project 服务器所在区域的项目名称,获取方式请参见获取项目ID和名称。如果是本地服务器则默认是北京四区域,此处填写“cn-north-4”。 iam_timeout (可选)IAM访问超时时间,单位为秒,缺省值是5。当环境网络不稳定时,建议将该值改大。如果超过该时间IAM还没有响应,系统会返回超时错误码,便于定位链接故障。 iam_domain 用户的账号ID,获取方式请参见获取账号名和账号ID。 iam_user IAM用户名,获取方式请参见获取用户名和用户ID。 iam_password IAM用户密码,即账号的登录密码。 iam_ak 访问密钥AK,获取方式请参见访问密钥。 iam_sk 访问密钥SK,获取方式请参见访问密钥。 repo_url AI Gallery仓库的地址,格式为“http://{ModelArts-Endpoint}.myhuaweicloud.com”,其中不同区域的Endpoint可以在ModelArts地区和终端节点获取。 cached_dir 缓存目录,默认AI Gallery仓库的文件下载至该目录下。 sdk_encrypt_implementation_func 自定义加密函数,认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件中密文存放,使用时解密,确保安全。 sdk_decrypt_implementation_func 自定义解密函数,认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件中密文存放,使用时解密,确保安全。 配置文件中,账号密码认证和AK/SK认证二选一即可。如果使用账号密码认证,则需要填写配置项“iam_domain”、“iam_user”和“iam_password”;如果使用AK/SK认证,则需要填写配置项“iam_ak”、“iam_sk”和加密配置。 华为账号只能使用AK/SK认证。如果要使用账号密码认证,且必须先创建一个IAM用户再获取IAM用户名和密码进行认证,操作指导请参见创建IAM用户。 配置项中的认证凭据信息不建议使用明文,可以通过下述方式扩展自定义的加解密组件。 在module(yourmodule)自定义一个解(加)密方法,例如decrypt_func(cipher),要求可以通过“from yourmodule import decrypt_func”的方式获取认证凭据信息。 在配置文件中配置“sdk_decrypt_implementation_func=yourmodule.decrypt_func”指向自定义的解密方法的引用。程序加载时会通过import_lib加载认证凭据信息。 配置文件中配置密文的格式“iam_ak={Crypto}cipher”,其中cipher会在配置项读取认证凭据信息时被解析传递进decrypt_func方法中,进行解密。 其他类似自定义加密的方法,会在保存Token到本地时进行加密。 配置CLI工具的环境变量,指定到上一步新建的配置文件。 export SDK_CONFIG_PATH=/gallerycli/config.env # 填写正确的config.env路径 配置完成后,执行如下命令查看CLI工具是否安装成功。 gallery-cli --help 如果安装成功会显示CLI中所有可用选项的列表,如下所示。 Usage: gallery-cli [OPTIONS] COMMAND [ARGS]...╭─ Options ──────────────────────────────────────────────────────────────────────────────────────────────────────────────╮│ --install-completion Install completion for the current shell. |│ --show-completion Show completion for the current shell, to copy it or customize the installation. |│ --help Show this message and exit. |╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯╭─ Commands ─────────────────────────────────────────────────────────────────────────────────────────────────────────────╮│ download Download files from the AI Gallery |│ login Log in using ak sk from huawei cloud iam |│ logout Log out |╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯ “--help”选项可以用于获取命令的更多详细信息,可以随时使用它来列出所有可用选项及其详细信息。例如,“gallery-cli download --help”可以获取使用CLI下载文件的更多帮助信息。
  • 约束限制 Gallery CLI配置工具下载文件时依赖集群的公网访问权限,所以在使用CLI时要求集群配置NAT网关,具体操作请参见公网NAT网关。 只有托管到AI Gallery仓库的资产才支持使用Gallery CLI配置工具下载文件,如果在资产详情页有“复制完整资产名称”按钮即表示该资产支持使用Gallery CLI配置工具下载,如图1所示。 图1 复制完整资产名称 “运行平台”设置为“Pangu Studio”的数据集,不支持使用CLI工具下载。
  • 管理镜像文件 预览文件 在镜像详情页,选择“镜像文件”页签。单击文件名称即可在线预览文件内容。 仅支持预览大小不超过10MB、格式为文本类或图片类的文件。 下载文件 在镜像详情页,选择“镜像文件”页签。单击操作列的“下载”,选择保存路径单击“确认”,即可下载文件到本地。 删除文件 在镜像详情页,选择“镜像文件”页签。单击操作列的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。
  • 入驻AI Gallery 如果需要在AI Gallery中发布HiLens、报名实践活动或发布AI说,则需要先完成入驻AI Gallery。 如果没有入驻过AI Gallery,在报名实践活动或发布AI说时,将跳转至“欢迎入驻AI Gallery”页面。 在“欢迎入驻AI Gallery”页面,填写“昵称”和“邮箱”,并根据提示获取验证码。阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》后,单击“确定”完成入驻。 图1 入驻AI Gallery 注册完成后,您可以在AI Gallery中报名实践活动或发布技术文章(AI说)。 父主题: AI Gallery(旧版)
  • 编辑镜像介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在镜像详情页,选择“镜像介绍”页签,单击右侧“编辑介绍”。 编辑镜像基础设置和镜像描述。 表1 镜像介绍的参数说明 参数名称 说明 基础设置 中文名称 显示镜像的名称,不可编辑。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。 编辑完成后,单击“确认”保存修改。
  • 管理模型文件 预览文件 在模型详情页,选择“模型文件”页签。单击文件名称即可在线预览文件内容。 仅支持预览大小不超过10MB、格式为文本类或图片类的文件。 下载文件 在模型详情页,选择“模型文件”页签。单击操作列的“下载”,即可下载文件到本地。 删除文件 在模型详情页,选择“模型文件”页签。单击操作列的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。
  • 编辑模型介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在模型详情页,选择“模型介绍”页签,单击右侧“编辑介绍”。 编辑模型基础设置和模型描述。 表1 模型介绍的参数说明 参数名称 说明 基础设置 中文名称 显示模型的名称,不可编辑。 许可证 模型遵循的使用许可协议,根据业务需求选择合适的许可证类型。 语言 选择使用模型时支持的输入输出语言。 框架 选择构建模型使用的AI开发框架。 任务类型 选择模型支持的任务类型,不同任务类型支持的AI Gallery工具链服务请参见表2。 文本问答:从给定文本中检索问题的答案,适用于从文档中搜索答案的场景。 文本生成:基于给定文本进行续写,生成新的文本。 其他类型:基于实际场景选择合适的任务类型。 说明: 如果模型的“任务类型”是除“文本问答”和“文本生成”之外的类型,则被定义为自定义模型。自定义模型必须要满足自定义模型规范,才支持使用AI Gallery工具链服务。 硬件资源 选择支持运行该模型的硬件类型。 最低可运行规格 设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时,只能选取等同或高于该规格的算力资源进行任务下发。 是否支持分布式训练/推理 选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。 当托管的是 自定义镜像 时,填写的内容要满足自定义镜像规范,否则该镜像无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。 说明: 建议写清楚模型的使用方法,方便使用者更好的完成训练、推理任务。 表2 任务类型支持的AI Gallery工具链服务 任务类型 微调大师 在线推理服务 AI应用 文本问答/文本生成 支持 支持 支持 其他类型 支持 支持 不支持 编辑完成后,单击“确认”保存修改。
  • 搜索资产 在各类资产模块页面,通过如下几种搜索方式可以提高资产的查找效率,快速找到适合的算法、模型、数据集、镜像、Workflow等资产。 图1 搜索资产 表1 快速搜索方式 区域 类型 搜索方式 支持的AI资产 1 搜索华为云官方资产 在页面单击“官方”,筛选出所有的华为云官方资产,该类资产均可免费使用。 Notebook、算法、模型 2 搜索精选商品 在页面单击“精选”,筛选出所有被标记为精选的资产。 Notebook、数据、算法、模型、Workflow 3 按标签搜索 在页面单击“所有标签”,选择标签,单击“确定”,筛选出相关资产。 Notebook、数据、算法、镜像、模型、Workflow 4 按排序方式搜索 在页面的排序列表选择排序方式,调整资产排序方式快速查找所需资产。 Notebook、数据、算法、镜像、模型、Workflow 5 搜索商用资产 在页面单击“商用”,筛选出所有的商业售卖资产。 算法、模型
  • 使用流程 本节主要介绍在AI Gallery中管理资产的整体流程。 在AI Gallery中,需要先将本地数据上传到AI Gallery仓库,创建AI Gallery模型、AI Gallery数据集、AI应用等资产,具体可参见托管模型到AI Gallery、托管数据集到AI Gallery、发布本地AI应用到AI Gallery。 资产创建完成后,需要将资产进行发布操作,具体可参见发布模型到AI Gallery、发布数据集到AI Gallery。对于支持部署为AI应用的AI Gallery模型,可将此模型部署为AI应用,具体可参见将AI Gallery中的模型部署为AI应用。 发布后的资产,可通过微调大师训练模型和在线推理服务部署模型,具体可参见使用AI Gallery微调大师训练模型、使用AI Gallery在线推理服务部署模型。
  • 命令说明 登录Gallery CLI配置工具后,使用命令“gallery-cli upload --help”可以获取Gallery CLI配置工具上传文件的帮助信息。 gallery-cli upload --help 获得命令“gallery-cli upload”可用选项的完整列表如下所示。 Usage: gallery-cli upload [OPTIONS] REPO_ID [LOCAL_PATH] [PATH_IN_REPO] Upload File╭─ Arguments ────────────────────────────────────────────────────────────────────────│ * repo_id TEXT ID of the repo to upload to (e.g. `username/repo-name`) [required] ││ local_path [LOCAL_PATH] Directory upload to repo [default: ./] ││ path_in_repo [PATH_IN_REPO] The repo path you want to upload (e.g. `dir1/dir2`) │╰─────────────────────────────────────────────────────────────────────╯╭─Options──────────────────────────────────────────────────────────────────╮│| --include TEXT Glob patterns to match files to download. ││ --exclude TEXT Glob patterns to exclude from files to download. ││ --help Show this message and exit. │╰─────────────────────────────────────────────────────────────────────╯ 具体支持如下使用场景: 上传单个文件 上传多个文件 上传单个文件到指定仓库目录 上传整个文件夹
  • 准备工作 获取“repo_id”和待上传的文件名。 获取“repo_id” 在AI Gallery页面的资产详情页,单击复制完整的资产名称,如图1所示,获取到的信息即为“repo_id”。例如,复制出的信息为“ur5468675/test_cli_model1”,则该资产的“repo_id”为“ur5468675/test_cli_model1”。 图1 复制完整资产名称 获取待上传的文件名 获取待上传的文件在服务器的绝对路径。
  • 功能说明 支持本地文件托管至AI Gallery仓库且支持多个文件同时上传。 单个仓库的容量上限为50GB。 支持管理托管的资产文件,例如在线预览、下载、删除文件。 只支持预览大小不超过10MB、格式为文本类或图片类的文件。 支持编辑资产介绍。每个资产介绍可分为基础设置和使用描述。 基础设置部分包含了该资产所有重要的结构化元数据信息。选择填入的信息将会变成该模型资产的标签,并且自动同步在模型描述部分,保存到“README.md”文件里。 模型描述部分是一个可在线编辑、预览的Markdown文件,里面包含该模型的简介、能力描述、训练情况、引用等信息。编辑内容会自动保存在“README.md”文件里。 更新后的“README.md”文件自动存放在数据集详情页的“文件版本”页签或者是模型详情页的“模型文件”页签。
  • 创建模型资产 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 单击左上方“创建资产”,选择“模型”。 在“创建模型”弹窗中配置参数,单击“创建”。 表1 创建模型 参数名称 说明 英文名称 必填项,模型的英文名称。 如果没有填写“中文名称”,则资产发布后,在模型页签上会显示该“英文名称”。 中文名称 模型的中文名称。 如果填写了“中文名称”,则资产发布后,在模型页签上会显示该“中文名称”。 许可证 模型资产遵循的使用协议,根据业务需求选择合适的许可证类型。 描述 填写资产简介,模型发布后将作为副标题显示在模型页签上,方便用户快速了解资产。 支持0~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 创建完成后,跳转至模型详情页。
  • 上传模型文件 在模型详情页,选择“模型文件”页签。 单击“添加文件”,进入上传文件页面,选择本地的数据文件单击“点击上传”或拖动文件,单击“确认上传”启动上传。 上传单个超过5GB的文件时,请使用Gallery CLI工具。CLI工具的获取和使用请参见Gallery CLI配置工具指南。 文件合集大小不超过50GB。 文件上传完成前,请不要刷新或关闭上传页面,防止意外终止上传任务,导致数据缺失。 当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型(即自定义模型)时,上传的模型文件要满足自定义模型规范,否则该模型无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。 当托管的是自定义镜像时,上传的模型文件要满足自定义镜像规范,否则该镜像无法正常使用AI Gallery工具链服务(微调大师和在线推理服务)。 当文件状态变成“上传成功”表示数据文件成功上传至AI Gallery仓库进行托管。单击“完成”返回模型文件页面。 图1 上传成功 文件上传过程中请耐心等待,不要关闭当前上传页面,关闭页面会中断上传进程。
  • 自定义模型使用的预置镜像 AI Gallery提供了PyTorch基础镜像,镜像里已经安装好了运行任务所需的软件,供自定义模型直接使用,快速进行训练、推理。预置镜像的版本信息请参见表3。 表3 AI Gallery预置镜像列表 引擎类型 资源类型 版本名称 PyTorch NPU pytorch_2.0.1-cann_6.3.2-py_3.9-euler_2.10.7-aarch64 GPU pytorch_2.0.0-cuda_11.7-py_3.9.11-ubuntu_20.04-x86_64
  • “train_params.json”示例 表5 training_methods参数说明 参数名称 说明 name 自定义的训练方式。 hyperparameters 训练方式包含的超参。具体参数说明请参见表6。 表6 hyperparameters参数说明 参数名称 说明 name 超参的名称,只能包含英文、数字、下划线。 type 支持的超参类型,支持float、int、str或bool。 required 超参是否必选,支持true、false。必选不可删除,非必选可删除。 default 超参的默认值,如果无默认值,则填写空双引号。 help 超参的说明,不能超过20个字符。 { "training_methods": [ { "name": "全参微调", "hyperparameters": [ { "name": "lr", "type": "float", "required": true, "default": 0.001, "help": "学习率" }, { "name": "per_device_eval_batch_size", "type": "int", "required": false, "default": 32, "help": "批大小" }, { "name": "logging_steps", "type": "int", "required": false, "default": 24, "help": "每多少步记录一次步骤" }, { "name": "save_strategy", "type": "str", "required": true, "default": "epoch", "help": "训练过程中保存checkpoint的策略" }, { "name": "num_train_epochs", "type": "int", "required": true, "default": 20, "help": "训练的总epochs数" }, { "name": "warmup_ratio", "type": "float", "required": true, "default": 0.1, "help": "用于指定线性热身占总训练步骤的比例" } ] } ]}
  • “train.py”示例 表4 环境变量说明 变量名称 说明 示例 ENV_AG_MODEL_DIR 模型存放路径,AI Gallery的模型仓库地址,包含模型仓库的所有文件。 “/home/ma-user/.cache/gallery/model/ur12345--gpt2” ENV_AG_DATASET_DIR 数据集存放路径,AI Gallery的数据集仓库地址,包含数据集仓库的所有文件。 “/home/ma-user/.cache/gallery/dataset/ur12345--data_demo” ENV_AG_USER_PA RAM S 配置的训练超参json字符串。创建训练任务时在算法配置页面设置的超参,用json字符串表示。 {"per_device_eval_batch_size":"32","lr":"0.001","logging_steps":"24"} ENV_AG_TRAIN_OUTPUT_DIR 训练产物文件存放路径。训练产物将被保存到该路径。训练任务结束后,由AI Gallery平台将该目录上传到新模型的仓库中。 “/home/ma-user/.cache/gallery/output” ENV_AG_USER_METRICS_ LOG _PATH 训练数据的日志文件存放路径。训练过程中的迭代次数、LOSS和吞吐数据按照“迭代次数|loss|吞吐”格式记录在日志中,AI Gallery通过环境变量找到日志,从中获取实际数据绘制成“吞吐”和“训练LOSS”曲线,呈现在训练的“指标效果”中。具体请参见查看训练效果。 说明: 日志文件中的迭代次数、LOSS和吞吐数据必须按照“迭代次数|loss|吞吐”格式存放,否则AI Gallery会数据解析失败,导致“吞吐”和“训练LOSS”曲线异常。 “/var/logs/user_metrics.log” import jsonimport osfrom datasets import load_datasetfrom transformers import AutoImageProcessorfrom torchvision.transforms import RandomResizedCrop, Compose, Normalize, ToTensor, RandomHorizontalFlipimport numpy as npfrom transformers import AutoModelForImageClassification, TrainingArguments, Trainerfrom transformers import DefaultDataCollatorfrom sklearn import metrics# 环境变量# 工作目录ENV_AG_WORK_DIR = 'ENV_AG_WORK_DIR'# 模型存放路径ENV_AG_MODEL_DIR = 'ENV_AG_MODEL_DIR'# 数据集存放路径ENV_AG_DATASET_DIR = 'ENV_AG_DATASET_DIR'# 配置的训练超参json字符串ENV_AG_USER_PARAMS = 'ENV_AG_USER_PARAMS'# 训练产物存放路径ENV_AG_TRAIN_OUTPUT_DIR = 'ENV_AG_TRAIN_OUTPUT_DIR'_transforms = Nonedef _multi_class_classification_metrics(pred): raw_predictions, labels = pred predictions = np.argmax(raw_predictions, axis=1) results = { "f1_macro": metrics.f1_score(labels, predictions, average="macro"), "f1_micro": metrics.f1_score(labels, predictions, average="micro"), "f1_weighted": metrics.f1_score(labels, predictions, average="weighted"), "precision_macro": metrics.precision_score(labels, predictions, average="macro"), "precision_micro": metrics.precision_score(labels, predictions, average="micro"), "precision_weighted": metrics.precision_score(labels, predictions, average="weighted"), "recall_macro": metrics.recall_score(labels, predictions, average="macro"), "recall_micro": metrics.recall_score(labels, predictions, average="micro"), "recall_weighted": metrics.recall_score(labels, predictions, average="weighted"), "accuracy": metrics.accuracy_score(labels, predictions), } return resultsdef parse_args(): """ 从AIGallery环境变量中获取用户配置的超参json """ return json.loads(os.getenv(ENV_AG_USER_PARAMS))def _process_input_data(image_processor): # 加载数据集 dataset_path = os.getenv(ENV_AG_DATASET_DIR) dataset = load_dataset("imagefolder", data_dir=dataset_path) # 数据增强 normalize = Normalize(mean=image_processor.image_mean, std=image_processor.image_std) size = (image_processor.size["shortest_edge"] if "shortest_edge" in image_processor.size else ( image_processor.size["height"], image_processor.size["width"])) global _transforms _transforms = Compose([RandomResizedCrop(size), RandomHorizontalFlip(), ToTensor(), normalize]) ret = dataset.with_transform(_format_transforms) return ret# 转换函数def _format_transforms(examples): examples["pixel_values"] = [_transforms(img.convert("RGB")) for img in examples["image"]] del examples["image"] return examplesdef train(user_args): print('Start to process dataset') model_path = os.getenv(ENV_AG_MODEL_DIR) image_processor = AutoImageProcessor.from_pretrained(model_path) dataset = _process_input_data(image_processor) print(f"Dataset: {dataset}") # label和id映射 classes = dataset["train"].features["label"].names label2id = {c: i for i, c in enumerate(classes)} id2label = {i: c for i, c in enumerate(classes)} print('Start to load model') # 加载模型 model = AutoModelForImageClassification.from_pretrained( model_path, num_labels=len(classes), id2label=id2label, label2id=label2id, ignore_mismatched_sizes=True ) print('Start to set training args') # 训练参数 training_args = TrainingArguments( output_dir=os.getenv(ENV_AG_TRAIN_OUTPUT_DIR), remove_unused_columns=False, evaluation_strategy="epoch", save_strategy=user_args['save_strategy'], learning_rate=float(user_args['lr']), save_total_limit=3, per_device_train_batch_size=32, gradient_accumulation_steps=1, per_device_eval_batch_size=int(user_args['per_device_eval_batch_size']), num_train_epochs=int(user_args['num_train_epochs']), warmup_ratio=float(user_args['warmup_ratio']), logging_steps=int(user_args['logging_steps']), load_best_model_at_end=True, metric_for_best_model="accuracy", push_to_hub=False, ) print('Start to train') # 训练参数 trainer = Trainer( model=model, args=training_args, data_collator=DefaultDataCollator(), train_dataset=dataset["train"], eval_dataset=dataset["test"], tokenizer=image_processor, compute_metrics=_multi_class_classification_metrics, ) # 开始训练 train_results = trainer.train() print('Start to save model') # 保存模型 trainer.save_model() trainer.log_metrics("train", train_results.metrics) trainer.save_metrics("train", train_results.metrics) trainer.save_state() print('Start to evaluate') # 在验证集上做准确性评估 eva_metrics = trainer.evaluate() trainer.log_metrics("eval", eva_metrics) trainer.save_metrics("eval", eva_metrics) print('All Done')if __name__ == '__main__': args = parse_args() train(args)
  • 自定义模型规范(推理) 当托管自定义模型到AI Gallery时,如果模型要支持AI Gallery的推理服务,则需要在“模型文件”添加gallery_inference文件夹,文件夹内容参考表2。 gallery_inference文件夹必须是一级目录直接上传,否则会被判定不符合自定义模型规范,无法使用模型微调。 如果自定义模型的模型文件不符合gallery_inference文件列表要求或文件内容为空,都将不能正常部署在线推理服务。 表2 gallery_inference文件列表 文件类型 文件说明 “inference.py” 必选文件,推理脚本文件,定义了自定义模型的推理处理方式,包含初始化推理(init)和输入输出(call函数)。代码示例请参见inference.py示例。 如果推理脚本里使用了其他脚本文件,则必须一起打包在gallery_inference文件夹里上传,否则会导致推理失败。 “requirements.txt” 非必选文件,环境配置文件,定义了项目依赖的python包。AI Gallery提供了基础镜像的依赖环境,如果要添加自定义依赖项,可通过requirements.txt文件实现。基础镜像包含python、PyTorch、cuda(GPU)、CANN(NPU)。
  • 自定义模型的使用流程 托管模型到AI Gallery。 模型基础设置里的“任务类型”选择除“文本问答”和“文本生成”之外的类型。 上传模型文件时需要确认待上传的文件是否满足自定义模型规范。如果模型要支持训练,则需要满足自定义模型规范(训练);如果模型要支持推理,则需要满足自定义模型规范(推理)。 发布模型到AI Gallery。 使用AI Gallery微调大师训练模型或使用AI Gallery在线推理服务部署模型。 如果进行模型微调,则“训练任务类型”选择“自定义”。 如果部署为推理服务,则“推理任务类型”选择“自定义”
  • 自定义模型规范(训练) 当托管自定义模型到AI Gallery时,如果模型要支持AI Gallery的模型微调,则需要在“模型文件”添加gallery_train文件夹,文件夹内容参考表1。 gallery_train文件夹必须是一级目录直接上传,否则会被判定不符合自定义模型规范,无法使用模型微调。 如果自定义模型的模型文件不符合gallery_train文件列表要求或文件内容为空,都将不能正常进行模型微调。 表1 gallery_train文件列表 文件类型 文件说明 “train.py” 必选文件,训练脚本文件,定义了自定义模型的训练处理方式。代码示例请参见train.py示例。 如果训练脚本里使用了其他脚本文件,则必须一起打包在gallery_train文件夹里上传,否则会导致微调失败。 “train_params.json” 必选文件,训练参数文件,定义了模型训练的必要参数,例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme.md” 必选文件,数据集要求说明,定义了模型训练时对数据集的要求,会显示在微调工作流的“准备数据”页面。 “requirements.txt” 非必选文件,环境配置文件,定义了项目依赖的python包。AI Gallery提供了基础镜像的依赖环境,如果要添加自定义依赖项,可通过requirements.txt文件实现。基础镜像包含python、PyTorch、cuda(GPU)、CANN(NPU)。
共99315条