检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Json格式上传流式数据 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: 1 streamname="dis-test1"| #已存在的通道名 putRecords_sample.py文件中的putRecords_test方法中的records为需要上传的数据内容,数据上传格式如下:
com:443 Content-Type 发送的实体的MIME类型。推荐用户默认使用application/json,有其他取值时会在具体接口中专门说明。 是 application/json Content-Length 请求body长度,单位为Byte。 否 3495 X-Project-Id
Agent是数据接入服务(DIS)提供的一个客户端程序,具有如下功能: 持续查询文本文件,实时收集增量数据按分隔符解析并上传到DIS通道(通道源数据类型为BLOB/JSON/CSV)。 DIS Agent安装流程如图1所示。 图1 安装流程 父主题: 使用Agent上传数据
RowKey 参数 是否必选 参数类型 描述 value 是 String 通道内JSON数据的JSON属性名,用于生成HBase数据的rowkey。 type 是 String 通道内JSON数据的JSON属性的类型名称。 枚举值: Bigint Double Boolean Timestamp
转储Parquet格式文件的配置参数 参数 说明 取值 源数据Schema 用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet格式。 - 转储文件目录 在OB
取值范围:1~4096。 表13 RowKey 参数 参数类型 描述 value String 通道内JSON数据的JSON属性名,用于生成HBase数据的rowkey。 type String 通道内JSON数据的JSON属性的类型名称。 枚举值: Bigint Double Boolean Timestamp
在线安装DIS Logstash Plugin 安装DIS Logstash Plugin有在线和离线安装两种方式: 在线安装无需下载插件包,直接连接公网即可安装。 前提条件 已安装PuTTY工具。 安装logstash-input-dis 使用PuTTY工具(或其他终端工具)远程登录Logstash服务器。
取值 源数据Schema 用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet格式。 - 源数据类型JSON/CSV==>转储文件格式CarbonData
离线安装DIS Logstash Plugin 安装DIS Logstash Plugin有在线和离线安装两种方式: 离线安装需要获取插件包并执行安装脚本。 前提条件 已安装PuTTY工具。 操作步骤 使用PuTTY工具(或其他终端工具)远程登录Logstash服务器。 进入到Logstash的安装目录。
type 否 DIS数据包上传格式。(非原始数据格式) json:DIS数据包封装为json格式,满足普通使用。 protobuf:DIS数据包封装为二进制格式,可以减少体积约1/3,在数据量较大的情况下推荐使用此格式。 json body.compress.enabled 否 是否开启传输数据压缩。
type 否 DIS数据包上传格式。(非原始数据格式) json:DIS数据包封装为json格式,满足普通使用。 protobuf:DIS数据包封装为二进制格式,可以减少体积约1/3,在数据量较大的情况下推荐使用此格式。 json body.compress.enabled 否 是否开启传输数据压缩。
管理源数据Schema 源数据Schema,即用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet或CarbonData格式。 创建源数据Schema有如下三个入口:
这个示例中创建了一个源数据类型为JSON,且数据包含“key1”、“key2”这两个属性的通道。 data_type:指定源数据的类型,“JSON”表示分区中的数据格式为JSON格式。 data_schema:源数据Schema,用于描述JSON、CSV格式的源数据结构,采用Avro
据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。
配置是否可以连接公网。 查看Agent是否上传日志。 “agent.yml”中配置的监控目录下有匹配的文件,日志中会输出类似如下日志,表示解析了[N1行(B1字节数)/N2文件(B2字节数)],成功上传了[N3行/N4文件]。 Agent: Progress: [N1 records
据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。
据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。
转储至DWS 源数据类型JSON/CSV 表1 转储相关配置参数 参数 说明 取值 任务名称 用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。 - DWS集群 存储该通道数据的DWS集群名称。