检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ype="protobuf"选取protobuf格式上传。 protobuf_putRecords_sample.py文件中的protobuf_putRecords_test方法中的records为需要上传的数据内容,数据上传格式如下: 1 2 3 4 records=[{"data":
Json格式上传流式数据 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: 1 streamname="dis-test1"| #已存在的通道名 putRecords_sample.py文件中的putRecords_test方法中的records为需要上传的数据内容,数据上传格式如下:
前往授权。 descriptor.setAgencyName("dis_admin_agency"); // 可选,转储OBS的目标文件格式:默认text,可配置parquet、carbon descriptor.setDestinationFileType(DestinationFileTypeEnum
Timestamp类型表示通道内用户数据对应JSON属性的取值为Timestamp类型,不需要进行数据格式转换就可以生成OpenTSDB的timestamp。- String类型表示通道内用户数据对应JSON属性的取值为Date格式,需要进行数据格式转换才能生成OpenTSDB的timestamp。 value 是
查看转储日志”,查看该通道的转储详情。转储参数说明如表1所示。 表1 DIS转储日志参数说明 参数 说明 开始时间 用户转储日志开始构建的时间。 格式:YYYY/MM/dd HH:mm:ss GTM YYYY:表示年份 MM:表示月份 dd:表示日期 HH:表示小时 mm:表示分钟 ss:表示秒
String 转储文件格式。 text:转储目标格式为TEXT,缺省值 parquet:转储目标格式为Parquet carbon:转储目标格式为Carbon 说明: “源数据类型”为“JSON”,“转储服务类型”为“OBS”时才可选择“parquet”或“carbon”格式。 缺省值:text
时间戳格式为“yyyy/MM/dd HH:mm:ss”。 因数据转储成功后,存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中,时间目录格式精确到日,所以数据最终存储目录结构为“桶名称/转储文件目录/2018/10/07”。 示例3:转储CSV格式的数据。
配置为空时,数据直接存储在OBS桶内。 - 源数据类型JSON/CSV==>转储文件格式Parquet 表2罗列了源数据类型为JSON,CSV,转储至MRS(对应转储文件格式Parquet)时需要配置的差异化参数,共性参数的配置请参见表1。 表2 转储Parquet格式文件的配置参数 参数 说明 取值 源数据Schema
下载流式数据 Json格式下载 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: 1 2 3 streamname = "" #通道名称 startSeq='0’ #序列号 partitionId="shardId-0000000000"
String 转储文件格式。 text:转储目标格式为TEXT,缺省值 parquet:转储目标格式为Parquet carbon:转储目标格式为Carbon 说明: “源数据类型”为“JSON”,“转储服务类型”为“OBS”时才可选择“parquet”或“carbon”格式。 缺省值:text
查询转储详情 参考初始化DIS客户端的操作初始化一个DIS客户端实例,实例名称为dic。 使用DIS SDK查询指定转储任务的详情。 1 2 3 4 5 6 7 DescribeTransferTaskRequest request = new DescribeTransferTaskRequest();
下载流式数据 背景信息 下载流式数据,需要确定从分区的什么位置开始获取(即获取游标)。确定起始位置后,再循环获取数据。 获取游标有如下五种方式: AT_SEQUENCE_NUMBER AFTER_SEQUENCE_NUMBER TRIM_HORIZON LATEST AT_TIMESTAMP
String 通道唯一标识符。 principal_name 是 String 授权用户。 如果授权给指定租户,格式为:domainName.*;如果授权给租户下的指定子用户,则格式为:domainName.userName; 支持多账号添加,用","隔开,比如:domainName1.userName1
是 DIS数据网关地址。格式:https://DIS终端节点。 获取方式请参见获取认证信息。 https://dis.cn-north-1.myhuaweicloud.com body.serialize.type 否 DIS数据包上传格式。(非原始数据格式) json:DIS数据包封装为json格式,满足普通使用。
DIS数据网关地址。 格式:https://DIS终端节点。 说明: 获取DIS终端节点请参见终端节点及区域说明。 https://dis.cn-north-1.myhuaweicloud.com body.serialize.type 否 DIS数据包上传格式。(非原始数据格式) json
data_schema 否 String 用于描述用户JSON、CSV格式的源数据结构,采用Avro Schema的语法描述。 csv_properties 否 CSVProperties object CSV 格式数据的相关属性,比如分隔符 delimiter compression_format
JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。 CSV:纯文本形式存储的表格数据,分隔符默认采用逗号。 缺省值:BLOB。 枚举值: BLOB JSON CSV data_schema 否 String 用于描述用户JSON、CSV格式的源数据结构,采用Avro
y2”这两个属性的通道。 data_type:指定源数据的类型,“JSON”表示分区中的数据格式为JSON格式。 data_schema:源数据Schema,用于描述JSON、CSV格式的源数据结构,采用Avro Schema的语法描述。 请求响应成功后,返回201 Created,表示通道创建成功。
在打开的配置页面中,“Program arguments”中输入运行参数,格式为 : DIS网关地址 Region名称 AK SK ProjectID 通道名称 起始位置 消费者标识 如在华北-北京1测试,则参数示例为 https://dis.${region}.myhuaweicloud
bodySerializeType 否 DIS数据包上传格式(非原始数据格式)。 json:DIS数据包封装为json格式,满足普通使用。 protobuf:DIS数据包封装为二进制格式,可以减少体积约1/3,在数据量较大的情况下推荐使用此格式。 json 父主题: 使用DIS Flume