检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PROPERTY_PRODUCER_RECORDS_RETRIES, "-1") .withProperty(DISConfig.PROPERTY_PRODUCER_EXCEPTION_RETRIES, "-1") .build(); 若需在客户端设置DIS连接超时时间,请使用如下方法初始化DIS客户端:
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
DIS监控信息参数说明 参数 说明 时间范围 选择查看监控信息的时间段,可查看所选时间范围内的监控信息。 取值范围: 1h 3h 12h 可自定义查看监控信息的时间段。 单击“自定义”页签后的,分别设置开始时间和结束时间。 其中,结束时间不能晚于当前的系统时间。 开始时间与结束时间的差值不超过72h。
是否必选 参数类型 描述 stream_name 是 String 通道名称。 通道名称由字母、数字、下划线和中划线组成,长度为1~64字符。 最大长度:64 partition_count 是 Integer 分区数量。 分区是DIS数据通道的基本吞吐量单位。 stream_type
streamname="dis-test1"| #已存在的通道名 putRecords_sample.py文件中的putRecords_test方法中的records为需要上传的数据内容,数据上传格式如下: 1 2 3 4 records=[{"data": "abcdefd", "partition_id":
在对应“任务名称”的操作列单击“更多 > 查看转储日志”,查看该通道的转储详情。转储参数说明如表1所示。 表1 DIS转储日志参数说明 参数 说明 开始时间 用户转储日志开始构建的时间。 格式:YYYY/MM/dd HH:mm:ss GTM YYYY:表示年份 MM:表示月份 dd:表示日期 HH:表示小时
是否必选 参数类型 描述 project_id 是 String 项目ID。 表2 Query参数 参数 是否必选 参数类型 描述 stream_name 是 String 该Checkpoint所属的通道名称。 app_name 是 String 该Checkpoint关联App名称。
userName action_type String 授权操作类型。 putRecords:上传数据。 getRecords:下载数据。 枚举值: putRecords getRecords effect String 授权影响类型。 accept:允许该授权操作。 枚举值: accept
ern”配置的所有匹配文件按照修改时间,从旧到新按分隔符解析并上传到DIS服务。 START_OF_FILE maxBufferAgeMillis 否 最长上传等待时间。 单位:毫秒 记录队列满则立即上传。 记录队列未满,等待此配置项配置的时间后上传到DIS服务。 5000 maxBufferSizeRecords
timestamp_name 是 String 源数据时间戳的属性名称。 timestamp_type 是 String 源数据时间戳的类型。 String Timestamp:Long类型的13位时间戳 timestamp_format 否 String 源数据时间戳的类型为String
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
DIS对于从数据生产者快速移出数据,然后进行持续处理非常有用。以下是使用DIS的典型场景: 加速日志和数据传送获取:您无需等待批量处理数据,而是让数据生产者在生成数据后立即输入DIS数据通道,防止因数据生产者出现故障导致的数据损失。例如,系统和应用程序日志可以持续添加到数据通道并可在数秒内进行处理。
此时IDEA打开的DISSparkStreamingExample文件内没有错误即表示开发环境配置成功,此文件的逻辑是读取DIS通道中的数据并统计每个单词出现次数。 DISSparkStreamingExample是一个使用Assign模式的样例,不具备停止再启动时从上一次停止位置开始的能力。使用到的SDK构造方法如下:
是否必选 参数类型 描述 project_id 是 String 项目ID。 stream_name 是 String 需要变更分区数量的通道名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 stream_name 是 String 待更新的通道名称。 最大长度:64
is_admin_agency 最大长度:64 deliver_time_interval 是 Integer 根据用户配置的时间,周期性的将数据导入OBS,若某个时间段内无数据,则此时间段不会生成打包文件。 单位:秒 最小值:30 最大值:900 缺省值:300 consumer_strategy
Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 使用Token前请确保Token离过期有足够的时间,防止调用API的过程中Token过期导致调用API失败。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权
is_admin_agency 最大长度:64 deliver_time_interval 是 Integer 根据用户配置的时间,周期性的将数据导入OBS,若某个时间段内无数据,则此时间段不会生成打包文件。 单位:秒 最小值:30 最大值:900 缺省值:300 consumer_strategy
table_blocksize:表的block大小,取值范围是1~2048MB,默认值是1024MB。 table_blocklet_size:文件内的Blocklet大小,默认值是64MB。 local_dictionary_enable:配置为true或者false,默认值是false。 sort_col
载数据getRecords_test采用test方法;test方法较test_0方法,增加参数bodySerializeType="protobuf"。 配置好以上参数,执行protobuf_getrecords_sample.py文件调用getRecords_test方法,响应结果如下。
什么是分区? 分区(Partition)是DIS数据通道的基本吞吐量单位。创建通道时,将指定所需的分区数量。 普通通道单分区容量:最高发送速度可达1MB/秒或1000条记录/秒(达到任意一种速度上限才会被限流),最高提取速度可达 2MB/秒,单次请求的记录总大小不能超过1MB(不