检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是数据接入服务DIS 数据接入服务(Data Ingestion Service)为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体
String 需要上传的数据。 上传的数据为序列化之后的二进制数据(Base64编码后的字符串)。 比如需要上传字符串“data”,“data”经过Base64编码之后是“ZGF0YQ==”。 explicit_hash_key 否 String 用于明确数据需要写入分区的哈希值,此哈希
requests.per.connection 参数 支持 限制客户端在单个连接上能够发送的未响应请求的个数,默认值为100(Kafka默认为5)可提高发送性能,但可能出现数据顺序不一致的问题。如需严格保证顺序,建议此值设置为1 block.on.buffer.full 参数 支持
requests.per.connection 参数 支持 限制客户端在单个连接上能够发送的未响应请求的个数,默认值为100(Kafka默认为5)可提高发送性能,但可能出现数据顺序不一致的问题。如需严格保证顺序,建议此值设置为1 block.on.buffer.full 参数 支持
单击管理控制台左上角的,选择区域和项目。 在左侧列表栏中选择“通道管理”。 单击需要查看的通道名称。进入所选通道的管理页面。 单击“源数据类型”后的,从下拉框中选择对应的源数据类型,可修改创建通道时已设置的源数据类型。或者选择待修改源数据类型通道对应的操作列,选择“更多 > 变更源数据类型”,
获取数据游标 参考初始化DIS客户端的操作初始化一个DIS客户端实例,实例名称为dic。 使用DIS SDK获取数据游标信息。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 // 配置通道名称 String streamName =
yncGroup)获取分配结果 SyncGroup 此请求用于获取分配结果,返回的assignment中即为消费者需要消费的通道名和分区 执行样例程序,等待消费组分配完成之后,发送数据到通道,完整的日志如下 09:42:37.296 INFO c.h.d.a.k.c.DISKafkaConsumer
yncGroup)获取分配结果 SyncGroup 此请求用于获取分配结果,返回的assignment中即为消费者需要消费的通道名和分区 执行样例程序,等待消费组分配完成之后,发送数据到通道,完整的日志如下 09:42:37.296 INFO c.h.d.a.k.c.DISKafkaConsumer
on_key。 sequence_number String 该条数据的序列号。 data String 下载的数据。 下载的数据为序列化之后的二进制数据(Base64编码后的字符串)。 比如下载数据接口返回的数据是“ZGF0YQ==”,“ZGF0YQ==”经过Base64解码之后是“data”。
获取数据游标 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: partitionId="shardId-0000000000" streamname=”dis-test1“ #已存在的通道名 5种游标设置使用参考如下: # startSeq与AT_S
管理源数据Schema 源数据Schema,即用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet或CarbonData格式。 创建源数据Schema有如下三个入口:
上传流式数据 样例代码 使用初始化DIS客户端后的客户端实例将用户的流式数据通过DIS通道上传至DIS服务。 其中,“streamName”的配置值要与开通DIS通道中“通道名称”的值一致,“endpoint”,“ak”,“sk”,“region”,“projectId”信息请参见获取认证信息。
例如[100, 200],表示此分区总共上传了200条数据,其中第0~99条已过期,有效的最老数据为100,最新数据为199,下一条上传数据的sequenceNumber为200。 场景说明 下表介绍5种下载数据方式的适用场景,您可依据自己的需求进行适配。 表1 场景说明 游标类型(CursorType)
在右侧表格中,“桶名称”列单击对应的桶名称,即申请DIS通道中配置的“桶名称”。 在弹出的桶页面中单击左侧导航栏“对象”页签,查看已上传的文件。 创建数据库 在Console页面上方菜单栏中单击“产品”,单击“大数据”分类中的“数据湖探索 DLI”。 创建demo数据库,在DLI控制台总览页
下载流式数据 Json格式下载 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: 1 2 3 streamname = "" #通道名称 startSeq='0’ #序列号 partitionId="shardId-0000000000"
完成服务的开通、删除、配置操作,并将用户信息同步到数据面。 完成数据面资源的申请与自动部署。 服务数据面 接收用户发送数据的请求,对已鉴权的数据接收并存储。 接收用户获取数据的请求,在鉴权后输出对应的用户数据。 按时老化存储在系统中的用户数据。 根据用户配置,将用户数据存储到对象存储服务(Object Storage
Agent 上传数据 启动Agent上传数据 查看数据上传结果 05 实践 通过提供针对多种场景的使用样例,方便您快速了解使用DIS完成实时数据的采集和分析。 案例介绍 使用DIS实时分析车辆位置 使用DIS采集增量驾驶行为日志数据 06 API 通过DIS开放的API和调用示例
DIS对于从数据生产者快速移出数据,然后进行持续处理非常有用。以下是使用DIS的典型场景: 加速日志和数据传送获取:您无需等待批量处理数据,而是让数据生产者在生成数据后立即输入DIS数据通道,防止因数据生产者出现故障导致的数据损失。例如,系统和应用程序日志可以持续添加到数据通道并可在数秒内进行处理。
应用场景 实时数据处理 实时收集城市各交通枢纽的车辆通行数据,缓存在通道中,分析平台周期读取通道中的数据分析后将结果应用到调度系统,实现对停车场开放时长和交通资源的调配。 图1 场景示例图 实时文件传输 实时检测客户应用系统中产生的文件,并采集上传到云上,进行离线分析、存储查询及