检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Json格式上传流式数据 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: 1 streamname="dis-test1"| #已存在的通道名 putRecords_sample.py文件中的putRecords_test方法中的records为需要上传的数据内容,数据上传格式如下:
在线安装DIS Logstash Plugin 安装DIS Logstash Plugin有在线和离线安装两种方式: 在线安装无需下载插件包,直接连接公网即可安装。 前提条件 已安装PuTTY工具。 安装logstash-input-dis 使用PuTTY工具(或其他终端工具)远程登录Logstash服务器。
Protobuf格式上传流式数据 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 初始化DIS客户端,加入一项参数bodySerializeType,如下所示: cli = disclient(endpoint='', ak=os.environ.get("HUAWEICLOUD_SDK_AK")
取值范围:30~900。 单位:秒。 默认配置为300秒。 - 源数据类型JSON/CSV==>转储文件格式Parquet 表3罗列了源数据类型为JSON,CSV,转储至OBS(对应转储文件格式Parquet)时需要配置的差异化参数,共性参数的配置请参见表1。 表3 转储Parquet格式文件的配置参数
obs_bucket_path 是 String 存储该通道数据的OBS桶名称。 destination_file_type 否 String 转储文件格式。 text:转储目标格式为TEXT,缺省值 parquet:转储目标格式为Parquet carbon:转储目标格式为Carbon 说明:
会被清除。 配置为空时,数据直接存储在OBS桶内。 - 源数据类型JSON/CSV==>转储文件格式Parquet 表2罗列了源数据类型为JSON,CSV,转储至MRS(对应转储文件格式Parquet)时需要配置的差异化参数,共性参数的配置请参见表1。 表2 转储Parquet格式文件的配置参数
前往授权。 descriptor.setAgencyName("dis_admin_agency"); // 可选,转储OBS的目标文件格式:默认text,可配置parquet、carbon descriptor.setDestinationFileType(DestinationFileTypeEnum
// 转储周期,单位s descriptor.setDeliverTimeInterval(300); // 可选,转储OBS的目标文件格式:默认text,可配置parquet、carbon descriptor.setDestinationFileType(DestinationFileTypeEnum
下载流式数据 Json格式下载 参见初始化DIS客户端的操作初始化一个DIS客户端实例。 配置参数如下: 1 2 3 streamname = "" #通道名称 startSeq='0’ #序列号 partitionId="shardId-0000000000"
离线安装DIS Logstash Plugin 安装DIS Logstash Plugin有在线和离线安装两种方式: 离线安装需要获取插件包并执行安装脚本。 前提条件 已安装PuTTY工具。 操作步骤 使用PuTTY工具(或其他终端工具)远程登录Logstash服务器。 进入到Logstash的安装目录。
管理通道标签 标签是通道的标识。为通道添加标签,可以方便用户识别和管理拥有的通道资源。 您可以在创建通道时添加标签,也可以在通道创建完成后,在通道的详情页添加标签,您最多可以给通道添加10个标签。 标签共由两部分组成:“标签键”和“标签值”,其中,“标签键”和“标签值”的命名规则如表1所示。
Logstash Plugin上传与下载数据 DIS Logstash Plugin概述 安装DIS Logstash Plugin前准备 在线安装DIS Logstash Plugin 离线安装DIS Logstash Plugin 配置DIS Logstash Plugin 验证DIS
场景示例图 实时文件传输 实时检测客户应用系统中产生的文件,并采集上传到云上,进行离线分析、存储查询及机器学习,对客户进行分类和信息查询,识别出大型客户,加强服务,进一步提升客户满意度。 图2 场景示例图 数据接入备份 将大量滚动日志文件传输到云端做备份,用于数据丢失或异常后的恢
配置DIS Agent DIS Agent配置文件格式为“YAML”,各配置项与值之间必须以英文格式的“冒号+空格”形式分隔。 agent.yml文件模板可从“dis-agent”压缩包中获取,内容示例如下。具体配置项说明请参见表1。 --- # cloud region id region:
BLOB:存储在数据库管理系统中的一组二进制数据。“源数据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。
BLOB:存储在数据库管理系统中的一组二进制数据。“源数据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。
BLOB:存储在数据库管理系统中的一组二进制数据。“源数据类型”选择“BLOB”,则支持的“转储服务类型”为“OBS”、“MRS”。 JSON:一种开放的文件格式,以易读的文字为基础,用来传输由属性值或者序列性的值组成的数据对象。“源数据类型”选择“JSON”,则支持的“转储服务类型”为“OBS”、“MRS”、“DLI”和“DWS”。
用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。 - 转储文件格式 text csv parquet carbon 根据需要选择。 数据转储地址 存储该通道数据的OBS桶名称。桶名称在“对象存储服务”中“创建桶”时创建。
在左侧文本框中输入JSON或者CSV格式的源数据样例,也可单击导入源数据样例。例如: 导入源数据样例时,仅支持导入“.txt”,“.json”,“.csv”和“.java”的文件格式。 左侧文本框中单击,可在右侧文本框中根据源数据样例生成Avro schema。例如: 右侧文本框中单击,可修改已生成的Avro schema。例如: