华为云用户手册

  • 响应示例 { "versions": [ { "id": "v1.0", "links": [ { "href": "https//deh.xxx.com/v1.0/", "rel": "self" } ], "min_version": "", "status": "SUPPORTED", "updated": "2016-12-01T11:33:21Z", "version": "" } ] }
  • URI GET /v1.0/{project_id}/dedicated-hosts/{dedicated_host_id}/servers 参数说明请参见表1。 表1 参数说明 参数 参数类型 是否必选 描述 project_id String 是 项目ID。 获取方式请参见获取项目ID。 dedicated_host_id String 是 专属主机ID。 可以从专属主机控制台查询,或者通过调用查询专属主机列表API获取。
  • 响应示例 { "servers": [ { "addresses": { "68269e6e-4a27-441b-8029-35373ad50bd9": [ { "addr": "192.168.0.3", "version": 4, "OS-EXT-IPS-MAC:mac_addr": "fa:16:3e:1b:35:78", "OS-EXT-IPS:type": "fixed" } ] }, "created": "2012-09-07T16:56:37Z", "flavor": { "id": "1" }, "id": "05184ba3-00ba-4fbc-b7a2-03b62b884931", "metadata": { "os_type": "Linux" }, "name": "new-server-test", "status": "ACTIVE", "tenant_id": "a90b2728805d4240a72cc2eeb4e1244d", "updated": "2012-09-07T16:56:37Z", "user_id": "fake", "task_state": "", "image": { "id": "1ce5800a-e487-4c1b-b264-3353a39e2b4b" } } ] }
  • 到期后影响 图1描述了包年/包月专属主机资源各个阶段的状态。购买后,在计费周期内资源正常运行,此阶段为有效期;资源到期而未续费时,将陆续进入宽限期和保留期。 图1 包年/包月专属主机资源生命周期 到期预警 包年/包月专属主机资源在到期前第7天内,系统将向用户推送到期预警消息。预警消息将通过邮件、短信和站内信的方式通知到华为云账号的创建者。 到期后影响 当您的包年/包月专属主机资源到期未续费,首先会进入宽限期,资源状态变为“已过期”。宽限期内您可以正常访问专属主机,但以下操作将受到限制: 切换操作系统 扩容或增加云硬盘 修改带宽大小 扩容或增加云备份 如果您在宽限期内仍未续费包年/包月专属主机资源,那么就会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的包年/包月资源执行任何操作。 保留期到期后,若包年/包月专属主机资源仍未续费,那么专属主机及其内的计算资源(vCPU和内存)、弹性公网IP、云硬盘和云备份都将被释放,数据无法恢复。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 关于续费的详细介绍请参见续费概述。
  • 计费示例 假设您在2023/03/08 15:50:04购买了一台包年/包月专属主机,购买时长为一个月,并在到期前手动续费1个月,则: 第一个计费周期为:2023/03/08 15:50:04 ~ 2023/04/08 23:59:59 第二个计费周期为:2023/04/08 23:59:59 ~ 2023/05/08 23:59:59 您需要为每个计费周期预先付费,各项E CS 资源单独计费,计费公式如表1所示。 表1 计费公式 资源类型 计费公式 资源单价 专属主机 专属主机类型单价 * 购买时长 以专属主机价格详情中的价格为准。
  • 计费示例 假设您在2023/04/18 9:59:30创建了一台ECS(镜像:Windows Server 2019 标准版),计费资源包括镜像、云硬盘(系统盘和数据盘)以及带宽(6Mbit/s),然后在2023/04/18 10:45:46将其删除,则: 第一个计费周期为9:00:00 ~ 10:00:00,在9:59:30 ~ 10:00:00间产生费用,该计费周期内的计费时长为30秒。 第二个计费周期为10:00:00 ~ 11:00:00,在10:00:00 ~ 10:45:46间产生费用,该计费周期内的计费时长为2746秒。 您需要为每个计费周期付费,各项资源单独计费,计费公式如表1所示。产品价格详情中标出了资源的每小时价格,您需要将每小时价格除以3600,得到每秒价格。 表2 计费公式 资源类型 计费公式 资源单价 镜像 镜像单价 * 计费时长 以售卖页和云市场镜像显示的价格为准。 云硬盘(系统盘和数据盘) 云硬盘单价 * 计费时长 请参见弹性 云服务器价格 详情中的“磁盘价格”,或者云硬盘价格详情。 公网带宽 按固定带宽值采用阶梯计费 0Mbit/s~5Mbit/s(含):均为一个统一的单价 大于5Mbit/s:按每Mbit/s计费 请参见弹性云服务器价格详情中的“带宽价格”,或者弹性公网IP价格详情。 图1给出了上述示例配置的费用计算过程。 图中价格仅供参考,实际计算请以弹性云服务器价格详情中的价格为准。 图1 按需计费资源费用计算示例
  • 适用计费项 在专属主机中创建ECS涉及如下计费项。 表1 适用计费项 计费项 说明 镜像 随ECS创建的镜像,包括按需计费的市场镜像。 云硬盘 随ECS创建的云硬盘,包括系统盘和数据盘。 公网带宽 ECS搭配“按带宽计费”的弹性公网IP时,带宽的计费模式同为按需计费。 弹性公网IP流量 ECS搭配“按流量计费”的弹性公网IP时,按实际使用的流量计费。 云备份 随ECS创建的云备份。 假设您计划创建一台Windows镜像的ECS,并同时购买一块数据盘,且选择“按带宽计费”的弹性公网IP。在创建ECS页面底部,您将看到所需费用的明细。配置费用将包括以下部分: 云硬盘:系统盘和额外购买的数据盘费用。 公网带宽:根据所选带宽大小计算的费用。 镜像费用:基于Windows镜像的市场价格。
  • 计费周期 按需计费资源按秒计费,每一个小时整点结算一次费用(以UTC+8时间为准),结算完毕后进入新的计费周期。计费的起点以ECS实例创建成功的时间点为准,终点以实例删除时间为准。 ECS从创建到启动需要一定时长,计费的起点是创建成功的时间点,而非创建时间。您可以在云服务器详情页“基本信息”页签查看这两个时间,创建成功的时间点对应界面上的“启动时间”。 例如,您在8:45:30创建了一台ECS,相关资源包括镜像和云硬盘(系统盘),然后在8:55:30将ECS删除。则镜像和云硬盘(系统盘)计费周期为8:00:00 ~ 9:00:00,在8:45:30 ~ 8:55:30间产生费用,该计费周期内的计费时长为600秒。
  • 大数据组件信息 使用的大数据组件信息和规划的新版本大数据集群版本信息比较,主要识别版本差异可能对迁移过程的影响,以及对迁移后业务兼容性的影响。 表3 大数据组件信息 大数据组件 源端集群版本 目的端集群版本(以 MRS 集群版本为准) 说明 HDFS/OBS(或其他文件存储系统) Hadoop 2.8.3 Hadoop 3.3.1 - Hive 1.2.1 2.3.3 存储元数据的数据库:MySQL HBase 1.3.1 1.3.1 - Spark 2.2.2 3.1.1 - Kafka 1.1.0 2.11-2.4.0 - Oozie 2.x 5.1.0 - MySQL 5.7.1 RDS - Flink 1.7 1.15 - ... ... ... -
  • 待迁移的存量数据及数据量统计 如果使用HDFS作为文件存储系统,可以通过客户端执行hadoop fs -du -h HDFS文件目录命令统计路径下的文件大小。 表4 现有数据量统计 大数据组件 待迁移数据的路径 数据量大小 文件个数或表个数 HDFS/OBS(或其他文件存储系统) /user/helloworld XXX 总共:XXX个文件 小于2 MB的文件数量:XXX个 Hive /user/hive/warehouse/ XXX 表个数:XXX HBase /hbase XXX 表个数:XXX Region个数:XXX
  • 每天新增数据量统计 每天新增数据量主要评估数据增长速度(可以按天/小时等周期维度)。在第一次全量迁移数据后,后续可以定期搬迁老集群新增数据,直到业务完成最终割接。 表5 新增数据量统计 大数据组件 待迁移的数据路径 新增数据量大小 HDFS/OBS(或其他文件存储系统) /user/helloworld XXX Hive /user/hive/warehouse/ XXX HBase /hbase XXX
  • 流式Kafka集群信息收集 表6 流式Kafka集群信息 收集信息项 描述 Kafka的Topic数量和名称 - Kafka的本地数据暂存时间 如果每个Topic配置不一样,按Topic粒度收集。 每个Topic的副本数和Partition数量 默认为2,副本数越多数据越可靠,也会消耗磁盘空间。 如果每个Topic配置不一样,按Topic粒度收集。 Kafka生产和消费的流量大小 细化到Topic级别。 Kafka客户端ACK配置Acks -
  • 数据迁移模型样例 一个离线分析平台的客户业务系统,由Spark Streaming消费Kafka数据存入HDFS,HDFS上进行小文件合并后加载到Hive表中,运营人员可以通过Presto进行Hive数据查询。 图1 源集群业务图 针对大数据离线平台包括HDFS和Hive数据需要迁移,Kafka、Spark Streaming、HDFS、Hive、Presto的业务程序要在目的端集群上部署。 图2 迁移示意图
  • 业务信息调研 大数据平台及业务的架构图。 大数据平台和业务的数据流图(包括峰值和均值流量等)。 识别平台数据接入源、大数据平台数据流入方式(实时数据上报、批量数据抽取)、分析平台数据流向。 数据在平台内各个组件间的流向,比如使用什么组件采集数据,采集完数据后数据如何流向下一层组件,使用什么组件存储数据,数据处理过程中的工作流等。 业务作业类型Hive SQL、Spark SQL、Spark Python等,是否需要使用MRS的第三方包,参考MRS应用开发样例。 调度系统,需要考虑调度系统对接MRS集群。 迁移后,业务割接允许中断时长,识别平台业务优先级。 识别在迁移过程中不能中断的业务、可短时中断的业务、整体业务迁移可接受的迁移时长,梳理业务迁移顺序。 客户端部署要求。 业务执行时间段和高峰时间段。 大数据集群的数量和大数据集群功能划分,分析平台业务模型。 各个集群或各个组件分别负责什么业务,处理什么类型的数据。比如实时/离线数据分别使用什么组件处理、数据格式类型、压缩算法等。
  • 集群基本信息收集 表1 集群基本信息 参数 说明 集群名称 - 集群版本 MRS、 CDM 等集群的版本信息。 节点数及规格 调研现有集群节点数和节点规格。 如果集群硬件异构,请收集多种规格和对应节点数,参见表2。 例如: 2台32U64G机器部署NameNode + ResourceManager 2台32U64G机器部署HiveServer 20台16U32G机器部署DataNode和NodeManager 是否开启Kerberos认证 是或否 权限控制及说明 调研各个开启ACL权限控制的组件和配置,通常涉及Yarn、Hive、Impala、HBase等组件。 使用Ranger、Sentry或组件开源的权限能力进行权限控制。 所在Region/AZ 云上资源填写项 虚拟私有云 云上资源填写项 子网 云上资源填写项 安全组 云上资源填写项 表2 硬件信息调研表 节点组 CPU和内存信息 磁盘和网络(按节点组统计) HDFS Yarn - - 磁盘信息(数据盘大小、磁盘IO、当前磁盘使用率和IO情况) 网络(网卡带宽大小、网络读写速度和峰值) NameNode DataNode JournalNode NodeManager ResourceManager master1 (16U64G) - - 1 - 1 - 1 master2 (16U64G) - - 1 - 1 - 1 master3 (16U64G) - - - - 1 - - Core-group1 (32U128G)*数量 - - - 1 - 1 - Core-group1 (32U129G) - - - - - - - Core-group1 (32U130G) - - - - - - -
  • HBase组件端口 表5 HBase组件端口 配置参数 默认端口(HBase1.x和HBase 2.x版本) 端口说明 hbase.master.port 16000 HMaster RPC端口。该端口用于HBase客户端连接到HMaster。 hbase.regionserver.port 16020 RS (RegoinServer) RPC端口。该端口用于HBase客户端连接到RegionServer。
  • Replication Replication备份是在HBase上建立主备集群的容灾关系,当数据写入主集群,主集群通过WAL来主动push数据到备集群上,从而达到主备集群的实时同步。详情请参考http://hbase.apache.org/2.2/book.html#_cluster_replication。 该方式数据备份的优点: 使用replication有别于其他几种数据备份导入方式,当配置了集群间的主备关系后,数据可以实时同步(无需人为操作)。 相对而言,“备份”的动作占用集群的资源较少,对集群的性能影响小。 数据同步可靠性较高,如果备集群停止一段时间后再恢复,这中间主机群的数据依然会同步到备集群。 该方式数据备份的缺点和限制: 如果客户端写入的数据设置不写WAL,则数据无法备份到备集群。 由于占用的资源少,后台是通过异步的方式同步数据,实际数据没有实时同步。 对于开启表replication同步之前,主集群就已经存在的数据无法同步,需要借助其他方式导入的备集群。 bulkload方式写入到主集群的数据无法同步(MRS上的HBase对replication做了增强,支持bulkload on replication)。 具体的使用和配置方法请参考配置HBase备份和使用ReplicationSyncUp工具来进行备份数据。
  • Snapshots 对表执行snapshot操作生成快照,既可以作为原表的备份,当原表出现问题的时候可以回滚恢复,也可以作为跨集群的数据备份工具。执行快照会在当前HBase上的根目录(默认为/hbase)生成“ .hbase-snapshot”目录,里面有每个快照的详细信息。当执行ExportSnapshot导出快照时,会在本地提交MR任务,将快照信息以及表的HFile分别拷贝到备集群的/hbase/.hbase-snapshot和/hbase/archive中。详情请参考http://hbase.apache.org/2.2/book.html#ops.snapshots。 该方式数据备份的优点: 单表备份效率高,在线数据本地/远程备份,不中断主集群和备集群业务,可以灵活配置map的个数和限制流量,MapReduce的执行节点可不在主备集群(不占资源)。 该方式数据备份的缺点和限制: 只能单表操作,备份的表名在snapshot中已经指定无法更改,且无法增量备份,运行MR需要占用本地集群资源。 在主集群执行如下操作: 对表创建快照。例如对表member创建快照member_snapshot。 snapshot 'member','member_snapshot' 将快照拷贝到备集群上。 hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot member_snapshot -copy-to hdfs://备集群HDFS服务主NameNode节点IP:端口号/hbase -mappers 3 备集群的数据目录必须为HBASE根目录(/hbase) mappers表示MR任务需要提交的map个数 在备集群执行如下操作: 使用restore命令在备集群自动新建表,以及与archive里的HFile建立link。 restore_snapshot 'member_snapshot' 如果只是备份表数据的话,建议使用此种方式备份,SnapshotExport会在本地提交MR任务,将Snapshot和HFile拷贝到备集群,之后可以在备集群直接加载数据,效率比其他方式高很多。
  • CopyTable 拷贝表功能与导出功能类似,拷贝表也使用HBase API创建了一个MapReduce任务,以便从源表读取数据。不同的地方是拷贝表的输出是hbase中的另一张表,这张表可以在本地集群,也可以在远程集群。详情请参考http://hbase.apache.org/2.2/book.html#copy.table。 该方式数据备份的优点: 操作简单,在线拷贝不中断业务,可以指定备份数据的startrow/endrow/timestamp。 该方式数据备份的缺点和限制: 只能单表操作,远程拷贝数据量大时效率较低,MapReduce需要占用本地资源,MapReduce的map个数以表region的个数划分。 在备集群执行如下操作: 执行create命令在备集群上新建与主集群相同结构的表,例如member_copy。 在主集群执行如下操作: 执行CopyTable的命令拷贝表。 hbase org.apache.hadoop.hbase.mapreduce.CopyTable [--starttime=xxxxxx] [--endtime=xxxxxx] --new.name=member_copy --peer.adr=server1,server2,server3:2181:/hbase [--families=myOldCf:myNewCf,cf2,cf3] TestTable starttime/endtime为待拷贝数据的时间戳。 new.name为备集群中目的表的表名,默认为和原来表名相同。 peer.adr为备集群zookeeper节点的信息,格式为quorumer:port:/hbase。 families为待拷贝的表的family列。 如果是拷贝数据到远端集群,此种方式导入数据会在主机群上提交MapReduce任务,读取原始表的全量/部分数据之后采用put的方式写入远端集群,所以如果表的数据量很大(远程拷贝不支持bulkload),则效率会比较低。
  • Offline backup of HDFS data 离线备份HDFS数据,即关闭HBase服务并手工在HDFS上拷贝数据。 该方式数据备份的优点: 可以把主集群上所有数据(包含元数据)整个复制到备集群。 由于是通过Distcp直接拷贝的,所以数据备份的效率相对较高。 实际操作时可以根据具体的需求灵活拷贝,可以只拷贝其中一个表的数据,也可以拷贝region中的其中一个HFile等。 该方式数据备份的缺点和限制: 此操作会覆盖备集群上的HDFS的数据目录。 如果主备集群间的HBase版本不同,HDFS目录直接拷贝可能会出现问题,例如MRS上的hbase1.3版本新增了系统表index,如果使用老版本的HDFS目录直接覆盖,会找不到该数据表。所以此种方案在执行前需要慎重考虑。 此操作对用户使用HBase的能力有一定的要求,如出现异常情况需要根据实际情况执行恢复。 在主集群执行如下操作: 执行如下命令将当前集群内存中的数据持久化到HDFS中。 flush 'tableName' 停止HBase服务。 使用distcp命令拷贝当前集群HDFS上的数据到备集群上。 hadoop distcp -i /hbase/data hdfs://备集群HDFS服务主NameNode节点IP:端口号/hbase hadoop distcp -update -append -delete /hbase/ hdfs://备集群HDFS服务主NameNode节点IP:端口号/hbase/ 第二条命令为增量拷贝除了data目录以外的文件,例如archive里面的数据可能还有被数据目录所引用。 在备集群执行如下操作: 重启HBase服务,使数据迁移生效。在启动过程中,HBase会加载当前HDFS上的数据并重新生成元数据。 启动完成后,在Master节点客户端执行如下命令加载HBase表数据。 $HBase_Home/bin/hbase hbck -fixMeta -fixAssignments 命令执行完成后,重复执行如下命令查看HBase集群健康状态直至正常。 hbase hbck 当用户使用了HBase协处理器,自定义jar包放在主集群的regionserver/hmaster上时,在备集群重启HBase之前,需要把这些自定义jar包也拷贝过来。
  • Doris数据变更规则 在数据查询业务代码中建议查询失败时进行重试,再次下发查询。 应用程序不能直接使用delete或者update语句变更数据,可以使用CDC的upsert方式来实现。 禁止高频执行update、delete或truncate操作,推荐几分钟执行一次,使用delete必须设置分区或主键列条件。 禁止使用INSERT INTO tbl1 VALUES (“1”), (“a”);方式导入数据,少量少次写可以,多量多频次时需使用Doris提供的StreamLoad、BrokerLoad、SparkLoad或者Flink Connector方式。 不建议业务高峰期或在表上频繁的进行加减字段,建议在业务前期规划建表时预留将来要使用的字段。 对于部分查询,可能执行时间比较长,查询比较耗费内存和CPU等资源,需要在SQL或user级别设置查询超时时间参数:query_timeout
  • 添加转储任务 使用注册账户登录DIS控制台。 在左侧列表栏中选择“通道管理”。 单击申请DIS通道中创建的通道名称,进入所选通道的管理页面,选择“转储管理”页签。 单击“添加转储任务”按钮,在弹出的“添加转储任务”页面配置转储相关配置项。 每个通道最多可创建5个转储任务。 源数据类型为FILE的通道,不允许添加转储任务。 单击“立即创建”。 表1 转储任务参数说明 参数 参数解释 配置值 转储服务类型 选择OBS。 通道里的流式数据存储在DIS中,并周期性导入 对象存储服务 (Object Storage Service,简称OBS)。 通道里的实时文件数据传输完成后,导入OBS。 OBS 任务名称 用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。 - 转储文件格式 text csv parquet carbon 根据需要选择。 数据转储地址 存储该通道数据的OBS桶名称。桶名称在“对象存储服务”中“创建桶”时创建。 申请DIS通道创建的桶名称。 转储文件目录 在OBS中存储通道文件的自定义目录,多级目录可用“/”进行分隔,不能以“/”开头。 取值范围:0~50个字符。 默认配置为空。 - 时间目录格式 数据将存储在OBS桶中转储文件目录下,按时间格式作为层级的目录中。 当选择的时间目录格式精确到日时,存储目录为“桶名称/转储文件目录/年/月/日”。 取值范围: N/A:置空,不使用日期时间目录。 yyyy:年 yyyy/MM:年/月 yyyy/MM/dd:年/月/日 yyyy/MM/dd/HH:年/月/日/时 yyyy/MM/dd/HH/mm:年/月/日/时/分 此配置项仅支持选择,不可手动输入。 - 记录分隔符 进行OBS周期转储时,分隔不同转储记录的分隔符。 取值范围: 逗号 "," 分号 ";" 竖线 "|" 换行符 "\n" NULL 此配置项仅支持选择,不可手动输入。 - 偏移量 最新:最大偏移量,即获取最新的数据。 最早:最小偏移量,即读取最早的数据。 最新 数据转储周期 根据用户配置的时间,周期性的将数据导入OBS,若某个时间段内无数据,则此时间段不会生成打包文件。 取值范围:30~900。 单位:秒。 默认配置为300秒。 -
  • 启动DIS Agent 使用文件管理器进入DIS Agent程序的bin目录,例如“C:\dis-agent-X.X.X\bin”。 双击“start-dis-agent.bat”文件,在弹出的控制台窗口显示如下内容表示启动成功。 [INFO ] (main) com.bigdata.dis.agent.Agent Agent: Startup completed in XXX ms. DIS Agent启动后会立即上传文件,并持续打印日志。如果没有ERROR日志表示上传正常。 当日志输出不频繁(每30s打印一次),且有如下类似信息,表示已经上传完成。 Agent: Progress: [0 records (0 bytes) / 10 files (32573229 bytes)] parsed, and [0 records / 10 files] sent successfully to destinations. Uptime: 30146ms
  • 创建OBS表 选择demo数据库,在编辑框中输入以下SQL语句: create table demo.cars( NeutralSlideTime STRING, IsRapidlySlowdown STRING, DataTime STRING, Latitude STRING, IsOverspeedFinished STRING, IsACCOpen STRING, Direction STRING, IsOverspeed STRING, IsNeutralSlide STRING, IsOilLeak STRING, BaiDuLatitude STRING, OverspeedTime STRING, IsRapidlySpeedup STRING, DeviceID STRING, Mileage STRING, Longitude STRING, Velocity STRING, IsNeutralSlideFinished STRING, IsFatgueDriving STRING, Carnum STRING, BaiDuLongitude STRING, BaiDuAdress STRING, IsHthrottleStop STRING, ReceiveTime STRING, Altitude STRING ) USING csv OPTIONS (path "obs://......") 请注意,将SQL语句中的“csv”修改为转储到OBS的文件格式,OBS路径修改为实际存放数据的OBS路径。 单击“执行”,创建表,如图3所示。 图3 创建表 表中的各字段含义请参见表4。 表4 表字段含义 列名称(en) 数据类型 说明 DeviceID string 设备ID DataTime string 数据时间 ReceiveTime string 接收时间 IsACCOpen string ACC是否打开 Longitude string 经度 Latitude string 纬度 Velocity string 速度 Direction string 方向 Altitude string 高度 Mileage string 里程数 BaiDuLongitude string 百度地图经度 BaiDuLatitude string 百度地图纬度 BaiDuAdress string 百度地图地址 Carnum string 车牌号 IsRapidlySpeedup string 急加速 IsRapidlySlowdown string 急减速 IsNeutralSlide string 空挡滑行 IsNeutralSlideFinished string 空挡滑行结束 NeutralSlideTime string 空挡滑行时长(s) IsOverspeed string 超速 IsOverspeedFinished string 超速结束 OverspeedTime string 超速时长(s) IsFatgueDriving string 疲劳驾驶 IsHthrottleStop string 停车轰油门
  • 场景简介 数据接入服务 (Data Ingestion Service,简称DIS)采集增量驾驶行为日志数据并上传到华为云对象存储服务(Object Storage Service,简称OBS),通过 数据湖探索 (Data Lake Insight,简称 DLI )分析上传的日志数据,获取驾驶员的驾驶行为,以支持车企提供驾驶习惯优化等增值服务。 图1 业务流程图 本次实践基本流程如下所示: 申请OBS桶 申请DIS通道 添加转储任务 获取认证信息 安装Agent 准备数据样例 配置DIS Agent 启动DIS Agent 在OBS查看上传文件 创建数据库 创建OBS表 查询数据样例 结果查询
  • 添加转储任务 使用注册账户登录DIS控制台。 在左侧列表栏中选择“通道管理”。 单击申请DIS通道中创建的通道名称,进入所选通道的管理页面,选择“转储管理”页签。 单击“添加转储任务”按钮,在弹出的“添加转储任务”页面配置转储相关配置项。 每个通道最多可创建5个转储任务。 源数据类型为FILE的通道,不允许添加转储任务。 单击“立即创建”。 表1 转储任务参数说明 参数 参数解释 配置值 转储服务类型 选择CloudTable,通道里的流式数据存储在DIS中,并实时导入 表格存储服务 Cloudtable集群的HBase表和OpenTSDB。 CloudTable 任务名称 用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。 - 偏移量 最新:最大偏移量,即获取最新的数据。 最早:最小偏移量,即读取最早的数据。 最新 CloudTable集群 单击“选择”,在“选择CloudTable集群”窗口选择一个集群名称。 此配置项不可配置为空。仅支持选择,不可手动输入。 cloudtable-demo CloudTable表类型 HBase和openTSDB两种。 HBase CloudTable数据表 CloudTable数据表:单击“选择”,在“选择CloudTable数据表”窗口选择一个数据表。 此处路径仅支持选择,不可手动输入。 说明: 配置此项必须已配置“CloudTable集群”并创建了HBase表。 tbl1 备份开关 用户数据转储CloudTable服务失败时,是否将转储失败的数据备份至OBS服务。 开启:是,转储失败的数据备份至OBS服务。 关闭:否,转储失败的数据不备份至OBS服务。 开关默认关闭。 说明: 关闭开关,转储失败的数据会存储在DIS中,并在“生命周期”配置的时间到达时将数据清除。 关闭 Row Key Json属性名,取值范围为英文字母、数字、下划线和小数点,最大取值为32个字符,不可为空,不可以小数点开头,不可包含连续的小数点 且不可以小数点结尾。最多可添加64个属性。 数据类型,从下拉框选择。 Bigint Double Boolean Timestamp String Decimal - Row Key 分隔符 支持“.”、“,”、“|”、“;”、“-”、“_”、和“~”七种字符取值,也可配置为NULL。 最大长度为一个字符。 - Schema 列 列名,取值范围为英文字母、数字和下划线,最大取值为32个字符,不可为空。最多可添加4096个列。 数据类型,从下拉框选择。 Bigint Double Boolean Timestamp String Decimal Json属性名,取值范围为英文字母、数字、下划线和小数点,最大取值为32个字符,不可为空,不可以小数点开头,不可包含连续的小数点 且不可以小数点结尾。 所属列族,从下拉框选择,不可为空。配置此项必须已配置“CloudTable 集群”、“CloudTable 数据表”且CloudTable表类型为HBase。 参见表2表2Schema 列填写。 表2 Schema 列填写 列名 数据类型 JSON属性名 列族 DeviceID String DeviceID i Mileage Bigint Mileage i Latitude Decimal Latitude i IsACCOpen Boolean IsACCOpen i Longitude Decimal Longitude i Velocity Bigint Velocity i Direction String Direction i BaiDuLatitude Decimal BaiDuLatitude i BaiDuLongitude Decimal BaiDuLongitude i BaiDuAdress String BaiDuAdress i ReceiveTime Timestamp ReceiveTime i Altitude String Altitude i
  • 场景介绍 数据接入服务(Data Ingestion Service,简称DIS)实时采集车辆位置数据并上传到华为云的 表格存储 服务(CloudTable Service,简称CloudTable)中,用户可以使用CloudTable查询指定车辆在指定时间段的车辆位置。 图1 业务流程图 本次实践基本流程如下所示: 申请CloudTable集群 在CloudTable中创建数据表 申请DIS通道 添加转储任务 获取认证信息 准备DIS应用开发环境 编写发送数据到DIS的应用程序 启动数据上传程序 在CloudTable中查看上传数据 CloudTable查询指定车辆位置
  • 计费方式 DIS提供按需计费和包年包月计费方式供您灵活选择,使用越久越便宜。 按需计费 DIS默认为按需计费方式,即按实际使用的时长收费,以小时为单位,每小时整点结算,不设最低消费标准。 按需计费方式下各计费项的具体价格,请参见产品价格详情。你可以通过DIS提供的价格计算器,根据您的业务诉求,来快速计算出购买DIS的参考价格。 包年包月 您也可以通过包年包月(资源包)的方式,提前购买使用额度和时长,获取更多的优惠。超出资源包的部分自动转按需计费。 各资源包在不同规格及时长下的具体价格,请参见产品价格详情。你可以通过DIS提供的价格计算器,根据您的业务诉求,来快速计算出购买DIS的参考价格。
  • 计费示例 假设用户A的上传流量为5MB/s,单条记录大小为2KB,创建5个普通分区,采用按需计费。这种情况下每小时收费如下; 分区时间费用 分区时间0.1元/小时,5个分区需要:0.1 * 5 = 0.5元。 消息数量费用 上传消息数量0.1元/百万条,每小时上传消息数量为:5MB/s * 1024 / 2KB * 3600秒 = 9.216百万条。因此工具需要:0.1 * 9.216 = 0.9216元。 因此每小时收费总共需要:0.5 + 0.9216 = 1.4216元/小时。
  • 计费项 DIS根据您的消息数量和使用分区时长计费。 表1 计费项信息 计费项 计费说明 消息数量 用户上传至DIS通道的消息数量,下载不计入消息数量。单条消息计量不超过25KB,即用户每次上传的单条数据超过25KB是按多条消息计算,不足25KB时,按单条消息计算。 说明: 只有DIS普通通道涉及此计费因子,高级通道不按消息数量收费,只根据使用分区时长计费。 分区时间 使用分区的时长,时长从创建DIS分区开始计入。普通通道和高级通道的分区使用时长计费标准不同。 普通通道分区使用时长计费详情请参见DIS分区计费。 高级通道分区使用时长计费详情请参见DIS分区计费。
共100000条