检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表3 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例
设置数据保存信息并运行作业 单击“下一步”,进入“输出设置”界面,根据实际场景在“存储类型”选择“HBASE_BULKLOAD”或“HBASE_PUTLIST”,设置数据保存方式。 表3 输出设置参数 存储类型 适用场景 参数名 说明 示例 HBASE_BULKLOAD 数据量大 HBase实例
算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec.compress.output=true;
AvailableSpaceVolumeChoosingPolicy,保存并重启受影响的服务或实例。 让DataNode根据磁盘剩余空间大小,优先选择磁盘剩余空间多的节点存储数据副本。 针对新写入到本DataNode的数据会优先写磁盘剩余空间多的磁盘。 部分磁盘使用率较高,依赖业务逐渐删除在HDFS中的数据(老化数据)来逐渐降低。
IoTDB > 普通用户权限”,勾选root根目录的“设置存储组”权限后,单击“确定”保存,创建不同的存储组。 2. 在“配置资源权限”的表格中选择“待操作集群的名称 > IoTDB > 普通用户权限 > root”,选择对应的存储组,根据不同任务场景,勾选对应的“创建”、“修改”、“
成为脏数据。 样例 以Hive导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表“test_1”用于存储Hive数据。执行以下语句: create table test_1 (id int, name text, value text); 配
为脏数据。 样例 以SPARK导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表“test_1”用于存储SparkSQL数据。执行以下语句: create table test_1 (id int, name text, value text);
算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec.compress.output=true;
当前用户需要对该文件的目录有执行权限。 由于load操作会将该文件移动到表对应的目录中,所以要求当前用户需要对表的对应目录有写权限。 要求文件的格式与表指定的存储格式相同。如创建表时指定stored as rcfile,但是文件格式为txt,则不符合要求。 文件必须是HDFS上的文件,不可以用fil
调整元数据缓存配置可参考调整HetuEngine元数据缓存。 调整动态过滤配置可参考调整HetuEngine动态过滤。 调优案例 某用户使用Hudi MOR表存储其设备的订单出借信息,可通过订单号查询订单详细信息,每天订单量相对稳定,部分节假日可能存在小高峰,该场景存在以下特点: 订单号作为唯一值,
配置ClickHouse对接OBS源文件 使用S3表函数 登录主OMS节点。 执行以下命令获取OBS内的存储数据。 select * from S3(path, [ak, sk,] format, structure, [compression]) path:访问域名/OBS文件
算法为ARC4Codec。SequenceFile是Hadoop特有的文件格式,RCFile是Hive优化的文件格式。RCFile优化了列存储,在对大表进行查询时,综合性能表现比SequenceFile更优。 set hive.exec.compress.output=true;
成为脏数据。 样例 以Hive导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表“test_1”用于存储Hive数据。执行以下语句: create table test_1 (id int, name text, value text); 配
为脏数据。 样例 以SPARK导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表“test_1”用于存储SparkSQL数据。执行以下语句: create table test_1 (id int, name text, value text);
配置ClickHouse对接OBS源文件 本章节主要介绍使用ClickHouse对接OBS进行文件读写。 使用S3表函数 登录主OMS节点。 执行以下命令获取OBS内的存储数据。 select * from S3(path, [ak, sk,] format, structure, [compression])
hiveserver主机名:10000/ 由于使用ZooKeeper连接会访问ZooKeeper的“/hiveserver2”目录下的IP,但是里面存储的是私有IP,本地Windows无法连通,所以需要替换为HiveServer2的地址连接。 HiveServer2服务的主机名可以在Manager界面选择“集群
Flink流式写Hudi表参数规范 参数名称 是否必填 参数描述 建议值 Connector 必填 读取表类型。 hudi Path 必填 表存储的路径。 根据实际填写 hoodie.datasource.write.recordkey.field 必填 表的主键。 根据实际填写 write
会成为脏数据。 样例 以HBase导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表test_1用于存储HBase数据。执行以下语句: create table test_1 (id int, name text, value text);
GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 数据规划 DataStream样例工程的数据存储在文本中。 将log1.txt和log2.txt放置在指定路径下,例如"/opt/log1.txt"和"/opt/log2.txt"。 数
male,50 CaiXuyu,female,50 FangBo,female,60 数据规划 Spark Streaming样例工程的数据存储在Kafka组件中(需要有Kafka权限用户)。 本地新建两个文本文件input_data1.txt和input_data2.txt,将log1