检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Bzip2 使用场景建议: 追求速度的场景(如Mapreduce任务中间数据的存储等)——建议使用LZ4和Snappy(高可靠场景,建议使用Snappy)。 追求压缩比,而对压缩速度要求不高的场景(如冷数据的保存)——建议使用Bzip2或Gzip。 上述压缩算法除LZC外,皆支持
登录FusionInsight Manager,具体请参见访问集群Manager。然后选择“集群 > 服务 > ZooKeeper > 实例”。 查看ZooKeeper角色实例的IP地址。 记录ZooKeeper角色实例其中任意一个的IP地址即可。 根据业务情况,准备好客户端,参考使用MRS客户端章节,登录安装客户端的节点。
表会增加作业的执行时间。 tmp_test 单击“保存并运行”,开始保存并运行作业。 查看作业完成情况 进入“Loader WebUI”界面,待“状态”显示“成功”则说明作业完成。 图4 查看作业 父主题: 创建Loader数据导出作业
表会增加作业的执行时间。 tmp_test 单击“保存并运行”,开始保存并运行作业。 查看作业完成情况 进入“Loader WebUI”界面,待“状态”显示“成功”则说明作业完成。 图4 查看作业 父主题: 创建Loader数据导出作业
使用Hive Hive用户权限管理 Hive客户端使用实践 快速使用Hive进行数据分析 Hive数据存储及加密配置 Hive on HBase 配置Hive读取关系型数据库 配置Hive读取Hudi表 Hive企业级能力增强 Hive性能调优 Hive运维管理 Hive常见SQL语法说明
调整。 登录FusionInsight Manager。 选择“集群 > 服务 > Spark2x > 更多 > 启用Ranger鉴权”,查看该参数是否置灰。 是,创建用户并在Ranger中赋予该用户相关操作权限: 选择“系统 > 权限 > 用户 > 添加用户”,在新增用户界面创
r2的地址连接。 hiveserver2服务的主机名可以在Manager界面选择“集群 > 服务 > Hive > 实例”,在“实例”界面查看“HiveServer”的“主机名称”获取。 父主题: Hive应用开发常见问题
JDBCExample为举例,具体以实际样例代码为准。 执行run.sh脚本,运行Jar包。 sh /opt/client/IoTDB/iotdb/run.sh 查看调测结果 运行结果会有如下成功信息: 图3 运行结果 父主题: 调测IoTDB应用
/src/main/resources com.huawei.bigdata.iotdb.KafkaConsumerMultThread 查看调测结果 运行结果会有如下成功信息: 父主题: 调测IoTDB应用
通过IntelliJ IDEA可直接运行Producer.java,如图1所示: 图1 运行Producer.java 运行后弹出控制台窗口,可以查看到Producer正在向默认Topic(example-metric1)发送消息,每发送10条,打印一条日志。 图2 Producer运行窗口
可以勾选“同时重启上层服务。”一次性重启所有影响组件,期间将导致影响服务不可用,谨慎使用。 单击“确定”,等待服务重启成功。 选择“集群 > 主备集群容灾”,查看当前集群是否配置了主备容灾。 是,执行7。 否,操作结束。 主集群与容灾集群内ZooKeeper服务的“ssl.enabled”配置需保持
导入并配置Spark样例工程 操作场景 Spark针对多个场景提供样例工程,包含Java样例工程和Scala样例工程等,帮助客户快速学习Spark工程。 针对Java和Scala不同语言的工程,其导入方式相同。使用Python开发的样例工程不需要导入,直接打开Python文件(*
r2的地址连接。 HiveServer2服务的主机名可以在Manager界面选择“集群 > 服务 > Hive > 实例”,在“实例”界面查看“HiveServer”的“主机名称”获取。 在运行样例代码前,需要将样例代码中的PRNCIPAL_NAME改为安全认证的用户名。 父主题:
或删除“krb5.conf”配置文件的“renew_lifetime = 0m”配置项。 HBase应用程序运行完成后,可直接通过运行结果查看应用程序运行情况。 运行结果出现如下信息表示程序运行成功。 2020-03-13 14:54:13,369 INFO [main] client
num-committed-allowed”来提前关闭文件,提升写数据性能。但是由于提前关闭了文件,可能在读取数据的时候由于块找不到或者NameNode元数据中记录的数据块信息和DataNode中存储的真实副本不一致而失败。因此该特性不适用于写完数据即读的场景,请结合业务场景谨慎使用该特性。 该功能适用于MRS
mapreduce-example-normal MapReduce统计数据的应用开发示例: 提供了一个MapReduce统计数据的应用开发示例,通过类CollectionMapper实现数据分析、处理,并输出满足用户需要的数据信息。 相关样例介绍请参见MapReduce统计样例程序。 M
threads.per.data.dir 10 在Kafka启动过程中,数据量较大情况下,可调大此参数,可以提升启动速度。 background.threads 10 Broker后台任务处理的线程数目。数据量较大的情况下,可适当调大此参数,以提升Broker处理能力。 num.replica
Distributed Dataset):用于在Spark应用程序中定义RDD的类,该类提供数据集的操作方法,如map,filter。 PairRDDFunctions:为key-value对的RDD数据提供运算操作,如groupByKey。 Broadcast:广播变量类。广播变量允许
precombine.field 必填 数据合并字段。 根据实际填写 write.tasks 选填 写Hudi表task并行度,默认值为4。 4 index.bootstrap.enabled 选填 Flink采用的是内存索引,需要将数据的主键缓存到内存中,保证目标表的数据唯一,因此需要配置该值,
RocksDB的方式为merge()->merge()....->merge()->read(),该方式读取数据时非常耗时,如图1所示。 source算子在瞬间发送了大量数据,所有数据的key值均相等,导致window算子处理速度过慢,使barrier在缓存中积压,快照的制作时间过长,