检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
saveAsTextFile(path, compressionCodecClass) 把dataset写到一个text file、HDFS或者HDFS支持的文件系统中,spark把每条记录都转换为一行记录,然后写到file中。 saveAsSequenceFile(path, compressionCodecClass=None)
获取样例工程并将其导入IDEA,导入样例工程依赖jar包。通过IDEA配置并生成jar包。 准备样例工程所需数据。 将场景说明中的原日志文件放置在HDFS系统中。 本地新建两个文本文件,分别将log1.txt及log2.txt中的内容复制保存到input_data1.txt和input_data2
群的配置数据与后台配置数据。 若集群中某些服务的配置状态为“失败”时,同步指定服务的配置数据与后台配置数据。 同步MRS集群组件配置参数对系统的影响 同步集群或服务配置后,需要重启配置过期的服务。重启时对应的服务不可用。 同步角色实例配置后,需要重启配置过期的角色实例。重启时对应的角色实例不可用。
如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 修改MRS集群组件配置参数对系统的影响 配置HBase、HDFS、Hive、Spark、Yarn、MapReduce服务属性后,需要重新下载并更新客户端配置文件。 集群中
log4j.logger.org.apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN OBS文件系统打印大量日志可能导致读写性能受影响,可通过调整OBS客户端日志级别优化,日志调整方式如下: cd ${client_home}/HDFS/hadoop/etc/hadoop
使得Join计算的性能大大降低,该过程如图1所示: 图1 无同分布数据传输流程 由于数据表文件是以HDFS Block方式存放在物理文件系统中,如果能把两个需要Join的文件数据块按Join Key分区后,一一对应地放在同一台机器上,则在Join计算的Reduce过程中无需传递数据,直接在节点本地做Map
获取样例工程并将其导入IDEA,导入样例工程依赖jar包。通过IDEA配置并生成jar包。 准备样例工程所需数据。 将场景说明中的原日志文件放置在HDFS系统中。 本地新建两个文本文件,分别将log1.txt及log2.txt中的内容复制保存到input_data1.txt和input_data2
在权限管理中,为了方便用户使用,授予数据库下表的任意权限将自动关联该数据库目录的HDFS权限。为了避免产生性能问题,取消表的任意权限,系统不会自动取消数据库目录的HDFS权限,但对应的用户只能登录数据库和查看表名。 若为角色添加或删除数据库的查询权限,数据库中的表也将自动添加
执行HDFS文件并发操作命令 操作场景 集群内并发修改文件和目录的权限及访问控制的工具。 本章节适用于MRS 3.x及后续版本。 对系统的影响 因为集群内使用文件并发修改命令会对集群性能造成较大负担,所以在集群空闲时使用文件并发操作命令。 前提条件 已安装HDFS客户端或者包括H
column1 = 'india' and exists( select * from table3 o where o.column2 > 1); 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: DML
column1 = 'india' and exists( select * from table3 o where o.column2 > 1); 系统响应 可在driver日志和客户端中查看命令运行成功或失败。 父主题: CarbonData语法参考
执行HDFS文件并发操作命令 操作场景 集群内并发修改文件和目录的权限及访问控制的工具。 本章节适用于MRS 3.x及后续版本。 对系统的影响 因为集群内使用文件并发修改命令会对集群性能造成较大负担,所以在集群空闲时使用文件并发操作命令。 前提条件 已安装HDFS客户端或者包括H
kerberos.login.keytab: " 在安全集群环境下,Flink需要进行安全认证。当前客户端未进行相关安全认证设置。 Flink整个系统有两种认证方式: 使用kerberos认证:Flink yarn client、Yarn Resource Manager、JobMana
消息传输,进而满足不同的性能和可靠性要求。本章节介绍如何配置Kafka高可用和高可靠参数。 本章节内容适用于MRS 3.x及后续版本。 对系统的影响 配置高可用、高性能的影响: 配置高可用、高性能模式后,数据可靠性会降低。在磁盘故障、节点故障等场景下存在数据丢失风险。 配置高可靠性的影响:
Insight Manager为主机重新分配机架,相关服务才会自动调整。 本章节仅适用于MRS 3.x及以后版本。 修改集群节点机架信息对系统的影响 修改主机机架名称,将影响HDFS的副本存放策略、Yarn的任务分配及Kafka的Partition存储位置。修改后需重启HDFS、Yarn和Kafka,使配置信息生效。
saveAsTextFile(path: String): Unit 把dataset写到一个text file、HDFS或者HDFS支持的文件系统中,spark把每条记录都转换为一行记录,然后写到file中。 saveAsSequenceFile(path: String, codec:
saveAsTextFile(path: String): Unit 把dataset写到一个text file、HDFS或者HDFS支持的文件系统中,spark把每条记录都转换为一行记录,然后写到file中。 saveAsSequenceFile(path: String, codec:
通过如下配置项可开启自动进行数据倾斜处理功能,通过将Hash分桶后数据量很大的、且超过数据倾斜阈值的分桶拆散,变成多个task处理一个桶的数据机制,提高CPU资源利用率,提高系统性能。 未产生倾斜的数据,将采用原有方式进行分桶并运行。 使用约束: 只支持两表Join的场景。 不支持FULL OUTER JOIN的数据倾斜处理。
backtype.storm.StormSubmitter.submitTopologyAs(StormSubmitter.java:213) 查看系统/tmp目录,发现存在user.keytab文件,且文件宿主非运行用户。 解决办法 提交拓扑时携带用户user.keytab文件。 提交拓扑时的用户需要和user
在权限管理中,为了方便用户使用,授予数据库下表的任意权限将自动关联该数据库目录的HDFS权限。为了避免产生性能问题,取消表的任意权限,系统不会自动取消数据库目录的HDFS权限,但对应的用户只能登录数据库和查看表名。 如果为角色添加或删除数据库的查询权限,数据库中的表也将自动添