检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hue与Hadoop集群 表1 Hue与其它组件的关系 名称 描述 HDFS HDFS提供REST接口与Hue交互,用于查询、操作HDFS文件。 在Hue把用户请求从用户界面组装成接口数据,通过调用REST接口调用HDFS,通过浏览器返回结果呈现给用户。 Hive Hive提供T
修复网络故障,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行2。 登录集群所有Master节点,执行如下命令,找到所有sedxxx文件并清理。 find /srv/BigData/ -name "sed*" find /opt -name "sed*" 收集故障信息。 在MRS
MRS 1.9.3.2 修复问题列表: MRS大数据组件 解决通过sparksql和beeline进行insert overwrite操作时,旧文件无法进行trash问题 MRS 1.9.3.1 修复问题列表: MRS Manager 解决自定义集群缩容Task节点失败问题 MRS大数据组件
run archivelog on $tablename; --执行archivelog合并清理元数据文件。 关于清理、归档参数的值不宜设置过大,会影响Hudi表的性能,通常建议: hoodie.cleaner.commits.retained
x及之后版本)。然后选择“集群 > 待操作的集群名称 > 服务 > Hive > 配置 > 全部配置”。 选择“HiveServer(角色) > 自定义”,对参数文件“hive-site.xml”添加自定义参数,设置“名称”为“hive.internaltable.notallowlocation”,“
stHashJoin的Spark任务无法执行,导致超时出现。因此需要在JDBCServer的“spark-defaults.conf”配置文件中调整超时时间。 表1 参数描述 参数 描述 默认值 spark.sql.broadcastTimeout BroadcastHashJo
tempt次数(MapReduce默认4次)而失败。 规避手段: 在“客户端安装路径/Yarn/config/yarn-site.xml”文件中修改“yarn.resourcemanager.am-scheduling.node-blacklisting-disable-thre
调测Hive Python样例程序 Python样例工程的命令行形式运行 赋予“python-examples”文件夹中脚本的可执行权限。在命令行终端执行以下命令: chmod +x python-examples -R。 在“python-examples/pyCLI_sec.
BrokerList格式为brokerIp:9092; 若用户需要对接安全Kafka,则还需要在spark客户端的conf目录下的“jaas.conf”文件中增加“KafkaClient”的配置信息,示例如下: KafkaClient { com.sun.security.auth.module
解决方法步骤如下: 确认Sqoop客户端和HBase客户端是否在同一个路径下。 是,执行2。 否,删除原有的Sqoop和HBase客户端文件,从FusionInsight Manager上下载完整的客户端安装在同一路径下。执行2。 以root用户登录Sqoop客户端安装节点。 下载以下HBase
html#matchsslcontext_tls。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-Zip 16.04版本。 父主题: 准备Kafka应用开发环境
html#matchsslcontext_tls。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-Zip 16.04版本。 父主题: 准备Kafka应用开发环境
为了解决上面问题,需要对参数进行调整。 增大partition数,把任务切分的更小。 增大任务执行过程中的超时时间。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。 表2 参数说明 参数 描述 建议值 spark.sql.shuffle.partitions shuffle操作时,shuffle数据的分块数。
为了解决上面问题,需要对参数进行调整。 增大partition数,把任务切分的更小。 增大任务执行过程中的超时时间。 在客户端的“spark-defaults.conf”配置文件中配置如下参数。 表2 参数说明 参数 描述 建议值 spark.sql.shuffle.partitions shuffle操作时,shuffle数据的分块数。
insync.replicas可以确保多副本写入成功,只要有一个副本保持活跃状态,记录将不会丢失。 说明: 该参数在kafka客户端配置文件中配置。 min.insync.replicas 1 当Producer设置acks为-1时,指定需要写入成功的副本的最小数目。 配置高可用、高性能的影响:
Web页面导出已有组件的鉴权策略,切换Ranger元数据完成后可重新导入已有的鉴权策略。此处以Hive为例,导出后会生成本地的JSON格式的策略文件。 登录FusionInsight Manager页面。 选择“集群 > 服务 > Ranger”,进入Ranger服务概览页面。 单击“
final String hostName = paraTool.get("hostName"); // 修改hosts文件,使用主机名 final String keytab = paraTool.get("keytab"); //
RS集群已安装Hive。 使用“Data Browsers”管理Hive中的表。需要MRS集群已安装Hive。 使用查看HDFS中的目录和文件。需要MRS集群已安装HDFS。 使用查看MRS集群中所有作业。需要MRS集群已安装YARN。 使用创建的用户第一次登录Hue WebUI,需修改密码。
分区的列 inputFormat 输入格式 totalNumberFiles 分区下文件个数 totalFileSize 分区下文件总大小 maxFileSize 最大文件大小 minFileSize 最小文件大小 lastAccessTime 最后访问时间 lastUpdateTime
分区的列 inputFormat 输入格式 totalNumberFiles 分区下文件个数 totalFileSize 分区下文件总大小 maxFileSize 最大文件大小 minFileSize 最小文件大小 lastAccessTime 最后访问时间 lastUpdateTime