检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录集群Manager页面,详细操作请参考访问MRS集群Manager。 在Manager界面选择“系统 > 权限 > 角色”创建一个Hive角色(例如“hiverole”),详细操作请参考创建Hive角色。 选择“系统 > 权限 > 用户 > 添加用户”,根据界面提示创建一个人机用户(例如hive
式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 RDD的生成: 从HDFS输入创建,或从与Hadoop兼容的其他存储系统中输入创建。 从父RDD转换得到新RDD。 从数据集合转换而来,通过编码实现。 RDD的存储: 用户可以选择不同的存储级别缓存RDD以便重用(RDD有11种存储级别)。
select语句执行,分成多个批次来执行。 不要使用OR作为JOIN条件。 不建议频繁的数据delete修改,将要删除的数据攒批,偶尔进行批量删除,且需要带上条件,提升系统稳定性和删除效率。 大量数据排序(5亿以上)后返回部分数据,建议先减少数据范围再执行排序,否则大量排序会影响性能。例如: 将from table
metadata 从Hudi的元数据中获取文件列表 N false --verify-metadata-file-listing 根据文件系统验证Hudi元数据中的文件列表 N false --help、-h 查看帮助 N false --support-timestamp 将原
在弹性云服务管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。 其他配置参数详细信息,请参见自定义购买弹性云服务器。 方法二:使用本机访问MRS集群操作Impala,在安装开发环境后并完成以下步骤后再运行样例代码。
显示创建集群时的付费类型,目前支持“按需计费”和“包年/包月”。 集群版本 集群的版本信息。 集群类型 创建集群时的集群类型。 集群ID 集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 创建时间 显示集群创建的时间。 订单号 显示创建集群的订单号。该参数仅在“付费类型”为“包年/包月”时显示。 可用区
metadata 从Hudi的元数据中获取文件列表 N false --verify-metadata-file-listing 根据文件系统验证Hudi元数据中的文件列表 N false --help、-h 查看帮助 N false --support-timestamp 将原
对应的连接的使用权限。 操作步骤 设置作业基本信息 登录“Loader WebUI”界面。 登录FusionInsight Manager系统,具体请参见访问集群Manager。 选择“集群 > 服务 > Loader”。 单击“LoaderServer(节点名称,主)”打开“Loader
er可用硬件资源设置为相同的值,可能造成性能浪费或状态异常,需要修改各个NodeManager角色实例的配置,使硬件资源得到充分利用。 对系统的影响 保存新的配置需要重启NodeManager角色实例,此时对应的角色实例不可用。 操作步骤 MRS 3.x之前的版本集群执行以下操作:
弹性云服务器的网卡需要与MRS集群在同一个网段中。 申请弹性IP,绑定新申请的弹性云主机IP,并配置安全组出入规则。 下载客户端程序。 登录MRS Manager系统。 选择“服务管理 > 下载客户端 ”,下载“完整客户端”到“远端主机”上,即下载客户端程序到新申请的弹性云服务器上。 以root用户安装集群客户端。
在弹性云服务管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。 其他配置参数详细信息,请参见自定义购买弹性云服务器。 方法二:使用本机访问MRS集群操作Impala,在安装开发环境后并完成以下步骤后再运行样例代码。
除。 数据规划 将数据文件上传至HDFS中。 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在Linux系统HDFS客户端新建一个文本文件“data”,内容如下: Miranda,32 Karlie,23 Candice,27 在HDFS路径下建
dbcp.username" = "test", -- 关系型数据库密码,命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 "qubit.sql.dbcp.password" = "xxx"); 如果是安全模式,建表的用户需要“ADMIN”权限。
务所有配置数据导入或者导出,实现配置结果的快速复制。 修改配置参数、导出实例配置或导入实例配置时不影响其他实例。 修改MRS角色实例参数对系统的影响 修改角色实例配置后,如果实例状态为“配置过期”,则需要重启此实例。重启时对应的实例不可用。 配置HBase、HDFS、Hive、S
级别用256,TB级别用512,PB级别用1024。 DICTIONARY_EXCLUDE 设置指定列不生成字典,适用于数值复杂度高的列。系统默认为String类型的列做字典编码,但是如果字典值过多,会导致字典转换操作增加造成性能下降。 一般情况下,列的数值复杂度高于5万,可以被
点磁盘可用空间块放置策略”,可提高将块数据写到磁盘可用空间较大节点的概率,解决因为数据节点磁盘容量不一致导致的节点使用率不均衡的情况。 对系统的影响 修改磁盘选择策略为“节点磁盘可用空间块放置策略(org.apache.hadoop.hdfs.server.blockmanagement
dbcp.username" = "test", -- 关系型数据库密码,命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 "qubit.sql.dbcp.password" = "xxx"); 父主题: 使用Hive
impl”:指定使用Hive还是Spark SQL native作为SQL执行引擎来读取ORC数据,默认为hive。 配置参数 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围
client实例都会尝试再次连接NameNode,导致应用长时间等待超时。 当位于同一JVM进程中的客户端对无法访问的NameNode进行连接时,会对系统造成负担。为了避免这种负担,MRS集群搭载了NameNode blacklist功能。 在新的Blacklisting DFSClient
impl”:指定使用Hive还是Spark SQL native作为SQL执行引擎来读取ORC数据,默认为hive。 配置参数 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。 参数 说明 默认值 取值范围 spark.sql