正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL和DataFrame Spark SQL ROLLUP和CUBE使用的注意事项 Spark SQL在不同DB都可以显示临时表 如何在Spark命令中指定参数值 SparkSQL建表时的目录权限 为什么不同服务之间互相删除UDF失败 Spark SQL无法查询到Parquet类型的Hive表的新插入数据
MRS 2.1.0.1补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.1 发布时间 2020-02-12 解决的问题 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。
导入并发数,默认值为:10。 最小处理的数据量、最大并发数、源文件的大小和当前集群BE节点的个数共同决定了本次任务导入的并发数: 本次导入并发数 = Math.min(源文件大小/最小处理量,最大并发数,当前BE节点个数) 本次导入单个BE的处理量 = 源文件大小/本次导入的并发数
该例子有两种实现模式,其中实现1的逻辑如图1所示,实现2的逻辑如图2所示。 图1 实现1逻辑 实现1的逻辑说明 : 根据车牌号聚合该车通过的所有收费站并排序,处理后数据如下: 车牌号1,[(通过时间,收费站3),(通过时间,收费站2),(通过时间,收费站4),(通过时间,收费站5)] 标识该收费站是这辆车通过的第几个收费站。
如果不再使用某条策略,可单击按钮删除该策略。 Spark2x表数据脱敏 Ranger支持对Spark2x数据进行脱敏处理(Data Masking),可对用户执行的select操作的返回结果进行处理,以屏蔽敏感信息。 修改服务端和客户端spark.ranger.plugin.masking.enable参数值为true。
如果不再使用某条策略,可单击按钮删除该策略。 Spark2x表数据脱敏 Ranger支持对Spark2x数据进行脱敏处理(Data Masking),可对用户执行的select操作的返回结果进行处理,以屏蔽敏感信息。 修改服务端和客户端spark.ranger.plugin.masking.enable参数值为true。
该例子有两种实现模式,其中实现1的逻辑如图1所示,实现2的逻辑如图2所示。 图1 实现1逻辑 实现1的逻辑说明 : 根据车牌号聚合该车通过的所有收费站并排序,处理后数据如下。 车牌号1,[(通过时间,收费站3),(通过时间,收费站2),(通过时间,收费站4),(通过时间,收费站5)] 标识该收费站是这辆车通过的第几个收费站。
当升级Manager所在的节点时,可能出现Manager无法登录问题,是Manager所在的节点在进行主备倒换的正常现象,请稍后重新登录即可。若长时间无法登录,请联系运维人员处理。 停止所有角色后,可能出现如下告警,Master节点规格升级完成并启动所有角色后,告警将自动恢复。 ALM-12006 节点故障 ALM-12010
enabled”(客户端查询app任务数据时是否从TimelineServer服务获取)参数设置为“false”,直接从ResourceManager上面获取app任务数据。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > Yarn > 配置 > 全部配置”。 在左侧导航栏选择“Yarn(服务)
配置的长度截取,“类型”为“CHAR”时实际长度不足则空格补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 无 数据处理规则 将字段值输出到表中。 样例 以HBase导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表te
和状态大小,在某些工作负载下可以获得显著的性能提升。 拆分distinct聚合优化聚合中数据倾斜 通过两阶段聚合能消除常规的数据倾斜,但是处理distinct聚合时性能并不好。因为即使启动了两阶段聚合,distinct key也不能combine消除重复值,累加器中仍然包含所有的原始记录。
都上传到同Region的OBS文件系统中。 因为不同Region间有网络隔离,MRS虚拟机无法下载其他Region上的OBS文件。 脚本中如何从OBS文件系统下载文件。 您可以在脚本中指定从OBS下载需要的文件。如果将文件上传到私有文件系统,需要用hadoop fs下载。 例如,
so.2: cannot open shared object file: No such file or directory 请按照以下方式处理: 首先执行如下命令,查询所装操作系统中LibSASL的版本 ldconfig -p|grep sasl 结果如下则表示当前操作系统仅存在3
线该regionserver节点上的region,最后出现查询该RS上某一个region时会报region not online的异常。 处理步骤 进入HBase服务页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > HBase”。 如果集群详情页
Kafka集群使用Kafka和Storm组件提供一个开源高吞吐量,可扩展性的消息系统。广泛用于日志收集、监控数据聚合等场景,实现高效的流式数据采集,实时数据处理存储等。 Kafka、Storm ClickHouse集群 ClickHouse是一个用于联机分析的列式数据库管理系统,具有压缩率和极速查
配置的长度截取,“类型”为“CHAR”时实际长度不足则空格补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 无 数据处理规则 将字段值输出到表中。 样例 以HBase导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表te
Streaming应用创建1个输入流,但该输入流无输出逻辑时,则不会给它设置context。所以在序列化时报“NullPointerException”。 解决办法:应用中如果有无输出逻辑的输入流,则在代码中删除该输入流,或添加该输入流的相关输出逻辑。 父主题: Spark Streaming
MRS 1.7.1.5补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.7.1.5 发布时间 2018-11-12 解决的问题 MRS Manager MRS Manager UI界面排版优化。 MRS Manager操作及显示易用性优化。 MRS Manager增加大数据服务滚动重启能力。
义和元数据查询。基于MRS的HCatalog功能,Hive、MapReduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL,提交MapReduce任务,查询MapReduce任务执行结果等操作。
使用AK/SK获取MRS集群主机列表时,请求头中未填充project_id等参数导致云服务解析token的project_id与集群的project_id不符合。 处理步骤 在使用AK/SK认证方式调用接口前,请参见表1收集对应信息,详细的签名方法和SDK使用方法请参见API签名指南。 在构造API请求前