检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置HetuEngine使用代理用户鉴权 适用于MRS 3.3.0及以后版本。 HetuEngine支持使用FusionInsight Manager用户认证时通过客户自有用户(代理用户)使用Ranger鉴权的能力。即在使用HetuEngine客户端时,通过--session-user来指定代理用户。
开源sqoop-shell工具使用示例(Oracle - HBase) 操作场景 本文将以“从Oracle导入数据到HBase”的作业为例,介绍如何分别在交互模式和批量模式下使用sqoop-shell工具进行创建和启动Loader作业。 本章节适用于MRS 3.x及后续版本。 前提条件
通过Java API提交Oozie作业开发思路 通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,只是job配置“job
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(比如自定义udf包)区分x86和TaiShan版本,如何让spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端spark2x
通过Java API提交Oozie作业开发思路 通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,仅job配置“job
第三方jar包跨平台(x86、TaiShan)支持 问题 用户自己写的jar包(例如自定义udf包)区分x86和TaiShan版本,如何让Spark2x支持其正常运行。 回答 第三方jar包(例如自定义udf)区分x86和TaiShan版本时,混合使用方案: 进入到服务端Spark2x
通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set Digest函数来简单估计文本之间的相似性。通过使用函数ngrams()将输入文本分割为4-shingles(文本被分成长度为
'null'。不过,在从包含NULL的数组或Map进行转换时,生成的JSON将包含NULL。 在从ROW转换为JSON时,结果是一个JSON数组,而不是一个JSON对象。这是因为对于SQL中的行,位置比名称更重要。 支持从BOOLEAN、TINYINT、SMALLINT、INTEGER、BIGINT、RE
径也可以是OBS路径,本示例以HDFS路径为例。 使用方法 修改CompiledPlan中对应算子的“table.exec.resource.default-parallelism”值,即可修改算子的并行度。 示例 开发FlinkServer SQL作业。 可参考如何创建Flin
partitions 所属配置文件 spark-defaults.conf 适用于 数据查询 场景描述 Spark shuffle时启动的Task个数。 如何调优 一般建议将该参数值设置为执行器核数的1到2倍。例如,在聚合场景中,将task个数从200减少到32,有些查询的性能可提升2倍。 表2
获取已经同步的IAM用户和用户组 功能介绍 获取已经同步的IAM用户和用户组 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/clusters/{cluster_id}/iam-sync-user 表1 路径参数 参数 是否必选 参数类型 描述
通过Java API提交Oozie作业开发思路 通过典型场景,用户可以快速学习和掌握Oozie的开发过程,并且对关键的接口函数有所了解。 本示例演示了如何通过Java API提交MapReduce作业和查询作业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,只是job配置“job
MRS Hive对接外部LDAP配置说明 应用场景 本章节介绍Hive如何对接外部LDAP并访问HiveServer。 为了管理集群中数据与资源的访问控制权限,在安全模式下,客户端应用程序在访问集群中的任意资源之前均需要通过身份认证,建立安全会话链接。 MRS通过KrbServe
准备ClickHouse应用运行环境 准备集群认证用户信息 对于开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户用于程序认证。 以下ClickHouse权限配置示例供参考,在实际业务场景中可根据业务需求灵活调整。 登录FusionInsight Manager。
CarbonData Segment API语法说明 本章节描述Segment的API以及使用方法,所有方法在org.apache.spark.util.CarbonSegmentUtil类中。 如下方法已废弃: /** * Returns the valid segments
Oozie日志介绍 日志描述 日志路径:Oozie相关日志的默认存储路径为: 运行日志:“/var/log/Bigdata/oozie”。 审计日志:“/var/log/Bigdata/audit/oozie”。 日志归档规则:Oozie的日志分三类:运行日志、 脚本日志和审计日
Oozie日志介绍 日志描述 日志路径:Oozie相关日志的默认存储路径为: 运行日志:“/var/log/Bigdata/oozie”。 审计日志:“/var/log/Bigdata/audit/oozie”。 日志归档规则:Oozie的日志分三类:运行日志、 脚本日志和审计日
Yarn节点配置调优 操作场景 合理配置大数据集群的调度器后,还可通过调节每个节点的可用内存、CPU资源及本地磁盘的配置进行性能调优。 具体包括以下配置项: 可用内存 CPU虚拟核数 物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 若您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。
partitions 所属配置文件 spark-defaults.conf 适用于 数据查询 场景描述 Spark shuffle时启动的Task个数。 如何调优 一般建议将该参数值设置为执行器核数的1到2倍。例如,在聚合场景中,将task个数从200减少到32,有些查询的性能可提升2倍。 表2
Hue日志介绍 日志描述 日志路径:Hue相关日志的默认存储路径为“/var/log/Bigdata/hue”(运行日志),“/var/log/Bigdata/audit/hue”(审计日志)。 日志归档规则:Hue的日志启动了自动压缩归档功能,默认情况下,当“access.log”、“error