检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
r)产生的中间结果集大小进行估算,最后根据估算的结果来选择最优的执行计划。 设置配置项。 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo”,将其设置为true,默认为false。 在客户端执行SQL语句set spark.sql.cbo=true进行配置。
查看ZooKeeper实例所在节点上是否安装DNS。在ZooKeeper实例所在Linux节点使用命令cat /etc/resolv.conf,看该文件是否为空。 是,执行2。 否,执行3。 运行命令service named status查看DNS是否启动。 是,执行3。 否,执行5。 运行命令service
在开启了写时合并选项的Unique表中,数据在导入阶段就会将被覆盖和被更新的数据进行标记删除,同时将新的数据写入到新的文件。在查询时,所有被标记删除的数据都会在文件级别被过滤,读取出来的数据是最新的数据,消除了读时合并中数据聚合的过程,并且支持多种谓词的下推,因此在聚合查询场景下能带来较大的性能提升。
分桶表不支持insert into 分桶表(bucket table)不支持insert into,仅支持insert overwrite,否则会导致文件个数与桶数不一致。 使用WebHCat的部分REST接口的前置条件 WebHCat的部分REST接口使用依赖于MapReduce的JobH
表3 参数说明 参数 描述 默认值 mapreduce.reduce.merge.inmem.threshold 内存合并进程的文件数阈值。累计文件数达到阈值时会发起内存合并及溢出到磁盘。小于等于0的值表示该阈值不生效且仅基于ramfs的内存使用情况来触发合并。 1000 mapreduce
表3 参数说明 参数 描述 默认值 mapreduce.reduce.merge.inmem.threshold 内存合并进程的文件数阈值。累计文件数达到阈值时会发起内存合并及溢出到磁盘。小于等于0的值表示该阈值不生效且仅基于ramfs的内存使用情况来触发合并。 1000 mapreduce
Kerberos管理员的密码将重新初始化,请使用默认密码并重新修改。组件运行用户的密码是系统随机生成的,如果用于身份认证,请参见下载MRS集群用户认证凭据文件,重新下载keytab文件。 修改域名后,“admin”用户、组件运行用户和系统管理员在修改域名以前添加的“人机”用户,密码会重置为相同密码,请重新修改
关闭使用codegen的方式来生成Java代码的功能,从而确保语句的正常执行。即在客户端的“spark-defaults.conf”配置文件中将“spark.sql.codegen.wholeStage”配置为“false”。 父主题: SQL和DataFrame
下,执行./bin/spark-shell即可进入Scala交互式界面从HDFS中获取数据,再操作RDD。 示例:一行代码可以实现统计一个文件中所有单词。 scala> sc.textFile("hdfs://10.96.1.57:9000//wordcount_data.txt")
准备开发用户 参考准备MRS应用开发用户进行操作,准备用于应用开发的集群用户并授予相应权限。 7-zip 用于解压“*.zip”和“*.rar”文件,支持7-zip 16.04版本。 父主题: 准备Oozie应用开发环境
资源路径”在“路径”中输入obs_bucket_name。 其中obs_bucket-name请使用实际的OBS桶名替换。若桶类型为“并行文件系统”需要再添加obs_bucket_name/tmp/路径,桶类型为“对象存储”则不需要添加obs_bucket_name/tmp/路径。
如果column qualifier上建有索引,在该字段的批量删除操作会失败,即不允许在建有索引的字段上执行批量删除。 如果不设置执行结果输出数据文件(delete.hfile.output),默认是“/tmp/deletedata/表名”。 父主题: 增强HBase BulkLoad工具数据迁移能力
false表示使用多实例模式。 true表示使用多租户模式。 true spark.scheduler.allocation.file 公平调度文件路径。 多主实例配置为:#{conf_dir}/fairscheduler.xml 多租户配置为:./__spark_conf__/__h
面。 选择并停止需要配置的计算实例,单击计算实例的“配置”,进入计算实例配置界面。 根据使用场景添加如下自定义配置并保存。 名称 值 参数文件 说明 implicit-conversion true coordinator.config.properties 隐式转换 udf-implicit-conversion
调测Hive Python样例程序 Python样例工程的命令行形式运行 赋予“python-examples”文件夹中脚本的可执行权限。在命令行终端执行以下命令: chmod +x python-examples -R。 在python-examples/pyCLI_sec.p
或参考获取集群ID获取。 IAM用户已同步完成,可通过在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。 作业相关程序和输入文件已存放在OBS中。 该示例以新增MapReduce作业为例。 操作步骤 接口相关信息 URI格式:POST /v2/{project_id
ms,即重试次数=连接RM的等待时间最大值/重试连接RM的时间频率。 在Spark客户端机器中,通过修改“conf/yarn-site.xml”文件,添加并配置“yarn.resourcemanager.connect.max-wait.ms”和“yarn.resourcemanager
在“自定义配置”中单击“增加”,添加2个同名参数“query.max-memory-per-node”,值设置为小于“JVM”中“-Xmx”值的70%的值,参数文件分别选择“coordinator.config.properties”和“worker.config.properties”。 单击“确定”,并重新启动计算实例。
ms,即重试次数=连接RM的等待时间最大值/重试连接RM的时间频率。 在Spark客户端机器中,通过修改“conf/yarn-site.xml”文件,添加并配置“yarn.resourcemanager.connect.max-wait.ms”和“yarn.resourcemanager
不同语言的开发环境配置。Flink的运行环境即Flink客户端,请根据指导完成客户端的安装和配置。 准备本地应用开发环境 准备连接集群配置文件 准备工程 Flink提供了样例程序,您可以导入样例工程进行程序学习。或者您可以根据指导,新建一个Flink工程。 导入并配置Flink样例工程