检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
M平台上运行,Python Spark不仅会有JVM进程,还会有自身的Python进程。以下配置项只适用于Python Spark场景,而其他配置项也同样可以在Python Spark中生效。 表4 参数说明 参数 描述 默认值 spark.python.profile 在Python
M平台上运行,Python Spark不仅会有JVM进程,还会有自身的Python进程。以下配置项只适用于Python Spark场景,而其他配置项也同样可以在Python Spark中生效。 表4 参数说明 参数 描述 默认值 spark.python.profile 在Python
安装和配置IntelliJ IDEA 用于开发Hive应用程序的工具。版本要求如下: JDK使用1.8版本,IntelliJ IDEA使用2019.1或其他兼容版本。 说明: 若使用IBM JDK,请确保IntelliJ IDEA中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保IntelliJ
指本地文件系统中文件路径,每个节点都需要放一份/opt/log1.txt和/opt/log2.txt并使用chmod 755 文件名命令为用户赋予读、写、执行权限,而属组用户和其他用户只有读、执行权限。可以默认,也可以自行设置。 <windowTime> 指窗口时间大小,以分钟为单位。可以默认,也可以自行设置。 运行
ce名称(haclusterX,haclusterX1,haclusterX2,haclusterX3,haclusterX4),也可输入其他已配置的远端集群NameService名称。 “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
对于文件这样的源数据,这个Driver恢复机制足以做到零数据丢失,因为所有的数据都保存在了像HDFS这样的容错文件系统中。但对于像Kafka和Flume等其他数据源,有些接收到的数据还只缓存在内存中,尚未被处理,就有可能会丢失。这是由于Spark应用的分布操作方式引起的。当Driver进程失败时,所有在Cluster
com/zh/developer/devkit/compiler/jdk。 安装和配置IntelliJ IDEA 开发环境的基本配置,建议使用2019.1或其他兼容版本。 说明: 若使用IBM JDK,请确保IntelliJ IDEA中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保IntelliJ
建议配置主键字段。 说明: 分区列必须有索引,如果没有索引,请不要指定分区列,指定没有索引的分区列会导致数据库服务器磁盘I/O繁忙,影响其他业务访问数据库,并且导入时间长。 在有索引的多个字段中,选择字段值最离散的字段作为分区列,不离散的分区列会导致多个导入MR任务负载不均衡。
ice名称:haclusterX,haclusterX1,haclusterX2,haclusterX3,haclusterX4;也可输入其他已配置的远端集群NameService名称。 “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
ce名称(haclusterX,haclusterX1,haclusterX2,haclusterX3,haclusterX4),也可输入其他已配置的远端集群NameService名称。 “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
> 待操作集群的名称 > 服务 > HBase > HMaster(主)”,进入HMaster的WebUI页面。 admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。 查看Region
建议配置主键字段。 说明: 分区列必须有索引,如果没有索引,请不要指定分区列,指定没有索引的分区列会导致数据库服务器磁盘I/O繁忙,影响其他业务访问数据库,并且导入时间长。 在有索引的多个字段中,选择字段值最离散的字段作为分区列,不离散的分区列会导致多个导入MR任务负载不均衡。
/opt/client/bigdata_env kinit MRS集群用户(MRS集群用户可以是内置用户hbase,或者已加入hbase组中的其他用户,未开启Kerberos认证集群略过该命令) cd $PHOENIX_HOME bin/sqlline.py zookeerIp:2181
ce名称(haclusterX,haclusterX1,haclusterX2,haclusterX3,haclusterX4),也可输入其他已配置的远端集群NameService名称。 “IP 模式”:目标IP的IP地址模式。系统会根据集群网络类型自动选择对应的IP模式,如IPv4或者IPv6。
单击右上角用户名后,选择“Log Out”,退出当前用户。 使用rangeradmin用户(默认密码为Rangeradmin@123)或者其他具有Ranger管理员权限用户重新登录。用户及默认密码请参考MRS集群用户账号一览表。 单击Hive组件对应行的导出按钮,导出鉴权策略。 图2
安装和配置IntelliJ IDEA 用于开发Hive应用程序的工具。版本要求如下: JDK使用1.8版本,IntelliJ IDEA使用2019.1或其他兼容版本。 说明: 若使用IBM JDK,请确保IntelliJ IDEA中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保IntelliJ
会被更新。 在使用overwrite选项的情况下,如果被拷贝文件在目标位置中已经存在,目标位置的文件依然会被覆盖。 其它命令选项: 表1 其他命令选项 选项 描述 -p[rbugpcaxtq] 当同时使用-update选项时,即使被拷贝文件的内容没有被更新,它的状态信息也会被更新。
Flink技术栈 Flink在当前版本中重点构建如下特性: DataStream Checkpoint 窗口 Job Pipeline 配置表 其他特性继承开源社区,不做增强,具体请参考:https://ci.apache.org/projects/flink/flink-docs-release-1
响应Body参数 参数 参数类型 描述 id String 参数解释: SQL的执行id。执行select、show和desc语句时才会生成id,其他操作id为空。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 message String 参数解释: 错误信息。 约束限制:
当前IAM用户名中存在空格时(例如admin 01),不支持添加作业。 单击“作业管理”,在作业列表界面单击“添加”。 “作业类型”选择“SparkSubmit”,并配置其他作业信息。 图1 添加Spark作业 表1 作业配置信息 参数 描述 示例 作业名称 作业名称,只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。