检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
周边云服务对接 MRS对接LakeFormation云服务 使用MRS Spark SQL访问DWS表 Hive对接CSS服务 使用MRS Hive表对接OBS文件系统
MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下Doris相关样例工程: 表1 Doris相关样例工程
shuffle Service。 Spark应用使用External shuffle Service。 在客户端的安装目录“/Spark/spark/conf/spark-defaults.conf”中必须添加如下配置项: spark.shuffle.service.enabled
MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example,切换分支为与MRS集群相匹配的版本分支,然后下载压缩包到本地后解压,即可获取各组件对应的样例代码工程。 当前MRS提供以下Doris相关样例工程: 表1 Doris相关样例工程
Flink开启Checkpoint样例程序 Flink Job Pipeline样例程序 Flink Join样例程序 Flink对接云搜索服务(CSS)样例程序 父主题: Flink开发指南(普通模式)
动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service,具体请参考使用External Shuffle Service提升性能。 在“spark-defaults.conf”配置文件中必须添加配置项“spark.dynamicAllocation
{reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay} 确保集群安装完成,包括HDFS、Yarn、Spark2x和Kafka。 将Kafka的Broker配置参数“allow.everyone.if.no
{reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay} 确保集群安装完成,包括HDFS、Yarn、Spark2x和Kafka。 将Kafka的Broker配置参数“allow.everyone.if.no
Doris连接运行规范 连接Doris和运行Doris任务时需遵循的规范如下: 推荐使用ELB连接Doris,避免当连接的FE故障时,无法对外提供服务。 当Doris单实例或硬件故障时,新提交的任务能运行成功,但不能确保故障时正在运行的任务能执行成功。因此,需要用户连接Doris
Group的情况下,一个SubTask是部署在一个slot上的。即使开启了Slot Sharing Group,大部分情况下Slot中拥有的SubTask也是负载均衡的。所以可以理解为TM上的Slot个数代表了上面运行的任务线程数。 合理的Slots数量应该和CPU核数相同,在使用超线程时,每个Slot将占用2个或更多的硬件线程。
ClickHouse企业级能力增强 通过ELB访问ClickHouse ClickHouse开启mysql_port配置 父主题: 使用ClickHouse
IP地址:可登录FusionInsight Manager界面,选择“集群 > 服务 > Yarn > 实例”查看任一ResourceManager的业务IP获取。 端口:ResourceManager的HTTP端口。可登录FusionInsight Manager界面,选择“集群 > 服务 > Yarn > 配置
IP地址:可登录FusionInsight Manager界面,选择“集群 > 服务 > Yarn > 实例”查看任一ResourceManager的业务IP获取。 端口:ResourceManager的HTTPS端口。可登录FusionInsight Manager界面,选择“集群 > 服务 > Yarn > 配置
查看ClickHouse慢查询语句 查看ClickHouse复制表数据同步监控 配置ClickHouse副本间数据强一致 配置ClickHouse支持事务能力 配置通过ELB访问ClickHouse 父主题: 使用ClickHouse
master:连接字符串,连接方式有local、yarn-cluster、yarn-client等。 appName:构建的Application名称。 SparkHome:集群中安装Spark的目录。 jars:应用程序代码和依赖包。 主体程序:处理数据 Spark shell命令 Spark基本shell命令,支持提交Spark应用。命令为:
进入Linux客户端目录,运行如下命令导入公共环境变量: cd/opt/client sourcebigdata_env 在该目录下用hdfs用户进行命令行认证,用户密码请咨询集群管理员。 kinithdfs kinit一次票据时效24小时。24小时后再次运行样例,需要重新kinit命令。 进入“/opt/clien
执行以下命令配置环境变量并认证用户: cd 客户端安装目录 source bigdata_env kinit 组件业务用户(未开启Kerberos认证的集群请跳过该操作) 将数据导入到HDFS中。 hdfs dfs -mkdir <inputdir> hdfs dfs -put <local_data_file>
执行以下命令配置环境变量并认证用户: cd 客户端安装目录 source bigdata_env kinit 组件业务用户(未开启Kerberos认证的集群请跳过该操作) 将数据导入到HDFS中。 hdfs dfs -mkdir <inputdir> hdfs dfs -put <local_data_file>
进入Linux客户端目录,运行如下命令导入公共环境变量: cd/opt/client sourcebigdata_env 在该目录下用hdfs用户进行命令行认证,用户密码请咨询集群管理员。 kinithdfs kinit一次票据时效24小时。24小时后再次运行样例,需要重新kinit命令。 进入“/opt/clien
-1, "lastUpdatedEpoch" : 1517383247086 } ] }] 结果分析: 通过这个命令,可以查询当前集群中所有的Spark应用(包括正在运行的应用和已经完成的应用),每个应用的信息如下表1。 表1 应用常用信息 参数 描述 id 应用的ID name