检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
classpath" value="true" />” ,如图1。 图1 修改“ .idea\workspace.xml”文件 父主题: Storm应用开发常见问题
ity.zookeeper.path.root”对应的ZooKeeper目录,例如:/flink2。 重新提交任务。 父主题: Flink应用开发常见问题
log</file>,需确保任务运行所使用的用户(flink-conf.yaml配置用户)有权限对该目录进行读写操作。 父主题: Flink应用开发常见问题
Spark Structured Streaming样例程序(Scala) 功能介绍 在Spark应用中,通过使用StructuredStreaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数。 代码样例 下面代码片段仅为演示,具体代码参见:com
通常情况下,在发现JDBC connection不可用的时候,可以关闭该connection,重新创建一个connection继续执行。 父主题: Spark应用开发常见问题
om中添加方案一中的三个参数,如下图所示: 单击“保存”,完成后重启过期的spark2x实例,并重新下载安装客户端。 父主题: Spark应用开发常见问题
使用Spark执行Hudi样例程序开发思路 场景说明 本章节介绍如何使用Spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。 详细代码请参考样例代码。 打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考
使用Spark执行Hudi样例程序(Python) 使用python写Hudi表 下面代码片段仅为演示,具体代码参见:sparknormal-examples.SparkOnHudiPythonExample.hudi_python_write_example。 插入数据: #insert
ity.zookeeper.path.root”对应的ZooKeeper目录,例如:/flink2。 重新提交任务。 父主题: Flink应用开发常见问题
如果Spark Streaming应用一直在运行,由于Kafka上topic的offset变小,会导致读取Kafka数据的起始位置比结束位置大,这样将无法从Kafka读取数据,应用报错。 如果在重启Kafka服务前,先停止Spark Streaming应用,等Kafka重启后,再重启Spark
配置Spark Native引擎 本章节仅适用于MRS 3.3.0及之后版本。 配置场景 Spark Native引擎是通过使用向量化的C++加速库,实现对Spark算子性能加速的一种技术方案。传统的SparkSQL是基于行式数据,通过JVM的codegen来实现查询加速的,由于
如何设置Spark作业执行时自动获取更多资源? 答 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),如果分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
行,用户之间是不可见,需要有一个权限控制机制,使用户的任务信息不被其他用户获取。 例如,用户A提交的应用正在运行,此时用户B登录系统并查看应用列表,用户B不应该访问到A用户的应用信息。 配置描述 查看Yarn服务配置参数 参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入表1中参数名称。
Yarn应用还没有满足的内存量总和。 告警属性 告警ID 告警级别 是否自动清除 18024 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 队列名 产生告警的队列名。 队列指标名 产生告警的队列指标名。 对系统的影响 应用任务结束时间变长。 新应用提交后长时间无法运行。
执行8。 “上传到OBS”:表示将日志保存到OBS中。默认值。然后执行5。 在“OBS路径”填写服务日志在OBS保存的路径。 需要填写完整路径且不能以“/”开头,路径可以不存在,系统将自动创建。OBS的完整路径最大支持900个字节。 在“桶名”输入已创建的OBS文件系统名称。 在
Administrator权限)。如果还需对OBS文件系统中的指定路径进行更加细粒度的权限控制,可参考配置MRS集群用户的OBS的细粒度访问权限创建自定义的角色策略。 登录华为云管理控制台。 在服务列表中选择“管理与监管 > 统一身份认证服务 IAM”。 选择“委托 > 创建委托”。 设置“委托名称”,例如:mrs_ecs_obs。
业务提前规划列个数,如果将来有更多列要使用,可以规划预留多列,避免在生产系统跑业务过程中进行大量的alter table modify列操作,导致不可以预知的性能、数据一致性问题。 父主题: ClickHouse常用SQL语法
业务提前规划列个数,如果将来有更多列要使用,可以规划预留多列,避免在生产系统跑业务过程中进行大量的alter table modify列操作,导致不可以预知的性能、数据一致性问题。 父主题: ClickHouse常用SQL语法
同一集群内,不允许配置相同的名称。不同集群之间,可以配置相同的名称。 脚本路径 obs://mrs-samples/test.sh 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚
-XX:NewRatio=2",则新生代占整个堆空间的1/3,老年代占2/3。 开发Spark应用程序时,优化RDD的数据结构。 使用原始类型数组替代集合类,如可使用fastutil库。 避免嵌套结构。 Key尽量不要使用String。 开发Spark应用程序时,建议序列化RDD。 RDD做cache时默认是不序列