检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 由于Kafka配置的限制,导致Spark Streaming应用运行失败
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 由于Kafka配置的限制,导致Spark Streaming应用运行失败
当系统中ommdba用户过期的期限修改或密码重置,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12032 次要 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响
立应用软件的开发工具的集合。 Database pg数据库。 WebApp(Oozie) WebApp(Oozie)即Oozie server,可以用内置的Tomcat容器,也可以用外部的,记录的信息比如日志等放在pg数据库中。 Tomcat Tomcat服务器是免费的开放源代码的Web应用服务器。
level KafkaStreams API代码样例及Low level KafkaStreams API代码样例,通过Kafka Streams读取输入Topic中的消息,统计每条消息中的单词个数,从输出Topic消费数据,将统计结果以Key-Value的形式输出,完成单词统计功能。 High
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Running Queries Delay 产生告警的计算实例租户名和当前超过阈值的大小。 对系统的影响 HetuEngine计算实例
registerServerHandler, int numberOfSubscribedJobs) name:为本NettySink的名称。 topic:为本NettySink产生数据的Topic,每个不同的NettySink(并发度除外)必须使用不同的TOPIC,否则会引起订阅混乱,数据无法正常分发。 reg
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Task Failure Rate 产生告警的计算实例租户名和当前超过阈值的大小。 对系统的影响 HetuEngine计算实例任务失败率过高,会影响业务的正常运行,需及时排查问题并处理。
性能优化类 Hadoop压力测试工具如何获取? 如何提高集群Core节点的资源使用率? 如何配置MRS集群knox内存? 如何调整MRS集群manager-executor进程内存? 如何设置Spark作业执行时自动获取更多资源? spark.yarn.executor.memo
户端所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。 操作步骤 修改样例代码。 当前样例代码中操作HBase的接口有三种,分别是普通接口,HFS接口(MRS 1.9.x版本不再支持该接口),REST接口。调试不同API接口操作HBase时可以注
获取运行中Spark应用的Container日志 配置Spark Eventlog日志回滚 配置WebUI上显示的Lost Executor信息的个数 配置JobHistory本地磁盘缓存 增强有限内存下的稳定性 配置YARN-Client和YARN-Cluster不同模式下的环境变量 Hive分区修剪的谓词下推增强
TARGET_JAR_PATH为待提交的spark application应用程序jar包所在路径。 args为待提交的spark application应用程序的参数。 参考信息 “通过JDBC访问Spark SQL”样例程序(Scala和Java语言),其对应的运行依赖包如下: 通过JDBC访问Spark
of(5)))中pane的大小为5秒,假设这个窗口为[100, 120),则包含的pane为[100, 105), [105, 110), [110, 115), [115, 120)。 图2 窗口重构示例 当某个数据到来时,并不分配到具体的窗口中,而是根据自己的时间戳计算出该数据所属的pane,并将其保存到对应的pane中。
操作场景 本章节介绍在存算分离场景下如何配置Spark任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Spark的数据读取效率。 前提条件 Gua
delete.count 25 JobServer每一批老化数据的条数。 job.record.expire.count 500000 JobServer老化数据的条数。 job.record.expire.day 7 JobServer作业过期的时间。 logging.level
应一个分区中表的列族。 索引 一种数据结构,提高了对数据库表中的数据检索效率。可以使用一个数据库表中的一列或多列,提供了快速随机查找和有效访问有序记录的基础。 协处理器 HBase提供的在RegionServer执行的计算逻辑的接口。协处理器分两种类型,系统协处理器可以全局导入R
执行ping命令,查看Sqoop实例所在主机和依赖组件所在主机的网络连接是否正常。(依赖组件包括ZooKeeper、DBService、HDFS、Mapreduce和Yarn等,获取依赖组件所在主机的IP地址的方式和获取Sqoop实例的IP地址的方式相同。) 是,执行7。 否,执行6.g。 联系网络管理员恢复网络。
Oozie应用开发流程 本文档主要基于Java API对Oozie进行应用开发。 开发流程中各阶段的说明如图1和表1所示。 图1 Oozie应用程序开发流程 表1 Oozie应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Oozie的基本概念,了解场景需求等。 Oozie应用开发常见概念
registerServerHandler, int numberOfSubscribedJobs) name:为本NettySink的名称。 topic:为本NettySink产生数据的Topic,每个不同的NettySink(并发度除外)必须使用不同的TOPIC,否则会引起订阅混乱,数据无法正常分发。 reg
通过数据表,定义源表、维表、输出表的基本属性和字段信息。 新建流表 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考表1填写信息,单击“确定”,完成流表创建。创建完成后,可在对应流表的“操作”列对流表进行编辑、删除等操作。