检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark支持两种方式的序列化 : Java原生序列化JavaSerializer Kryo序列化KryoSerializer 序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式的情况下,KryoSerializer的性能可以达到JavaSerializer的10倍以上,
开发一个Consumer消费该Topic的数据。 性能调优建议 建议预先创建Topic,根据业务需求合理规划Partition数目,Partition数目限制了消费者的并发数。 消息key值选取一定是可变的,防止由于消息key值不变导致消息分布不均匀。 消费者尽量使用主动提交offset的方式,避免重复消费。
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
在“名称”中输入作业的名称。 在“类型”中选择“导出”。 在“组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。 在“队列”中选择执行该作业的YARN队列。默认值“root.default”。 在“优先级”中选择执行该作业的YARN队列
通过Manager参看Kafka服务是否处于正常状态,当前可用Broker是否小于设置的replication-factor。 检查客户端命令中ZooKeeper地址是否正确,访问ZooKeeper上所存放的Kafka信息,其路径(Znode)应该加上/kafka,发现配置中缺少/kafka。
可以通过以下3种方式的任意一种指定安全认证信息。 在客户端的“spark-default.conf”配置文件中,配置“spark.yarn.keytab”和“spark.yarn.principal”参数指定认证信息。 执行bin/spark-submit的命令中添加如下参数来指定认证信息。
POPULATE 字段的表为内嵌表,在创建视图的时候初始化视图数据,缺点是初始化视图数据期间,新插入的数据被忽略;不含POPULATE 字段的表为聚合表,新插入的数据直接插入到视图表和支持表中,而之前的数据通过手动加载的方式插入视图和支持表。聚合表和内嵌表的建表操作需分别处理。 执行如下操作处理退服节点的物化视图:
创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器数据导出目录的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 如果设置的任务需要使用指定YARN
创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业中指定的Hive表的权限。 获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器数据导出目录的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 如果设置的任务需要使用指定YARN
到右侧的操作界面中并将其连接。 采用SpoolDir Source、Memory Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的source、channel以及sink,根据实际环境并参考表1设置对应的配置参数。 如果想在之前的“properties
开发一个Consumer消费该Topic的数据。 性能调优建议 建议预先创建Topic,根据业务需求合理规划Partition数目,Partition数目限制了消费者的并发数。 消息key值选取一定是可变的,防止由于消息key值不变导致消息分布不均匀。 消费者尽量使用主动提交offset的方式,避免重复消费。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。
开发一个Consumer消费该Topic的数据。 性能调优建议 建议预先创建Topic,根据业务需求合理规划Partition数目,Partition数目限制了消费者的并发数。 消息key值选取一定是可变的,防止由于消息key值不变导致消息分布不均匀。 消费者尽量使用主动提交offset的方式,避免重复消费。
拖到右侧的操作界面中并将其连接。 采用Taildir Source、Memory Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的Source、Channel以及Sink,根据实际环境并参考表1设置对应的配置参数。 如果想在之前的“properties
Kafka样例程序开发思路 场景说明 Kafka是一个分布式消息系统,在此系统上可以做一些消息的发布和订阅操作,假定用户要开发一个Producer,让其每秒向Kafka集群某Topic发送一条消息,另外,还需要实现一个Consumer,订阅该Topic,实时消费该类消息。 开发思路
开发一个Consumer消费该Topic的数据。 性能调优建议 建议预先创建Topic,根据业务需求合理规划Partition数目,Partition数目限制了消费者的并发数。 消息key值选取一定是可变的,防止由于消息key值不变导致消息分布不均匀。 消费者尽量使用主动提交offset的方式,避免重复消费。
Tag 参数 是否必选 参数类型 描述 key 是 String 参数解释: 标签的键。 约束限制: 不涉及 取值范围: 最大长度128个字符,不能为空字符串。 同一资源的key值不能重复。 标签的key值可以包含任意语种字母、数字、空格和_.:=+-@,但首尾不能含有空格,不能以_sys_开头。
资源,当租户资源能使用的资源不满足最小资源时,可以通过抢占来要回之前借出的资源。 最大资源 租户资源最多能使用的资源,租户资源不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。 预留资源 租户资源预留资源。即使租户资源内没有作业,预留的资源也不能给别的租户资
上述打包命令中的{maven_setting_path}为本地Maven的settings.xml文件路径。 打包成功之后,在工程根目录的“target”子目录下获取打好的jar包,例如“MRTest-XXX.jar”,jar包名称以实际打包结果为准。 上传生成的应用包“MRTest-XXX
Manager,选择“集群 > SQL防御”,打开SQL防御页面。 参考添加MRS SQL防御规则添加针对HetuEngine的SQL防御规则。 HetuEngine SQL引擎支持的各类型SQL防御规则可参考MRS SQL防御规则。 例如添加一条规则ID为“static_0001”,SQL语句中count