检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
maxRetry) 获取用户定义的Socket数据,作为输入流数据。 hostname是指Socket的服务器端的主机名称。 port指的是服务器的监测端口。 delimiter指的是消息之间的分隔符。 maxRetry指的是由于连接异常可以触发的最大重试次数。 public D
功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark
功能介绍 在Spark结构流应用中,跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp;同时输出本批次被更新状态的session。 代码样例 下面代码片段仅为演示,具体代码参见:com.huawei.bigdata.spark
x及后续版本。 支持的Topic上限 支持Topic的个数,受限于进程整体打开的文件句柄数(现场环境一般主要是数据文件和索引文件占用比较多)。 可通过ulimit -n命令查看进程最多打开的文件句柄数; 执行lsof -p <Kafka PID>命令,查看当前单节点上Kafka进程打开的文件句柄(会继续增加);
r发现在出错的时间段此实例有如下类似START_UP的打印,说明那段时间进程被停止过,后来又启动成功,提交的任务本来连接的是重启过的HiveServer实例,当这个实例被停止后,任务进程连接到另一个健康的HiveServer上导致报错。 2017-02-15 14:40:11,309
x及后续版本。 支持的Topic上限 支持Topic的个数,受限于进程整体打开的文件句柄数(现场环境一般主要是数据文件和索引文件占用比较多)。 可通过ulimit -n命令查看进程最多打开的文件句柄数; 执行lsof -p <Kafka PID>命令,查看当前单节点上Kafka进程打开的文件句柄(会继续增加);
问题中的图1中所示,会有两个任务一直在等待。 因此,当Web出现两个任务一直在等待的情况,首先检查Spark的核数是否大于Receiver的个数。 Receiver在Spark Streaming中是一个常驻的Spark Job,Receiver对于Spark是一个普通的任务,但它的生命周期和Spark
最大内存的80%)时产生该告警,非堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45283 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
Flume堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > Agent
Flume非堆内存使用率超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > Agent
formatted test1; 图5 查看表Location 进入spark bin目录: cd 客户端安装目录/Spark2x/spark/bin 执行./spark-shell登录spark-shell命令行。 在spark-shell命令行执行以下命令查询5.b创建的表数据: spark.read
使用BulkLoad工具批量导入HBase数据 使用BulkLoad工具批量更新HBase数据 使用BulkLoad工具批量删除HBase数据 使用BulkLoad工具查询HBase表的行统计数 BulkLoad工具配置文件说明 配置BulkloadTool工具支持解析自定义分隔符 父主题: HBase企业级能力增强
ClickHouse常见问题 在System.disks表中查询到磁盘status是fault或者abnormal 如何迁移Hive/HDFS的数据到ClickHouse 使用辅助Zookeeper或者副本数据同步表数据时,日志报错 如何为ClickHouse用户赋予数据库级别的Select权限
UDF应该捕获和处理可能发生的异常,不能将异常给服务处理,以避免程序出现未知异常。可以使用try-catch块来处理异常,并在必要时记录异常信息。 UDF中应避免定义静态集合类用于临时数据的存储,或查询外部数据存在较大对象,否则会导致内存占用过高。 应该避免类中import的包和服务侧包冲突,可通过grep
单击“添加RSGroup”按钮,在弹出的添加RSGroup页面填写新增的RSGroup名称,RSGroup名称包括数字、字母或下划线(_),长度为1-120个字符。然后单击“确定”。 查看RSGroup 选择待操作的RSGroup,在操作列单击“查看”,即可在弹出框中查看该RSGroup的RegionServers详情和Tables详情。
> 待操作集群的名称 > 服务 > Oozie > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > GC”中的“Oozie垃圾回收(GC)总时间”,单击“确定”。 图1 定制Oozie垃圾回收(GC)总时间 查看Oozie每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。
Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 配置多并发客户端连接JDBCServer 配置SparkSQL的分块个数 Spark动态分区插入场景内存优化 小文件优化
配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Drop Partition命令支持批量删除 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 配置Spark SQL语法支持关联子查询不带聚合函数 父主题: 使用Spark/Spark2x
'info:modify_time','2021-03-03 15:20:39' 上述数据的modify_time列可设置为样例程序启动后30分钟内的时间值(此处的30分钟为样例程序默认的同步间隔时间,可修改)。 put 'hbase_table','9','info:modify_time'
HetuEngine计算实例Worker个数小于阈值”,检查该告警的“附加信息”,查看并记录告警上报的租户名。 单击“租户资源”,选择对应计算实例的租户,查看该租户的资源配额是否充足。 是,执行6。 否,执行4。 根据实际使用情况,增加该租户资源容量的最大百分比。 等待5-10分钟,查看告警是否消失。 是,处理完毕。