检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
minor GC时无法完全回收,无法回收的内存持续累积,最终触发JVM的full GC。JVM的GC都是阻塞式的,即在GC过程中不执行任何作业,所以若full GC的时间过长,超出了RM与ZK之间定期交互时长的阈值,就会出现主备倒换。 登录FusionInsight Manager,选择“集群
任务完成后Container挂载的文件目录未清除 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常 重启YARN,本地日志不被删除 执行任务时AppAttempts重试次数超过2次还没有运行失败 在ResourceManager重启后,应用程序会移回原来的队列 YARN资
streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 SparkSQL UDF功能的权限控制机制 由于Kafka配置的限制,导致Spark Streaming应用运行失败 执行Spark
任务完成后Container挂载的文件目录未清除 作业执行失败时会发生HDFS_DELEGATION_TOKEN到期的异常 重启YARN,本地日志不被删除 执行任务时AppAttempts重试次数超过2次还没有运行失败 ResourceManager重启后,应用程序会移回原来的队列 YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态
表列名”时,默认该表的所有列或者是“SQL语句”配置项里配置的查询条件中指明的列。 配置的输入字段个数不能大于实际指定的列数,否则全部数据成为脏数据。 当字段的值与实际的类型不匹配时,该行数据会成为脏数据。 样例 以sqlserver 2014为例,创建测试表test: create
前提条件 集群安装了Spark及Hive服务。 执行数据导入的用户需要同时具有Spark(对应源表的SELECT权限)、HBase权限(对应HBase NameSpace的RWXA权限)和HDFS权限(对应HFile输出目录的读写权限)。 如果集群已启用Kerberos认证(安全模式
在弹出的“Ssh”窗口中配置以下参数并单击“添加”。 User and Host:User为3中配置互信的用户,参数配置格式为:运行SSH任务的用户@运行SSH任务的节点的IP地址。例如该配置项的值可设置为:root@x.x.x.x。 Ssh command:提交作业的具体命令。
在弹出的“Ssh”窗口中配置以下参数并单击“添加”。 User and Host:User为3中配置互信的用户,参数配置格式为:运行SSH任务的用户@运行SSH任务的节点的IP地址。例如该配置项的值可设置为:root@x.x.x.x。 Ssh command:提交作业的具体命令。
alue> 如果当前的应用开发工程配置项中包含该配置项,则应用开发程序还需要引入Jar包“phoenix-core-*.jar”。此Jar包可以从HBase客户端安装目录下的“HBase/hbase/lib”获取。 如果不想引入该Jar包,请将应用开发工程的配置文件“hbase-site
MySQL 数据库的show schemas Y Y Y Y Y Y Y Y 数据库的create schema Y Y N Y N N Y N 数据库的use schema Y Y Y Y Y Y Y Y 数据库的alter schema Y N N N N N N N 数据库的drop
附录 MRS所使用的弹性云服务器规格 MRS所使用的裸金属服务器规格 状态码 错误码 获取项目ID 获取账号ID 获取MRS集群信息 MRS支持的角色与组件对应表
合理使用数据表的分区字段和索引字段。 MergeTree引擎,数据是以分区目录的形式进行组织存储的,在进行的数据查询时,使用分区可以有效跳过无用的数据文件,减少数据的读取。 MergeTree引擎会根据索引字段进行数据排序,并且根据index_granularity的配置生成稀疏索
ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nodeagent/security/cert/subcert/certFile/ 将ca.crt文件下载到本地,以管理员的身份打开cmd。
产品咨询类 MRS可以做什么? MRS支持什么类型的分布式存储? 什么是区域和可用区? MRS是否支持更换网段? MRS集群内节点是否支持降配操作? 不同版本的Hive之间是否可以兼容? 数据存储在OBS和HDFS有什么区别? 10亿级数据量场景的解决方案有哪些? zstd压缩算法有什么优势?
有小文件的更新来解决小文件的问题。此处的大小是被视为“小文件大小”的最小文件大小。 104857600 byte hoodie.copyonwrite.insert.split.size 插入写入并行度。为单个分区的总共插入次数。写出100MB的文件,至少1KB大小的记录,意味着
查找实际作业编号对应的Logs。 查看实际作业日志中是否有如下报错。如果有下述报错,则需要给集群绑定OBS委托后再进行重试提交。具体请参考为已有集群绑定OBS委托。 查看Launcher作业对应的日志。作业管理中单击查看日志,查看Launcher作业中的stdout或stderr中的日志是否
优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO优化 多级嵌套子查询以及混合Join的SQL调优 父主题:
CDL任务运行一段时间后发生“104”或“143”报错 从ogg同步数据到Hudi时,ogg Source配置的Task值与任务实际运行的Task数量不一致 CDL同步任务名对应的Topic分区过多 执行CDL同步数据到Hudi任务报错当前用户无权限创建表 启动从PgSQL中抓取数据到Hudi任务报错 父主题: 使用CDL
定”保存配置。 选择“集群 > 待操作集群的名称 > 服务 > Impala > 实例”,勾选配置状态为“配置过期”的实例,选择“更多 > 重启实例”重启受影响的Impala实例。 父主题: 使用Impala
默认无法对外部表(external)插入数据的,如需使用该功能,可以给数据源添加配置。 共部署情况 登录FusionInsight Manager,选择“集群 > 服务 > HetuEngine > 概览”,单击“HSConsole WebUI”的HSConsole链接进入计算实例界面。 然后选择“数据源