检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取用户定义的某路径下的文件数据,作为输入流数据。 filePath是指文件的路径。 inputFormat是指文件的格式。 watchType指的是文件的处理模式“PROCESS_ONCE”或者“PROCESS_CONTINUOUSLY”。 interval指的是多长时间判断目录或文件变化进行处理。
Windows->Maven”打开“Maven”工具窗口。 图1 打开Maven工具窗口 若项目未通过maven导入,需要执行以下操作: 右键选择单击样例代码项目中的pom文件,选择“Add as Maven Project”,添加Maven项目。 图2 添加Maven项目 通过Maven生成Jar包。 在Mav
SparkSession,详见SparkSession原理。 Structured Streaming,详见Structured Streaming原理。 小文件优化。 聚合算法优化。 Datasource表优化。 合并CBO优化。 父主题: Spark2x
所以导致响应慢。 处理步骤 以root用户登录Master节点。 执行vi /etc/resolv.conf,打开resolv.conf文件,注释掉DNS服务器地址。 例如,#1.1.1.1。 父主题: 使用HBase
enableSaslEncryption”值为“false”,并重启对应的实例。 客户端作业: 客户端应用在提交应用的时候,修改spark-defaults.conf配置文件的“spark.authenticate.enableSaslEncryption”值为“false”。 父主题: Spark2x常见问题
指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信
enableSaslEncryption”值为“false”,并重启对应的实例。 客户端作业: 客户端应用在提交应用的时候,修改spark-defaults.conf配置文件的“spark.authenticate.enableSaslEncryption”值为“false”。 父主题: Spark故障排除
0时报数据格式错误 通过sqoop import命令从PgSQL导出数据到Hive时报错 通过Sqoop读取MySQL数据并写parquet文件到OBS时失败 通过Sqoop迁移数据库数据时报错
配置Spark HA增强高可用 配置Spark事件队列大小 配置parquet表的压缩格式 使用Ranger时适配第三方JDK 使用Spark小文件合并工具说明 配置流式读取Spark Driver执行结果 父主题: 使用Spark2x(MRS 3.x及之后版本)
maven工具的clean和install 将target目录下的clickhouse-examples-*.jar文件和“clickhouse-examples”目录下的“conf”文件夹复制到ClickHouse客户端安装目录下,例如“客户端安装目录/JDBC”目录或“客户端安装目录/JDBCTransaction”目录下。
JDK需进行安全加固,具体操作如下。 到Oracle官方网站获取与JDK版本对应的JCE(Java Cryptography Extension)文件。JCE文件解压后包含“local_policy.jar”和“US_export_policy.jar”。拷贝jar包到如下路径。 Linux:
脚本进行安装。 如果集群扩容,选择执行引导操作,则引导操作也会以相同方式在新增节点上执行。如果集群开启弹性伸缩功能,可以在配置资源计划的同时添加自动化脚本,则自动化脚本会在弹性伸缩的节点上执行,实现用户自定义操作。 MRS 2.x及之前版本:引导操作脚本以root身份执行,使用不
集群内ClickHouseServer节点间数据迁移 迁移MRS集群内ClickHouse数据至其他MRS集群 扩容ClickHouse节点磁盘 通过数据文件备份恢复ClickHouse数据 配置ClickHouse默认用户密码(MRS 3.1.2-LTS版本) 配置ClickHouse默认用户密码(MRS
表和视图的权限,不支持数据库的授权。 Hive管理员权限不支持管理HDFS的权限。 如果数据库中的表或者表中的文件数量比较多,在授权时可能需要等待一段时间。例如表的文件数量为1万时,可能需要等待2分钟。 表1 设置角色 任务场景 角色授权操作 设置Hive管理员权限 在“配置资源权限”的表格中选择“待操作集群的名称
id_max”。 若PID使用率超过阈值,则编辑“/etc/sysctl.conf”文件,将“kernel.pid_max”参数值增大为1.c查询到的pid_max值的一倍,若无该参数则请在文件末尾添加。 例如修改参数为“kernel.pid_max=65536”,然后执行以下命令使参数立即生效。
DBService状态正常,组件无法连接DBService DBServer启动失败 浮动IP不通导致DBService备份失败 DBService配置文件丢失导致启动失败
WebUI,请参考访问FlinkServer WebUI界面。 选择“系统管理 > 导入作业”,进入导入作业页面。 单击“选择”,选择本地Tar文件,单击“确定”,等待导入完成。 上传的本地Tar文件最大支持200M。 导出作业步骤 使用具有FlinkServer管理员权限的用户访问Flink WebUI,请参考访问FlinkServer
zookeeper的IP和PORT: 可以查看配置文件/opt/client/Spark/spark/conf/hive-site.xml中的配置项spark.deploy.zookeeper.url zookeeper 上存放JDBCServer主节点的IP和PORT: 可以查看配置文件/opt/clien
> 全部配置”。 参数说明 表1 Hive参数说明 参数 参数说明 默认值 hive.auto.convert.join Hive基于输入文件大小将普通join转为mapjoin的开关。 说明: 在使用Hive进行联表查询,且关联的表无大小表的分别(小表数据<24M)时,建议将此
获取用户定义的某路径下的文件数据,作为输入流数据。 filePath是指文件的路径。 inputFormat是指文件的格式。 watchType指的是文件的处理模式“PROCESS_ONCE”或者“PROCESS_CONTINUOUSLY”。 interval指的是多长时间判断目录或文件变化进行处理。