检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单位:byte。 134217728(即128M) spark.files.openCostInBytes 打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。 4M 父主题: Spark SQL性能调优
单位:byte。 134217728(即128M) spark.files.openCostInBytes 打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。 4M 父主题: Spark SQL性能调优
单位:byte。 134217728(即128M) spark.files.openCostInBytes 打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。 4M 父主题: Spark SQL性能调优
单位:byte。 134217728(即128M) spark.files.openCostInBytes 打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。 4M 父主题: Spark SQL性能调优
ce部署架构,可以将用户访问流量自动分发到多台后端节点,扩展系统对外的服务能力,实现更高水平的应用容错。客户端应用请求集群时,使用基于Nginx的ClickHouseBalancer控制节点来进行流量分发,无论集群写入的负载、读的负载以及应用接入的高可用性都具备了有力的保障。 父主题:
系统软件安装完成后自动清除Tomcat安装包。 应用程序目录下针对工程禁用自动部署功能,只部署了web、cas和client三个工程。 禁用部分未使用的HTTP方法,防止被他人利用攻击。 更改Tomcat服务器默认shutdown端口号和命令,避免被黑客捕获利用关闭服务器,降低对服务器和应用的威胁。 出于安
建表语句做了限制,如果数据库中已存在建表时指向非当前默认warehouse目录的表,在执行建库、表脚本迁移、重建元数据操作时需要特别注意,防止错误。 操作步骤 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Hive > 服
--打开异步清理。 set hoodie.clean.automatic = false; --关闭自动清理,防止compaction操作触发clean。 run compaction on $tablename;
前提条件 已确认主备管理节点IP。 配置Controller与Agent间数据传输加密 以omm用户登录到主管理节点。 执行以下命令,防止超时退出。 TMOUT=0 执行完本章节操作后,请及时恢复超时退出时间,执行命令TMOUT=超时退出时间。例如:TMOUT=600,表示用户无操作600秒后超时退出。
In First Out)的调度策略,但对于多并发的场景,使用FIFO策略容易导致短任务执行失败。因此在多并发的场景下,需要使用公平调度策略,防止任务执行失败。 在Spark中设置公平调度,具体请参考http://archive.apache.org/dist/spark/docs/3
Studio服务,请检查DataArts Studio作业是否使用即将过期的用户密码, 如果使用请前往DataArts Studio管理中心修改密码防止业务受到影响, 否则可能存在作业大规模失败风险。 等待次日凌晨1点之后,观察告警是否自动清除。 是,操作结束。 否,执行5。 收集故障信息。
请充分考虑实际应用场景,再决定是否做出调整。 因为对执行用户做了限制,使用非管理员用户执行建库、表脚本迁移、重建元数据操作时需要特别注意,防止错误。 操作步骤 进入Hive服务配置页面: MRS 3.x之前版本,单击集群名称,登录集群详情页面,选择“组件管理 > Hive > 服
建表时分区不要超过10万个,分区太多会影响元数据加载速度,阻塞查询 Impala元数据和分区、文件数量正相关,太多分区会导致Impala元数据占用内存过大,刷新元数据时需要扫描的分区文件就越多,极大地降低查询效率。 建表时整数类型的分区键不补前置0,例如'hour=01'等分区 整数类型分区使用补齐前缀0的方式,
API方式执行的SQL独立起Spark作业,有一定的耗时,但是可以通过配置运行程序参数来指定作业所需要的资源等参数,建议批量导入等 作业使用API方式来指定资源运行,防止占用jdbc资源长时间阻塞其他任务。 DataArts使用Spark API方式操作Hudi表,必须要添加参数--conf spark.support
Compaction很有意义。 异步Compaction会进行如下两个步骤: 调度Compaction:由入湖作业完成,在这一步,Hudi扫描分区并选出待进行compaction的FileSlice,最后CompactionPlan会写入Hudi的Timeline。 执行Comp
Compaction很有意义。 异步Compaction会进行如下两个步骤: 调度Compaction:由入湖作业完成,在这一步,Hudi扫描分区并选出待进行compaction的FileSlice,最后CompactionPlan会写入Hudi的Timeline。 执行Comp
使用上限。同时,也为每个用户设定了资源使用上限以防止资源滥用。而当一个队列的资源有剩余时,可暂时将剩余资源共享给其他队列。 Capacity Scheduler支持多个队列,为每个队列配置一定的资源量,并采用FIFO调度策略。为防止同一用户的应用独占队列资源,Capacity S
单个Role不要绑定超过1000个用户或用户组,否则会导致查看Ranger权限信息缓慢。 Ranger界面不支持对用户、角色、用户组删除,防止出现数据不一致现象。 调整Ranger用户类型 登录Ranger管理页面。 调整Ranger用户类型须使用Admin类型的用户(例如adm
系统软件安装完成后自动清除Tomcat安装包。 应用程序目录下针对工程禁用自动部署功能,只部署了web、cas和client三个工程。 禁用部分未使用的HTTP方法,防止被他人利用攻击。 更改Tomcat服务器默认shutdown端口号和命令,避免被黑客捕获利用关闭服务器,降低对服务器和应用的威胁。 出于安
如果未指定列数据类型,则使用默认数据类型(字符串)。 “#”用于在两个索引详细信息之间进行分隔。 以下是一个可选参数: -Dscan.caching:在扫描数据表时的缓存行数。 如果不设置该参数,则默认值为1000。 为单个Region构建索引是为了修复损坏的索引。 此功能不应用于生成新索引。