检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表2 阿里云云数据库ClickHouse连接参数配置说明 参数 配置说明 所属源 选择源端。 连接名称 默认创建名称为“阿里云云数据库ClickHouse-4位随机数(字母和数字)”,也可以自定义名称。 ClickHouse凭证 选择在Edge添加的源端阿里云云数据库ClickH
maxPartitionBytes 134217728 读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。 spark.sql.legacy.correlated.scalar.query.enabled false 该参数设置为true:
maxPartitionBytes 134217728 读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。 spark.sql.legacy.correlated.scalar.query.enabled false 该参数设置为true:
而实现更好的组织管理和资源分配。 下载并安装MgC Agent(原Edge) MgC Agent是用于配合迁移中心进行源端资源发现与采集的工具,同时MgC Agent还提供了工作流模块,用于配合云端迁移工作流任务。 采集主机资源 通过公网采集/内网采集/手动添加等方式,获取源端主机资源。
联机 方法二: 登录目的端主机,鼠标右键单击开始菜单。 单击“运行”,输入cmd,进入命令行提示符界面。 执行diskpart,启动磁盘管理工具。 执行list disk,列出当前服务器所有磁盘。 如下图所示,磁盘0处于“联机”状态,磁盘1处于“脱机”状态。 执行select disk
MaxCompute数据迁移至华为云 数据湖探索(DLI)。 创建大数据校验任务:对大数据进行一致性校验。 约束与限制 单个账号允许同时在线的MgC Agent总数最多为100个。 单个MgC项目中,与MgC连接的MgC Agent数量(不区分状态)最多为5个。 前提条件 已下
填写需要进行元数据同步的数据库名称。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和迁移工具(Edge)所安装主机的计算资源。 自定义参数 可以通过自定义参数设置同步的特定表或分区、过滤条件等。 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数:
x版本在查询时不会进行这种补齐操作。这可能导致在不同版本间比较结果时出现差异。为了避免因版本差异导致的数据不一致问题,建议使用Beeline作为客户端工具进行作业对数。 在完成MRS到MRS集群数据迁移后,如果源端和目的端都使用YARN模式进行校验,需要分开执行校验任务,确保一个任务执行完成后才能执行另一个任务。
"dli:database:explain", "dli:table:insertIntoTable", "dli:database:createDatabase",
当同时采集500台Windows主机时,安装MgC Agent的主机规格最低要求为16U32G,且可使用内存不小于8G。 前提条件 已通过在线调研/内网采集/手动添加等方式完成主机资源采集。 已在源端内网环境安装MgC Agent,并与迁移中心连接。 已在MgC Agent上添加源端主机凭证。
户名/密码”,填写在CloudTable服务创建的目的端ClickHouse集群的登录用户名和密码。 数据库链接 填写连接到CloudTable(ClickHouse)的数据库链接地址。可以在ClickHouse集群的基本信息获取,对应参数为“集群访问地址”。 表3 CloudTable(HBase)服务参数配置说明
Doris连接 HBase连接 ClickHouse连接 Hudi(有元数据)连接 Hudi(无元数据)连接 MaxCompute连接 阿里云云数据库ClickHouse连接 您还可以通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。 前提条件 已创建元数据连接。 操作步骤
配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI增量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。 迁移工具 选择在完成准备工作时与迁移中心连接成功的Edge。 源端配置 源端连接 选择创建的源端连接。 增量区间 选择T-N区间作为增量数据的迁移范围,即任务开始执行时间的前
主机资源。 添加数据库 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的应用迁移项目。 单击左侧导航栏的“源端发现>资源采集”,进入资源采集页面。 单击数据库资源类型,进入数据库资源列表。 单击“添加资源”按钮,弹出添加数据库窗口。 图2 添加数据库资源 根据表2,填写相应参数。
Hive校验的sum统计结果显示未达标 问题描述 对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。 问题分析 使用spark-sql
户名/密码”,填写在CloudTable服务创建的目的端ClickHouse集群的登录用户名和密码。 数据库链接 填写连接到CloudTable(ClickHouse)的数据库链接地址。可以在ClickHouse集群的基本信息获取,对应参数为“集群访问地址”。 表3 CloudTable(HBase)服务参数配置说明
速率,网络连接数等性能信息。 支持区域: 全部 采集主机性能 迁移方案设计 迁移中心提供一系列评估功能,包括目的端规格评估与推荐、多种迁移工具的选项及对比,并支持一站式资源购买。 支持区域: 全部 规格评估 迁移风险评估 购买资源 迁移方案配置 迁移中心为多种资源的不同迁移方案配
配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI元数据全量迁移-4位随机数(字母和数字)”,也可以自定义名称。 迁移工具 选择在完成准备工作时与迁移中心连接成功的Edge。 源端配置 源端连接 选择创建的源端连接。 MaxCompute参数 非必填参数,一般
dictionary”是一种系统权限,它允许用户查询数据库中的所有数据字典。 数据字典是存储有关数据库结构信息的中央存储库,包括表、列、数据类型、约束等详细信息。 目前只支持在线采集,无离线采集器。 准备工作 提前获取源端Oracle的IP,PORT,服务名称/SID,数据库账号和密码。服务名称默认是:ORCL,需
部分表迁移失败,报错:CRC Check failed 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:CRC Check failed 解决方法 通过修改DLI作业中迁移sql,将源端timestamp字段类型转成String类型,进行数据迁移。 父主题: 大数据数据迁移