检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入阿里云主机资源清单仅支持上传UTF-8编码且为中文表头的CSV文件,本节介绍将CSV文件的编码格式修改UTF-8编码的方法。 方法一(适用于Windows操作系统) 选择csv文件,鼠标右键,打开方式选择“记事本”。 在记事本窗口左上角选择“文件 > 另存为”,在弹出的“另存为”窗口中,找到编码下拉菜单,选择“UTF-8”,然后保存即可。
bat。 查询正在运行的采集器插件的JVM参数。 打开任务管理器(可以按下ctrl + alt + delete,并在弹出的页面中选择 任务管理器 打开)。在任务管理器的页签中选择详细信息。 图1 详细信息 找到名为 “rda-collector-server.exe”的程序,查看其对应pid。
单击列表右上角的图标,在弹出的对话框中,勾选需要导出的信息。 单击“确定”。系统会将实例信息输出至CSV格式的文件并自动下载。 由于从阿里云导出的CSV文件内容格式不满足MgC解析标准,因此需要进行如下修改: 使用文件编辑器打开下载的资源清单CSV文件, 在表头行的末尾,添加一个英文逗号,然后保存文件。
单击列表右上角的图标,在弹出的对话框中,勾选需要导出的信息。 单击“确定”。系统会将实例信息输出至CSV格式的文件并自动下载。 由于从阿里云导出的CSV文件内容格式不满足MgC解析标准,因此需要进行如下修改: 使用文件编辑器打开下载的资源清单CSV文件, 在表头行的末尾,添加一个英文逗号,然后保存文件。
IAM用户由账号创建并管理,可以确保账号及资源的安全性,有关IAM的详细介绍请参见IAM用户。此处介绍如何创建一个具有MgC使用权限的IAM用户。若您不需要使用IAM用户,可以略过此部分内容。 访问华为云,单击页面右上角的“控制台”,使用注册账号登录控制台。 在“控制台”页面,将鼠标移动至右上方的用户名,在下拉列表中选择“统一身份认证”。
与MgC建立连接的Edge工具。 执行机凭证 选择步骤4.在Edge侧添加的源端Delta Lake执行机凭证。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 Spark客户端目录 填写Spark客户端的bin目录的绝对路径 环境变量地址
l文件。 配置文件内容获取方法如下: 在需要采集的k8s集群服务器上,使用如下命令,将获取到的信息粘贴到一个自建的yaml文件里,再将yaml文件的绝对路径填写到此处。 cat ~/.kube/config 须知: 一个k8s集群只需要获取一个配置信息。 父主题: 采集器参数配置说明
若是由启动脚本启动的Edge,则寻找 java.exe 的程序,查看其对应pid。若有多个 java.exe 的程序的情况,解决方法如下: 多个 java.exe 的程序,在查询了某个java程序JVM信息后,可通过命令提示符返回的内容中 java_class_path 字段的值来判断是否为Edge程序。包含E
与MgC建立连接的Edge工具。 执行机凭证 选择步骤4.在Edge侧添加的源端Delta Lake执行机凭证。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 Spark客户端目录 填写Spark客户端的bin目录的绝对路径 环境变量地址
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 安装目录 填写MRS/CDH客户端的安装目录路径。即安装客户端时,“./install.sh” 所填写的地址。 SQL文件地址
中的第一个元数据连接保持一致。 “N”需要根据您现有的ECS资源和表的数量来确定。在ECS资源充足且表数量非常多的情况下,增加元数据连接的数量可以提高数据校验的效率。 为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。 参考创建表组并添加数据
如何查看采集失败原因? 如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原因。采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 父主题: 资源采集
xxx:7480/bucket01/index.html 根据上一步的方法和要求,将列表文件中的所有共享s3地址替换为URL地址。如果列表文件中的s3地址较多,可以使用文本编辑器(如NotePad++)进行批量替换。 根据MgC的要求,编辑URL列表文件内容,使其包含文件的共享下载链接和文件名,格式为: <SHARED-URL>
作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。 校验方式说明 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小
实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
执行机凭证 选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口。 Spark客户端目录 填写Spark客户端的安装目录路径。 环境变量地址 填写环境变量文件(配置文件)的绝对路径,例如:
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
元数据连接为Delta(无元数据)连接时,模板中的source_path和target_path参数为必填项。 模板参数填写完成并保存后,单击导入窗口的“添加文件”按钮,将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入,并且会在任务实例管理页签中的任务实例列表中,新增一条导入数据表的任务实例记录。您可以通过任务实例查看导入状态。
填写集群配置文件(yaml文件)的存储路径。 注意: 配置文件所在文件夹仅能存放与采集相关的yaml配置文件,可以存放多个配置文件,但不能存放与采集无关的其它yaml文件。 配置文件内容获取方法如下: 在需要采集的k8s集群服务器上,使用如下命令,将获取到的信息粘贴到一个自建的yaml文件里,再将yaml文件的存储路径填写到此处。