检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--delete-target-dir 若Hive中已存在目标文件,则先删除该文件再导入。 -append 将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。 -as-avrodatafile
如果用户不具备使用Manager的权限时,可以通过集群客户端修改相关用户密码。 对系统的影响 修改MRS集群用户密码后,如果以前下载过用户认证文件,则需要重新下载并获取keytab文件。 前提条件 已获取当前的密码策略,请参考配置MRS集群用户密码策略。 如需使用客户端重置密码,需在集群内的任一节点安装了集群客户端。
设置任务的主类名,由用户程序内的函数指定。 org.apache.spark.examples.SparkPi --files 上传文件给作业任务,可以是自己定义的配置文件或者某些数据文件,来源可以是OBS或者HDFS。 - --jars 上传任务额外依赖的jar,通常用于给任务添加外部依赖包。 -
lib/<组件名>”目录。 例如: 将使用HBase服务要用到的jar包文件放入HBase节点的“${BIGDATA_HOME}/third_lib/HBase”内。 将使用Hive服务要用到的jar包文件放入每一个HiveServer实例节点的“${BIGDATA_HOME}/third_lib/Hive”内。
for Application default configuration. 回答 打开项目中“ .idea\workspace.xml”文件。 找到标签“<component name="PropertiesComponent"> ” ,在内容中添加“ <property name="dynamic
选择此参数值,还需要配置“源端路径”,表示要恢复的备份文件。例如,“备份任务名_数据源_任务执行时间.tar.gz”。 “LocalHDFS”:表示备份文件保存在当前集群的HDFS目录。 选择此参数值,还需要配置以下参数: “源端路径”:表示备份文件在HDFS中保存的完整路径。例如“备份路径
nt才会从文件系统中真正删除。 如果用户想要强制删除物理Segment文件,那么可以使用CLEAN FILES命令。 示例: CLEAN FILES FOR TABLE table1; 该命令将从物理上删除状态为“Marked for delete”的Segment文件。 如果在“max
单击“概述”,在“属性”域可查看表文件的位置信息。 可查看Hive表各列字段的信息,并手动添加描述信息,注意此处添加的描述信息并不是Hive表中的字段注释信息(comment)。 单击“样本”可浏览数据。 管理Hive元数据表 单击左侧列表中的可在数据库中根据上传的文件创建一个新表,也可手动创建一个新表。
动释放“/system/balancer.id”文件,可再次正常执行Balance。 但在上述场景中,由于第一次的Balance操作是被异常停止的,所以第二次进行Balance操作时,“/system/balancer.id”文件仍然存在,则会触发append /system/balancer
for Application default configuration. 回答 打开项目中“ .idea\workspace.xml”文件。 找到标签“<component name="PropertiesComponent"> ” ,在内容中添加“ <property name="dynamic
任务的配置可根据mapper的数量和各mapper的数据大小来进行优化。根据输入数据的大小,优化“客户端安装路径/Yarn/config/mapred-site.xml”文件中的如下参数: “mapreduce.reduce.memory.mb” “mapreduce.reduce.java.opts” 例如:
建议在使用Hudi时,schema应该以向后兼容的方式演进。此错误通常发生在使用向后不兼容的演进方式删除某些列如“col1”后,更新parquet文件中以旧的schema写入的列“col1”,在这种情况下,parquet尝试在传入记录中查找所有当前字段,当发现“col1”不存在时,发生上述异常。
HDFS(Hadoop Distribute FileSystem)是一个适合运行在通用硬件之上,具备高度容错特性,支持高吞吐量数据访问的分布式文件系统,适合大规模数据集应用。 HDFS适用于如下场景。 处理海量数据(TB或PB级别以上) 需要很高的吞吐量 需要高可靠性 需要很好的可扩展能力
日志级别默认为INFO,可以通过调整日志打印级别(DEBUG,INFO,WARN,ERROR,FATAL)来显示更详细的信息。可以通过修改log4j.properties文件来实现,如: # Define some default values that can be overridden by system properties
日志级别默认为INFO,可以通过调整日志打印级别(DEBUG,INFO,WARN,ERROR,FATAL)来显示更详细的信息。可以通过修改log4j.properties文件来实现,如: # Define some default values that can be overridden by system properties
业状态,代码示例只涉及了MapReduce作业,其他作业的API调用代码是一样的,仅job配置“job.properties”与工作流配置文件“workflow.xml”需根据实际情况设置。 完成导入并配置Oozie样例工程操作后即可执行通过Java API提交MapReduce作业和查询作业状态。
已安装HBase客户端,例如安装目录为“/opt/client”。以下操作的客户端目录只是举例,请根据实际安装目录修改。在使用客户端前,需要先下载并更新客户端配置文件,确认Manager的主管理节点后才能使用客户端。 操作步骤 以客户端安装用户,登录安装HBase客户端的节点。 进入HBase客户端安装目录:
图1 残留目录样例 回答 Spark任务在运行过程中,driver会创建一个spark-开头的本地临时目录,用于存放业务jar包,配置文件等,同时在本地创建一个blockmgr-开头的本地临时目录,用于存放block data。此两个目录会在Spark应用运行结束时自动删除。
具体删除条件可灵活处理),减少Temporyary文件数。 删除分区少于一千个后,直接用drop table ${TableName}删掉表即可。 建议与总结 Hive分区虽然可以提高查询效率,但要避免分区不合理导致出现大量小文件的问题,要提前规划好分区策略。 父主题: 使用Hive
各组件业务用户由MRS集群管理员根据业务需要创建,具体操作请参见。安全模式下,“机机”用户需要下载keytab文件,具体操作请参见。“人机”用户第一次登录时需修改密码。 操作步骤 在本地准备CSV文件,文件名为:example-filename.csv,内容如下: Time,root.fit.d1