检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何上传本地文件到集群内节点? 登录MapReduce服务管理控制台。 选择“现有集群”,单击集群名,进入集群基本信息页面。 在“节点管理”页签单击任一节点名称,登录到弹性云服务器管理控制台。 参见申请弹性公网IP为集群的节点绑定一个弹性IP地址。 参考上传文件到云服务器方式概览,将本地文件上传到集群节点。
文件错误导致上传文件到HDFS失败 问题背景与现象 用hadoop dfs -put把本地文件拷贝到HDFS上,有报错。 上传部分文件后,报错失败,从NameNode原生页面看,临时文件大小不再变化。 原因分析 查看NameNode日志“/var/log/Bigdata/hdfs
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
如何在Hive自定义函数中操作本地文件 问题 在Hive自定义函数中需要操作本地文件,例如读取文件的内容,需要如何操作? 回答 默认情况下,可以在UDF中用文件的相对路径来操作文件,如下示例代码: public String evaluate(String text) { //
删除临时路径的文件。转移临时文件存在同名文件时有以下行为: “OVERRIDE”:直接覆盖旧文件。 “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。 “APPEND”:在旧文件尾部合并新文件内容。合并操作只
SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP服务器导入数据时,确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;
离线数据加载:通过StreamLoad将本地CSV文件导入Doris 应用场景 本地CSV文件数据通过StreamLoad导入到Doris,需要写入Doris的数据不重复,通过引入 Unique 数据模型保证 Key 的唯一性。 方案架构 离线数据可以从数据湖加载,也可以直接加载本地文件。从数据湖加载可
各个map的输入文件。 选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同map,完成数据导入后保持源文件的目录结构。 选择“SIZE”,表示按大小分割源文件,即每个map处理一定大小的输入文件,同一个源文件可分割至多个ma
在Hue页面上传大文件失败 问题 通过Hue页面上传大文件时,上传失败。 回答 不建议使用Hue文件浏览器上传大文件,大文件建议使用客户端通过命令上传。 如果必须使用Hue上传,参考以下步骤修改Httpd的参数: 以omm用户登录主管理节点。 执行以下命令编辑“httpd.conf”配置文件。
SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从SFTP服务器导入数据时,确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
map 否 无 数据处理规则 将字段值输出到文件。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: aaa,product bbb,Bigdata 配置“文件输出”算子,分隔符为“,”,将A和B输出到文件中: 输出后的结果如下: aaa,product bbb
小文件优化 操作场景 Spark SQL表中,经常会存在很多小文件(大小远小于HDFS的块大小),每个小文件默认对应Spark中的一个Partition,即一个Task。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。
如何使用IDEA远程调试 问题 在Spark二次开发中如何使用IDEA远程调试? 回答 以调试SparkPi程序为例,演示如何进行IDEA的远程调试。 打开工程,在菜单栏中选择“Run > Edit Configurations”。 在弹出的配置窗口中用鼠标左键单击左上角的“+”
sh”,然后单击“添加”。 单击“文件+”,添加Shell命令执行文件或Oozie样例执行文件,可以选择存储在HDFS的文件或本地文件。 若文件存储在HDFS上,选择“.sh”文件所在路径即可,例如“user/hueuser/shell/oozie_shell.sh”。 若选择本地文件,则需在“选择
map 否 无 数据处理规则 将字段值输出到文件。 样例 通过“CSV文件输入”算子,生成两个字段A和B。 源文件如下: aaa,product bbb,Bigdata 配置“文件输出”算子,分隔符为“,”,将A和B输出到文件中: 输出后的结果如下: aaa,product bbb
审计日志转储失败(2.x及以前版本) 告警解释 根据本地历史数据备份策略,集群的审计日志需要转储到第三方服务器上。如果转储服务器满足配置条件,审计日志可以成功转储。审计日志转储失败,系统产生此告警。如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。
sql”文件上传至客户端环境。 per-job模式:将上述文件上传到“客户端安装目录/Flink/flink”。 yarn-application模式:将上述文件上传到“客户端安装目录/Flink/flink/yarnship”。 yarn-session模式:将上述文件上传到“
sql”文件上传至客户端环境。 per-job模式:将上述文件上传到“客户端安装目录/Flink/flink”。 yarn-application模式:将上述文件上传到“客户端安装目录/Flink/flink/yarnship”。 yarn-session模式:将上述文件上传到“
存的任务名称,即可打开远程连接。 图2 单击“Session” 单击“Open”登录云服务器。 如果首次登录云服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 本地使用Linux操作系统 如果您本地使用Linux操作系统登