检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL编辑页面,自定义配置中修改该参数值,即可达到快速修改UDF参数值的目的。 操作步骤 自定义函数中提供了可选的open(FunctionContext context)方法,FunctionContext具备参数传递功能,自定义配置项通过此对象来传递。自定义函数的参数传递操作步骤如下: 在Flink OpenSource
SQL编辑页面,自定义配置中修改该参数值,即可达到快速修改UDF参数值的目的。 操作步骤 自定义函数中提供了可选的open(FunctionContext context)方法,FunctionContext具备参数传递功能,自定义配置项通过此对象来传递。自定义函数的参数传递操作步骤如下: 在Flink OpenSource
n 问题现象 客户通过DLI跨源表向CloudTable Hbase导入数据,原始数据:HBASE表,一个列簇,一个rowkey运行一个亿的模拟数据,数据量为9.76GB。导入1000W条数据后作业失败。 原因分析 查看driver错误日志。 查看executor错误日志。 查看task错误日志。
参考图10可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:
将写好的自定义函数打成JAR包,并上传到OBS上。 在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后点击创建,并使用OBS中的jar包创建相应的程序包。 在DLI管理控制台的左侧导航栏中,单击作业管理>“Flink作业”,在需要编辑作业对应的“操作”列中,单击“编辑”,进入作业编辑页面。
FOLLOWING:定义窗口的上限,即窗口从当前行向后数num行处结束。 UNBOUNDED FOLLOWING:表示窗口没有上限。 ROWS BETWEEN…和RANGE BETWEEN…的区别: ROW为物理窗口,即根据ORDER BY子句排序后,取前N行及后N行的数据计算(与当前行的值无关,只与排序后的行号相关)。
提供了更实时高效的多样性算力,可支撑更丰富的大数据处理需求。产品内核及架构深度优化,综合性能是传统MapReduce模型的百倍以上,SLA保障99.95%可用性。 图1 DLI Serverless架构 与传统自建Hadoop集群相比,Serverless架构的DLI还具有以下优势:
如何获取项目ID? 项目ID是系统所在区域的ID。用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。
在DLI管理控制台左侧,选择“资源管理 > 队列管理”。 选择需要扩容的队列,单击“操作”列“更多”中的“规格变更”。 在“规格变更”页面,“变更方式”选择“扩容”,设置扩容的CU值。 图1 扩容 确定费用后,单击“提交”。 缩容 当计算业务较小,不需要那么大的队列规格时,可以通过手动变更队列规格来缩容当前队列。
返回以32个十六进制数所表示的字符串的MD5哈希值 若字符串是null,则返回null SHA1(string) 返回以40个十六进制所表示的字符串的SHA-1哈希值 若字符串是null,则返回null SHA224(string) 返回以56个十六进制数所表示的字符串的SHA-224哈希值
使用DLI将CSV数据转换为Parquet数据的方法。 使用DLI分析电商BI报表 以某商城真实的用户、商品、评论数据(脱敏后)为基础,介绍使用DLI进行电商BI报表分析的方法。 使用DLI分析账单消费数据 以DLI实际消费数据为样例,介绍使用DLI进行账单分析和成本优化的措施。 使用DLI分析电商实时业务数据
授权记录”中查看当前用户的权限。 确认当前用户所属用户组下的权限是否包含OBS写入的权限,比如“OBS OperateAccess”。如果没有OBS写入权限,则给对应的用户组进行授权。 授权完成后,等待5到10分钟等待权限生效。再次运行失败的Flink SQL作业,查看作业运行状态。
N 表的insert overwrite TABLENAME select Y N 表的alter Y N 表的select Y Y 表的delete Y N 表的drop Y N 表的desc/describe TABLENAME Y Y 表的comment Y N 表的explain
SQRT(numeric) 返回 numeric 的平方根。 LN(numeric) 返回 numeric 的自然对数(以 e 为底)。 LOG10(numeric) 返回以 10 为底的 numeric 的对数。 LOG2(numeric) 返回以 2 为底的 numeric 的对数。 LOG(numeric2)
offset 行处的表达式值。offset 的默认值为 1,default 的默认值为 NULL。 LAG(expression [, offset] [, default]) 返回窗口中当前行之前第 offset 行处的表达式值。offset 的默认值为 1,default 的默认值为 NULL。
返回以32个十六进制数所表示的字符串的MD5哈希值 若字符串是null,则返回null SHA1(string) 返回以40个十六进制所表示的字符串的SHA-1哈希值 若字符串是null,则返回null SHA224(string) 返回以56个十六进制数所表示的字符串的SHA-224哈希值
Flink有什么区别? DLI中的Spark组件与MRS中的Spark组件有什么区别? 怎样升级DLI作业的引擎版本 DLI的数据可存储在哪些地方 DLI是否支持导入其他租户共享OBS桶的数据? 区域和可用区 全局变量的使用中,一个子账号是否可以使用其他子账号创建的全局变量 怎样获取DLI作业样例(Demo)
DLI弹性资源池和队列类 怎样查看弹性资源池和作业的资源使用情况? 怎样判断当前DLI队列中的作业是否有积压? 怎样查看DLI队列负载? 怎样监控DLI队列上的作业异常? 怎样将老版本的Spark队列切换成通用型队列 在default队列执行DLI SQL失败,提示超时异常怎么办?
函数说明 MD5(string) 以 32 个十六进制数字的字符串形式返回 string 的 MD5 哈希值;如果字符串为 NULL,则返回 NULL。 SHA1(string) 以 40 个十六进制数字的字符串形式返回 string 的 SHA-1 哈希值;如果字符串为 NULL,则返回
value2]*) 返回从值列表 (value1, value2, …) 创建的行。隐式行构造函数支持任意表达式作为字段,但至少需要两个字段。 显式行构造函数可以处理任意数量的字段,但目前还不能很好地支持所有类型的字段表达式。 ARRAY ‘[’ value1 [, value2 ]*