
【大数据】Hive函数➕分区分桶表➕hive文件格式和压缩_hive 一个分区两种压缩文件-CSDN博客文章浏览阅读239次。hive打开本地模式sql语句set hive.exec.mode.local.autotrue;max/min等但是数量有限自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时此时就可以考虑使用用户自定义函数参考官方文档UDF一进一出单行函数UDAF用户自定义聚合函数多进一出。UDTF用户自定义表生成函数一进多出。如继承Hive提供的类实现类中的抽象方法在hive的命令行窗口创建函数-- 添加jar。-- 创建function。_hive 一个分区两种压缩文件https://blog.csdn.net/YG15165/article/details/132746425?spm1001.2014.3001.55021.5 集合函数1.5.1 数组相关1.2.1 数据倾斜groupBy not distinct groupmapJoinSkew-GroupBy(两个MR)Map-side聚合1.2.1.1 reducekey不均匀空值、热key拆分count distinct两阶段聚合rb加instance1.5.3.1 分组聚合导致group by分组字段的值分布不均就可能导致大量相同的key进入同一Reduce从而导致数据倾斜问题。1. Map-side聚合先对若干条数据进行map-side聚合 -- 若聚合后的条数和聚合前的条数比值小于该值则认为该表适合进行map-side聚合2. Skew-GroupBy启动两个MR任务第一个MR按照随机数分区将数据分散发送到Reduce完成部分聚合第二个MR按照分组字段分区1.5.3.2 join导致Map端读取join的数据按照关联字段进行分区相同key在Reduce端完成Join操作。如果关联字段的值分布不均大量相同的key进入同一Reduce从而导致数据倾斜问题1. mapJoin2. 构建key1.6 小文件产生动态分区、reduce数量、数据源问题多map浪费资源hdfs占用内存解决参数小文件合并、distribute by分区、spark31. array_contains判断array中是否包含某个元素