各用户最长的连续登录天数-可间断

MST 

一、题目 现有各用户的登录记录表zbj_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。 现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续4天登录。 二、思路 这是

处理缺失值

MST 

一、题目 现有用户账户表,包含日期、用户id、用户余额,其中用户余额发生了缺失,需要进行补全。补全规则:如果余额为空则取之前最近不为空值进行填补。如果截止到最早日期都为空则补0; 二、思路 题目要求使用当天之前的余额进行补全,需要明确一点不是取前面一天而是取前面最近的不为空的余额。所以首先需要知道前

查询每个产品每年总销售额

MST 

一、题目 已知有表如下,记录了每个产品id、产品名称、产品销售开始日期、产品销售结束日期以及产品日均销售金额,请计算出每个产品每年的销售金额。 二、思路 要计算每个产品每年的销售金额,需要得到每年的销售明细,观察数据可以发现有销售开始和结束日期,可以借此得到每个产品每天的销售额,lateral vi

奖金瓜分问题

MST 

一、题目 在活动大促中,有玩游戏瓜分奖金环节。现有奖金池为 10000元,代表奖金池中的初始额度。用户的分数信息如下表。表中的数据代表每一个用户和其对应的得分,user_id 和 score 都不会有重复值。瓜分奖金的规则如下:按照 score 从高到低依次瓜分,每个人都能分走当前奖金池里面剩余奖金

hive3.1.3安装配置指南


环境准备 1. 前置条件 Hadoop集群:Hadoop 3.2.4(已正常启动) Java:JDK 8 数据库:MySQL(用于存储元数据) 2. 下载Hive wget https://archive.apache.org/dist/hive/hive-3.1.3/ap

Hadoop 3.2.4 伪分布式安装指南


环境准备 1. 系统要求 当前环境和版本: ubuntu24 hadoop-3.2.4 2. 安装必要的软件包:jdk和系统依赖 jdk可以从oracle官网下载,也可以使用linux安装openjdk,

连续登陆超过N天的用户

MST 

一、题目 现有用户登录日志表 user_login_log,包含用户ID(user_id),登录日期(login_date)。数据已经按照用户日期去重,请查出连续登录超过4天的用户ID 样例数据

spark内存模型


exector内存模型: spark执行器包含了堆内存、堆外内存和非堆内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用

flink barrier机制

flink 

好的,Flink 的 Barrier(屏障) 是其**容错机制的核心**,特别是实现 分布式一致性快照 的基石。理解 Barrier 是理解 Flink 如何保证“精确一次”语义的关键。 --- ### 一、Barrier 是什么? 简单比喻: 想象一个游乐场的过山车,管理人员想在某一精确时刻为所有

scrapy常用方法

scrapy 

常用方法 1. 爬虫方法