Hadoop 3.2.4 伪分布式安装指南

hadoop 

环境准备 1. 系统要求 当前环境和版本: ubuntu24 hadoop-3.2.4 2. 安装必要的软件包:jdk和系统依赖 jdk可以从oracle官网下载,也可以使用linux安装openjdk,

连续登陆超过N天的用户

MST 

一、题目 现有用户登录日志表 user_login_log,包含用户ID(user_id),登录日期(login_date)。数据已经按照用户日期去重,请查出连续登录超过4天的用户ID 样例数据

spark内存模型

Spark 

exector内存模型: spark执行器包含了堆内存、堆外内存和内存三部分组成。 堆内存: 存储内存(Storage Memory): 作用:主要用于缓

flink barrier机制

flink 

好的,Flink 的 Barrier(屏障) 是其**容错机制的核心**,特别是实现 分布式一致性快照 的基石。理解 Barrier 是理解 Flink 如何保证“精确一次”语义的关键。 --- ### 一、Barrier 是什么? 简单比喻: 想象一个游乐场的过山车,管理人员想在某一精确时刻为所有

scrapy常用方法

scrapy 

常用方法 1. 爬虫方法

指标系统


1、指标系统介绍 指标系统是一套围绕企业业务目标,对关键数据指标进行标准化定义、自动化计算、可视化展示及动态管理的数字化工具。通过整合分散的业务数据,它可以将抽象的业务场景转化为可量化的指标体系,帮助企业实时掌握运营状态、快速定位问题并支撑决策优化,是连接业务与数据的核心桥梁。 背景 下面看看指标系

使用python安装superset5


环境: 服务器:Ubuntu 22.04.5 LTS python:3.11.9 superset:5.0.0 操作系统依 Superset 在其元数据数据库中存储数据库连接信息。为此,我们使用 cryptography Python 库来加密连接密码,此库需要操作系统级别的依赖项。 Ubuntu

指标建设规范


一、指标定义 指标是用于衡量业务目标达成程度的可量化参数,它是将抽象的业务目标转化为具体、可操作、可衡量的数值标识。在企业运营中,指标如同 “导航仪”,通过对业务数据的提炼和计算,直观展现业务的运行状态、发展趋势和存在问题。 例如,电商企业的 “销售额” 指标,能够直接反映企业的销售业绩;互联网产品

备份confluence-生产环境


Confluence 是 Atlassian 公司推出的一款专业的团队协作与知识管理平台,广泛应用于企业、团队的文档协作、项目管理、知识沉淀等场景。它的核心功能是帮助团队集中管理信息,实现高效的协同工作,避免信息分散和沟通壁垒。 使用confluence作为文档管理工具已经有6年时间了,积累了大几百

数据质量监控报警


配置好建模任务后,如何保障任务连续性和数据质量? 比如调度任务若因系统故障、资源不足或代码错误导致失败,未配置监控时需人工巡检才能发现,可能延误数小时甚至数天,如何解决?再比如重要数据必须9点前产出,如何保证?数据是否有重复?值是否准确? 下面从数据质量监控分类(完整性、准确性、一致性、时效性)和报