disgare 的博客
首页
博客
分类
标签
首页
博客
分类
标签
  • 网络

    • 计算机网络学习笔记
    • 网络安全相关
    • 域名和子网掩码
    • CORS 跨域资源共享
    • DNS、HTTP 与 HTTPS
    • Server-Sent Events (SSE)
    • WebSocket 长连接
  • 计算机基础

    • 操作系统 IO 相关知识
    • 操作系统学习笔记
    • 程序的机器级表示
    • 音频文件基础
    • 正则表达式相关概念
    • ffmpeg 的安装以及实现音频切分功能
    • Hex 和 Base64 编码
    • XML 的使用
  • 数据结构与算法

    • 动态规划算法学习笔记
    • 基于比较的排序算法的最坏情况下的最优下界为什么是O(nlogn)
    • 集合与数据结构学习笔记
    • 面试常见算法总结
    • 算法导论第二部分排序学习笔记
    • 算法导论第一部分学习笔记
  • Java

    • 对象之间的映射与转换
    • 反射学习笔记
    • 泛型相关概念
    • 关于 boolean 类型的坑
    • 如何使用 lambda 表达式实现排序
    • CompletableFuture 相关用法
    • CompletableFuture 源码浅要阅读
    • FutureTask 源码阅读
    • Guava 常用 API
    • Guava 源码阅读:Multimap 相关
    • Jackson 的各种使用
    • Java 的 Excel 相关操作
    • java 的常见性能问题分析以及出现场景
    • java 基础知识
    • JAVA 枚举的基础和原理
    • Java 图片文件上传下载处理
    • Java 序列化
    • Java 异常
    • Java 语法糖
    • Java 中关于字符串处理的常用方法
    • Java 中强、软、弱、虚引用
    • JAVA 注解小结
    • Java Http 访问框架
    • Java Stream 的使用
    • Java8 新特性
    • netty 学习笔记
    • Scanner 的各种用法
    • Servlet 学习笔记
    • String、StringBuffer、StringBuilder 学习笔记
  • JVM

    • 虚拟机执行子系统
    • JVM 自动内存管理
    • Linux 中 JVM 常用工具以及常见问题解决思路
  • Linux

    • crontab 表达式
    • Linux 常见命令
    • Linux 文件系统
  • 中间件

    • 关于定时任务原理
    • 详解 kafka
    • ES 搜索引擎
    • flink 提交流程
    • Grape-RAG
    • Hadoop 基础原理
  • 多线程

    • 多线程基础学习笔记
    • 简单了解并发集合
    • 如何手写单例
    • 深入理解 java 多线程安全
    • 生产者消费者问题
    • 线程池作用、用法以及原理
    • AQS 组件
    • ThreadLocal 原理以及使用
  • 非关系型数据库

    • Redis 集群
    • Redis 数据结构、对象与数据库
    • Redis 学习笔记
  • 关系型数据库

    • B+ 树的插入、删除和数据页分裂机制
    • MySQL 的 binglog、redolog、undolog
    • MySQL 的记录存储结构、存储引擎与 Buffer Pool
    • MySQL 基本的特性
    • MySQL 开发规范
    • MySQL 事务与锁与 MVCC
    • MySQL 数据类型、字符集相关内容
    • MySQL 索引与索引优化
    • PostgreSQL 更新数据时 HOT优化
    • PostgreSQL 相关用法
  • Python

    • Python 基础语法
    • Python 学习
  • Spring 项目

    • Lombok 的常用注解
    • maven 小结
    • MyBatis 框架的使用
    • MyBatis 重要知识点总结
    • MybatisPlus 的使用
    • Spring 框架基础使用
    • Spring 事务相关
    • Spring IOC 的原理及源码
    • Spring AOP 的使用和原理
    • SpringBoot 的原理
    • SpringBoot 基础使用
    • SpringWeb 重要知识点
  • 分布式

    • 初步了解 docker
    • 从 ACID 到 BASE 事务处理的实现
    • 访问远程服务
    • 分布式 id
    • 分布式缓存相关问题
    • 分布式集群理论和分布式事务协议
    • 分布式架构的观测
    • 分布式一致性算法
    • 负载均衡 Load Balancing
    • 关于分布式系统 RPC 中高可用功能的实现
    • 集群间数据同步的目的
    • 三高问题下的系统优化
    • 数据库分库分表
    • 详解 Spring Cloud
    • Dubbo 基础概念
    • Gossip 协议
    • nginx 学习笔记
    • Protobuf 通信协议
    • Zookeeper 基础学习
  • 架构设计

    • 参数校验与异常处理
    • 抽象方法与设计模式
    • 代码整洁之道
    • 权限系统设计
    • 用低内存处理大量数据
      • 出现频率最高的 100 个词
      • 查找两个100亿数据量大文件中共同的 URL
      • 如何在 100 亿数据中找到中位数
      • 只有 4G 内存进行 500G 数据需要排序
    • 设计模式——策略模式
    • 设计模式——过滤器模式在 Spring 中的实践
    • 状态模式
    • 统一结果返回
    • 为什么要打日志?怎么打日志?打什么日志?
    • 运维监控常见指标含义
    • 资深研发进阶
    • DDD 架构学习笔记
    • Java 常用的规则引擎
    • MVC 架构学习笔记
  • AI

    • 如何编写 Prompt
    • Agent 工程架构
    • LLM 相关内容
    • NLP 相关知识
    • vibe coding 最佳实践
    • windows 下 ollama 迁移到 D 盘
  • 开发工具

    • 如何画时序图、流程图、状态流转图
    • excel 关于 =vlookup 的用法
    • git 的学习以及使用
    • IDEA 插件推荐
    • IDEA 常用快捷键以及调试
    • Shell 脚本
    • swagger 的使用
  • 前端

    • 简单了解前端页面开发
    • 伪静态是什么
    • GitHub Pages 部署教程
    • Vercel 部署教程
    • vue-admin-template 简单使用
    • VuePress 博客搭建指南
  • 项目

    • 面试刷题网——技术方案
    • 影视资源聚合站——技术方案
  • 问题记录

    • 定时任务单线程消费 redis 中数据导致消费能力不足
    • 提供可传递的易受攻击的依赖项
    • Liteflow 在 SpringBoot 启动时无法注入组件问题 couldn‘t find chain with the id[THEN(NodeComponent)]
  • 金融

    • 股票分析——关于电力
    • 股票技术面——量价关系
    • 股票技术面——盘口
    • 股票技术面——基础
    • 基础的金融知识
    • 基金与股票
    • 韭菜的自我总结
    • 聊聊价值投资
  • 其他

    • 程序员职场工作需要注意什么
    • 创业全链路SOP:从灵光一现到系统化增长的实战指南
    • 观罗翔讲刑法随笔
    • 价格和价值
    • 立直麻将牌效益理论
    • 梅花易数学习笔记
    • 压力管理
2025-03-09
架构设计
目录

用低内存处理大量数据

用低内存处理大量数据,统一参考 hoodap 的 mapreduce 思路,先映射,再集合

1,先映射:读取文件,将文件整合(映射)成我们需要的样子 2,再集合:读取整合后的文件,集合处理,进行统计操作

下面是一些 case,在实战的时候可以参考这些,举一反三

# 出现频率最高的 100 个词

假如有一个 1G 大小的文件,文件里每一行是一个词,每个词的大小不超过 16byte,要求返回出现频率最高的 100 个词。内存大小限制是 10M

1,先映射:读取文件,将每个文件 hash 到对应的小文件中 2,再集合:挨个取出小文件的数据,使用 hash 来计数。计数完毕后用大根堆进行排序

可以采用分治策略,把一个大文件分解成多个小文件,保证每个文件的大小小于 10M, 进而直接将单个小文件读取到内存中进行处理

第一步,首先遍历大文件,对遍历到的每个词 x,执行 hash(x) % 500,将结果为 i 的 词存放到文件 f(i)中,遍历结束后,可以得到 500 个小文件,每个小文件的大小为 2M 左右

第二步,接着统计每个小文件中出现频数最高的 100 个词。可以使用 HashMap 来实 现,其中 key 为词,value 为该词出现的频率。对于遍历到的词 x,如果在 map 中不存在,则执行 map.put(x, 1)。若存在,则执行 map.put(x, map.get(x)+1),将该词出现的次数加 1。这里如果直接维护一个大根堆,直接对每个小文件遍历并且计数,然后排序的话,可能会占用一定的内存限制

第三步,在第二步中找出了每个文件出现频率最高的 100 个词之后,通过维护一个大根堆来找出所有小文件中出现频率最高的 100 个词

具体方法是,遍历第一个文件,把第一个文件中出现频率最高的 100 个词构建成一个 大根堆

如果第一个文件中词的个数小于 100,可以继续遍历第二个文件,直到构建好有 100 个结点的大根堆为止

继续遍历其他小文件,如果遍历到的词的出现次数大于堆顶上词的出现次数,可以用新 遍历到的词替换堆顶的词,然后重新调整这个堆为大根堆

当遍历完所有小文件后,这个大根堆中的词就是出现频率最高的 100 个词

# 查找两个100亿数据量大文件中共同的 URL

思路是一样的,先将差不多的 url 放到同一个文件中,然后再比较这些文件

先遍历 A 文件,使用 hash 将其分成很多小 a 文件,再遍历 B 文件,生成很多小 b 文件

由于小 a 和小 b 都是一一对应的关系,因此我们可以直接将他们取到内存中做比较,比较也是先将 a 放进 hashMap,然后遍历 b

# 如何在 100 亿数据中找到中位数

我们允许向磁盘中的各个文件存入无限数据,但是内存是有限的,一次只能读一点。因此我们按照 hoodope 的指导思想,先分批转换

我们想想中位数怎么算,我们可以用快速查找的方式,先读一个数据 A,然后每读一个数,比 A 大的放进a文件,比它小的放进b文件。并且对a、b文件的大小计数。分组完毕后一定有一组数据大,另外一组数据小,我们进入数量大的组中。循环这个流程,直到找到我们需要的数据

这个可以优化吗,我们想到找中位数这个操作,是不是桶排序更加合适一些

先遍历一次所有数据,取出最大值和最小值,目的是找到数字的界限,让我们知道要生成什么样子的桶

最大最小之间,生成x个桶,每个桶的大小需要计数。再遍历一次文件,将数据放进每个桶中。我们知道每个桶的大小了,可以很简单的找到中位数存在的桶。一般来说我们找到的桶内存是放的下的,如果桶文件过大,循环执行该流程

# 只有 4G 内存进行 500G 数据需要排序

当需要在有限内存下排序大规模数据时,可以采用外部排序算法。以下是解决方案:

1,分块阶段:将 500GB 数据分成多个适合内存的小块,每块大小约为3-3.5GB,因为我们需要留出部分内存给系统和其他操作,大约需要分成150-170个块

2,内部排序阶段:逐块将数据读入内存,使用高效的内部排序算法,如快速排序、堆排序,对每块数据进行排序,将排序后的块写入临时文件

3,归并阶段:使用 k 路归并算法合并这些已排序的块,由于内存限制,可能需要多轮归并,例如如果有3GB可用于归并缓冲区,每路分配100MB缓冲区,则可同时合并30路

#架构#内存
最后更新: 1/17/2026, 2:51:21 AM
权限系统设计
设计模式——策略模式

← 权限系统设计 设计模式——策略模式→

最近更新
01
vibe coding 最佳实践
02-24
02
立直麻将牌效益理论
02-23
03
伪静态是什么
02-08
更多文章>
Theme by Vdoing
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式