disgare 的博客
首页
博客
分类
标签
首页
博客
分类
标签
  • 网络

    • 计算机网络学习笔记
    • 网络安全相关
    • 域名和子网掩码
    • CORS 跨域资源共享
    • DNS、HTTP 与 HTTPS
    • Server-Sent Events (SSE)
    • WebSocket 长连接
  • 计算机基础

    • 操作系统 IO 相关知识
    • 操作系统学习笔记
    • 程序的机器级表示
    • 音频文件基础
      • 音频通道数 grabber.getAudioChannels()
      • 音频编解码器 grabber.getAudioCodec()
      • 采样率 grabber.getSampleRate()
      • 位深度
      • 音频比特率 grabber.getAudioBitrate()
      • 压缩算法(音频格式)
        • 无损压缩
        • 有损压缩
      • 参考
    • 正则表达式相关概念
    • ffmpeg 的安装以及实现音频切分功能
    • Hex 和 Base64 编码
    • XML 的使用
  • 数据结构与算法

    • 动态规划算法学习笔记
    • 基于比较的排序算法的最坏情况下的最优下界为什么是O(nlogn)
    • 集合与数据结构学习笔记
    • 面试常见算法总结
    • 算法导论第二部分排序学习笔记
    • 算法导论第一部分学习笔记
  • Java

    • 对象之间的映射与转换
    • 反射学习笔记
    • 泛型相关概念
    • 关于 boolean 类型的坑
    • 如何使用 lambda 表达式实现排序
    • CompletableFuture 相关用法
    • CompletableFuture 源码浅要阅读
    • FutureTask 源码阅读
    • Guava 常用 API
    • Guava 源码阅读:Multimap 相关
    • Jackson 的各种使用
    • Java 的 Excel 相关操作
    • java 的常见性能问题分析以及出现场景
    • java 基础知识
    • JAVA 枚举的基础和原理
    • Java 图片文件上传下载处理
    • Java 序列化
    • Java 异常
    • Java 语法糖
    • Java 中关于字符串处理的常用方法
    • Java 中强、软、弱、虚引用
    • JAVA 注解小结
    • Java Http 访问框架
    • Java Stream 的使用
    • Java8 新特性
    • netty 学习笔记
    • Scanner 的各种用法
    • Servlet 学习笔记
    • String、StringBuffer、StringBuilder 学习笔记
  • JVM

    • 虚拟机执行子系统
    • JVM 自动内存管理
    • Linux 中 JVM 常用工具以及常见问题解决思路
  • Linux

    • crontab 表达式
    • Linux 常见命令
    • Linux 文件系统
  • 中间件

    • 关于定时任务原理
    • 详解 kafka
    • ES 搜索引擎
    • flink 提交流程
    • Grape-RAG
    • Hadoop 基础原理
  • 多线程

    • 多线程基础学习笔记
    • 简单了解并发集合
    • 如何手写单例
    • 深入理解 java 多线程安全
    • 生产者消费者问题
    • 线程池作用、用法以及原理
    • AQS 组件
    • ThreadLocal 原理以及使用
  • 非关系型数据库

    • Redis 集群
    • Redis 数据结构、对象与数据库
    • Redis 学习笔记
  • 关系型数据库

    • B+ 树的插入、删除和数据页分裂机制
    • MySQL 的 binglog、redolog、undolog
    • MySQL 的记录存储结构、存储引擎与 Buffer Pool
    • MySQL 基本的特性
    • MySQL 开发规范
    • MySQL 事务与锁与 MVCC
    • MySQL 数据类型、字符集相关内容
    • MySQL 索引与索引优化
    • PostgreSQL 更新数据时 HOT优化
    • PostgreSQL 相关用法
  • Python

    • Python 基础语法
    • Python 学习
  • Spring 项目

    • Lombok 的常用注解
    • maven 小结
    • MyBatis 框架的使用
    • MyBatis 重要知识点总结
    • MybatisPlus 的使用
    • Spring 框架基础使用
    • Spring 事务相关
    • Spring IOC 的原理及源码
    • Spring AOP 的使用和原理
    • SpringBoot 的原理
    • SpringBoot 基础使用
    • SpringWeb 重要知识点
  • 分布式

    • 初步了解 docker
    • 从 ACID 到 BASE 事务处理的实现
    • 访问远程服务
    • 分布式 id
    • 分布式缓存相关问题
    • 分布式集群理论和分布式事务协议
    • 分布式架构的观测
    • 分布式一致性算法
    • 负载均衡 Load Balancing
    • 关于分布式系统 RPC 中高可用功能的实现
    • 集群间数据同步的目的
    • 三高问题下的系统优化
    • 数据库分库分表
    • 详解 Spring Cloud
    • Dubbo 基础概念
    • Gossip 协议
    • nginx 学习笔记
    • Protobuf 通信协议
    • Zookeeper 基础学习
  • 架构设计

    • 参数校验与异常处理
    • 抽象方法与设计模式
    • 代码整洁之道
    • 权限系统设计
    • 用低内存处理大量数据
    • 设计模式——策略模式
    • 设计模式——过滤器模式在 Spring 中的实践
    • 状态模式
    • 统一结果返回
    • 为什么要打日志?怎么打日志?打什么日志?
    • 运维监控常见指标含义
    • 资深研发进阶
    • DDD 架构学习笔记
    • Java 常用的规则引擎
    • MVC 架构学习笔记
  • AI

    • 如何编写 Prompt
    • Agent 工程架构
    • LLM 相关内容
    • NLP 相关知识
    • vibe coding 最佳实践
    • windows 下 ollama 迁移到 D 盘
  • 开发工具

    • 如何画时序图、流程图、状态流转图
    • excel 关于 =vlookup 的用法
    • git 的学习以及使用
    • IDEA 插件推荐
    • IDEA 常用快捷键以及调试
    • Shell 脚本
    • swagger 的使用
  • 前端

    • 简单了解前端页面开发
    • 伪静态是什么
    • GitHub Pages 部署教程
    • Vercel 部署教程
    • vue-admin-template 简单使用
    • VuePress 博客搭建指南
  • 项目

    • 面试刷题网——技术方案
    • 影视资源聚合站——技术方案
  • 问题记录

    • 定时任务单线程消费 redis 中数据导致消费能力不足
    • 提供可传递的易受攻击的依赖项
    • Liteflow 在 SpringBoot 启动时无法注入组件问题 couldn‘t find chain with the id[THEN(NodeComponent)]
  • 金融

    • 股票分析——关于电力
    • 股票技术面——量价关系
    • 股票技术面——盘口
    • 股票技术面——基础
    • 基础的金融知识
    • 基金与股票
    • 韭菜的自我总结
    • 聊聊价值投资
  • 其他

    • 程序员职场工作需要注意什么
    • 创业全链路SOP:从灵光一现到系统化增长的实战指南
    • 观罗翔讲刑法随笔
    • 价格和价值
    • 立直麻将牌效益理论
    • 梅花易数学习笔记
    • 压力管理
2024-08-12
计算机基础
目录

音频文件基础

在音频文件的录制和处理中,有几个关键属性对于确保音频质量和兼容性至关重要。本文会介绍音频文件的几个重要概念,并且与 java 中的 ffmpeg 组件提供的方法关联起来

# 音频通道数 grabber.getAudioChannels()

描述:表示音频流中的声道数,例如单声道(1)或立体声(2)

重要性:声道数直接影响音频的播放效果。单声道只有一个音频通道,而立体声有两个音频通道,可以提供更丰富的音效体验

# 音频编解码器 grabber.getAudioCodec()

描述:指定用于编码音频数据的编解码器,例如 AAC、MP3、WAV 等

重要性:编解码器的选择影响音频文件的大小、质量和兼容性。不同的编解码器有不同的压缩算法和效率,选择合适的编解码器可以平衡文件大小和音质

# 采样率 grabber.getSampleRate()

描述:字面意思,表示每秒采集的音频样本数,单位通常是 Hz(赫兹)

外界的声音都是模拟信号,在数字设备中 A/D 转化成为了由0、1表示的数字信号后被储存下来。数字信号都是离散的,所以采样率是指一秒钟采样的次数,采样率越高,还原的声音也就越真实。由于人耳听觉范围是 20Hz~20kHz,根据香农采样定理(也叫奈奎斯特采样定理),理论上来说采样率大于 40kHz 的音频格式都可以称之为无损格式

重要性:采样率越高,音频的保真度越高,但文件大小也会增加。常见的采样率有 44.1 kHz(CD 质量)、48 kHz(数字音频标准)等

# 位深度

若要尽可能精确地还原声音,只有高采样率是不够的。描述一个采样点,横轴(时间)代表采样率,纵轴(幅度)代表位深度

16bit 表示用16位(2个字节)来表示对该采样点的电平(通俗点来说和音量大小成正比)进行编码时所能达到的精确程度,也就是把纵轴分为16份描述电平大小,如-3dB和-3.1415926dB的精度差别。同理还有20bit和24bit

16bit 被认为是专业音频领域里面最低的位深度标准,和44.1kHz 的采样率一样,共同作为专业音频和消费产品的标准。位深度也直接关系到信号噪声比的大小,直接影响到所录制信号的整体动态范围

在 FFmpegFrameGrabber 中,位深度(bit depth)并不是直接作为一个单独的属性来设置的,但它可以通过选择不同的像素格式(pixel format)间接影响。位深度指的是每个颜色分量(如红、绿、蓝)所占用的位数,常见的是8位、16位等

# 音频比特率 grabber.getAudioBitrate()

描述:表示每秒传输的音频数据量,单位通常是 kbps(千比特每秒)。在无损无压缩格式中(如.wav),码率=采样率x位深度x声道数

重要性:比特率越高,音频质量越好,但文件大小也会越大。选择合适的比特率可以在音质和文件大小之间取得平衡

在有损压缩中(如 mp3)码率便不等于这个公式了,因为原始信息已经被破坏。码率描述了一秒钟的该音频的信息量,因而声音文件总的大小是码率乘总时长。码率也叫位速,单位是比特率(bps,bit per second)

通常听歌时候的128kbps、320kbps 均为码率,其中 320kbps 是 mp3 格式的最高比特率。但和 44.1kHz 采样率、16bit 位深的 wav 文件比起来(计算一下双声道的码率是44.1x16x2=1411.2kbps),相去甚远。压缩后码率便发生了变化。无损压缩中的码率与音质无关,有损压缩中的码率和音质正相关

# 压缩算法(音频格式)

我们平时的音频存放完比特、音道等信息后,文件就会非常大,如果想方便传输的话是需要将文件压缩的。压缩算法(音频格式)的主要目的是为了减小音频文件的大小,从而节省存储空间和传输带宽

当软件需要读取这些压缩后的音频文件时,需要先解压,才能访问到原始的音频数据,如比特率、声道等信息

我们如果想看某个文件的格式,可以使用 ffmpeg 工具集中的 ffprobe 组件即可:

ffprobe 目标文件
1

输出内容示例,下面的 stream 就是音频文件的音频流中的各种信息: image-2026-01-31-20-55-47.png 注意流是是指多媒体文件中的不同数据类型,一个文件可能有多个流,通常包括视频流、音频流、字幕流等。每个流都有自己的属性,如编解码器、分辨率、比特率等

# 无损压缩

无损压缩指的是在无损格式之间的压缩(转换),无论压缩(转换)成什么格式,音质都是相同的,并且都能还原成最初同样的文件

平时所说的无损均是指无损压缩,没有无损码率的说法。对于各种格式的压缩都是对应着一种算法(或者说编码),播放的时候需要有解码器进行译码,而且不同的解码器也可能会影响解压出来的文件完整性。常见的无损格式有:

  • wav:微软公司的一种声音文件格式,是无压缩的最接近真实声音的格式(其次是midi),支持多采样率多量化精度。所有的无损格式本质都是 wav 的压缩,在播放时会转回wav
  • flac:Free Lossless Audio Coded,是国际通用格式,特点是压缩比高,编码算法也相当成熟,当 flac 文件受损时依然能正常播放。另外,该格式也是最先得到广泛硬件支持的无损格式

# 有损压缩

有损压缩指的是声音信息在压缩过程中发生了丢失,且所丢失的声音无法用采样率和位数表示出来。但特点就是压缩后的文件变的很小,常在流媒体中使用。常见的有损格式有:

  • mp3:模拟人耳听觉研究出的一种复杂算法,被称为心理声学模型。它通过抽取音频中的一些频段来达到提高压缩比,降低码率,减少所占空间,但同时声音的细节如人声的情感、后期的混响等等都已经发生变形。盲听的话也很难较快地分辨出 wav 和 mp3,需要借助设备。mp3 目前是最为普及的声频压缩格式,可以最大程度地保留压缩前的音质
  • wma:微软公司力作,特点是在较低比特率下(如64kbps),wma 可以在与 mp3 相同的音质条件下获得更小的体积。并且在超低比特率(如16kbps),wma 音质比 mp3 要好得多
  • aac:苹果电脑上的声音文件储存格式

# 参考

关于采样率&位深&码率&无损的一些心得 (opens new window)

#音频文件
最后更新: 1/31/2026, 1:15:24 PM
程序的机器级表示
正则表达式相关概念

← 程序的机器级表示 正则表达式相关概念→

最近更新
01
vibe coding 最佳实践
02-24
02
立直麻将牌效益理论
02-23
03
伪静态是什么
02-08
更多文章>
Theme by Vdoing
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式