|
109 | 109 | - 2024.07.07 [Extrinsic Hallucinations in LLMs](https://lilianweng.github.io/posts/2024-07-07-hallucination/)
|
110 | 110 | - 2024.11.28 [Reward Hacking in Reinforcement Learning](https://lilianweng.github.io/posts/2024-11-28-reward-hacking/)
|
111 | 111 |
|
112 |
| -## 知乎 |
| 112 | +## Bilibili |
113 | 113 |
|
114 |
| -- Fred |
115 |
| - - [专栏: 语音生成算法](https://www.zhihu.com/column/c_1741531927322664961) |
116 |
| - - 2024-05-14 GPT-SoVITS 源码梳理系列 (6 篇) |
117 |
| -- 倦鸟余花 |
118 |
| - - 2024.07.02 [文章: 举世无双语音合成 VITS 发展历程](https://zhuanlan.zhihu.com/p/474601997) |
119 |
| -- 林唯秀 |
120 |
| - - 2023.12.30 [文章: 万字长文+详细公式推导解读扩散模型的经典论文](https://zhuanlan.zhihu.com/p/674019932) |
121 |
| - - 最近更新: 2024.06.21 |
122 |
| - - 2024.01.15 [文章: 论文解读:扩散模型也能做语音合成吗?](https://zhuanlan.zhihu.com/p/672986204) |
123 |
| - - 最近更新: 2024.01.15 |
124 |
| - - 2024.05.22 [文章: 别慌! 一文教你看懂 GPT-4o 背后的语音技术](https://zhuanlan.zhihu.com/p/698725358) |
125 |
| - - 最近更新: 2024.05.27 |
126 |
| - - 二次整理: [文件](Blogs/2024.05.27_一文教你看懂GPT-4o背后的语音技术-林唯秀.md) #TODO 修改排版 |
127 |
| -- 笑叔神侠 |
128 |
| - - 2025.02.10 [文章: 深入解析 Flow Matching 技术](https://zhuanlan.zhihu.com/p/685921518) |
129 |
| -- 小冬瓜AIGC |
130 |
| - - [专栏: 手撕 LLM](https://www.zhihu.com/column/c_1683257985659564032) |
131 |
| -- v_JULY_v 七月 |
132 |
| - - 2020.01.05 [16 系列合集](https://blog.csdn.net/v_JULY_v/article/details/6543438) |
133 |
| - - 最近更新: 2025.02.21 |
134 |
| - - 01 微软面试 100 题 |
135 |
| - - 02 十五个经典算法 |
136 |
| - - 03 程序员编程艺术 40 章 |
137 |
| - - 04 红黑树/B树/R树/Trie树 |
138 |
| - - 05 机器学习十大算法 |
139 |
| - - 06 大模型与 ChatGPT 系列 |
140 |
| - - 07 Transformer 改进 |
141 |
| - - 08 DeepSeek |
142 |
| - - 09 AIGC 与 CV 多模态 |
143 |
| - - 10 工业协作机器人 |
144 |
| - - 11 机器人大模型 |
145 |
| - - 12 视觉语言动作机器人 |
146 |
| - - 13 具身智能 |
147 |
| - - 14 七月论文审稿 GPT |
148 |
| - - 15 RAG 知识库问答 |
149 |
| - - 16 智能体 Agent 项目 |
150 |
| - - 17 其他文章节选 |
151 |
| - - 2023.04.12 [文章: 从零实现Transformer的简易版与强大版:从300多行到3000多行](https://blog.csdn.net/v_JULY_v/article/details/130090649) |
152 |
| - - 最近更新: 2023.11.24 |
| 114 | +- [bugyu_ld 于泓 (鲁东大学)](https://space.bilibili.com/330866298) |
| 115 | + - [智能语音处理合集](https://space.bilibili.com/330866298/lists/651756?type=season) |
| 116 | + - 最近更新: 2024.12.07 |
| 117 | + - 未分类 |
| 118 | + - 2023.03.19 语音信号的读取与显示 |
| 119 | + - 2023.03.19 语音特征提取与预提取 |
| 120 | + - 2021.03.03 DTW(动态时间规整)算法原理与应用 |
| 121 | + - 2021.06.30 基于 GMM-HMM 的孤立词识别-1 |
| 122 | + - 2021.06.30 基于 GMM-HMM 的孤立词识别-2 |
| 123 | + - 2021.06.13 基于 LSTM 的唤醒词检测 |
| 124 | + - 2023.05.17 基于 DTW 算法的命令字识别-streamlit实现 |
| 125 | + - 2023.07.15 DTW 关键字检测-代码实现 |
| 126 | + - 2023.04.03 音乐检索-Shazam算法原理 |
| 127 | + - 2023.04.04 音乐检索-Shazam代码实现 |
| 128 | + - 2023.04.14 谁都能开口说-wav2lip演示视频 |
| 129 | + - 2023.04.14 wav2lip原理与代码实现 |
| 130 | + - 2021.05.29 Python与人工智能-隐马尔科夫模型 (HMM)-1 |
| 131 | + - 2021.06.06 Python与人工智能-HMM-2-维特比Viterbi译码 |
| 132 | + - 2021.06.06 Python与人工智能-HMM-3-模型训练 鲍姆-韦尔奇算法(Baum-Welch) |
| 133 | + - 2021.06.27 Python与人工智能-HMM-5-hmmlearn的应用 |
| 134 | + - 语音增强 |
| 135 | + - 2021.07.11 语音增强 谱减法 01 02 |
| 136 | + - 2021.07.15 语音增强 维纳滤波 01 02 |
| 137 | + - 2021.07.19 语音增强 最小均方误差估计 01 02 |
| 138 | + - 2021.07.28 语音增强 子空间法 01 02 |
| 139 | + - 2021.08.07 语音增强 DNN 频谱映射 |
| 140 | + - 2021.08.07 语音增强 基于 DNN 的 IRM 学习方法 |
| 141 | + - 2021.08.12 语音增强 SEGAN 原理解释 + PyTorch 实现 |
| 142 | + - 2024.04.10 语音增强 FRCRN 模型介绍与推理实现 |
| 143 | + - 2024.04.13 语音增强 FRCRN 模型整体结构与 STFT 实现 |
| 144 | + - 2024.04.13 语音增强 FRCRN U-Net 内部结构 |
| 145 | + - 2024.04.13 语音增强 FRCRN 损失函数 SI-SNR 与训练 |
| 146 | + - 回声消除 |
| 147 | + - 2022.08.21 回声消除 LMS 原理 |
| 148 | + - 2022.08.21 回声消除 LMS 代码实现 |
| 149 | + - 2022.08.28 回声消除 BLMS |
| 150 | + - 2022.08.28 回声消除 NLMS |
| 151 | + - 2022.08.28 回声消除 BNLMS |
| 152 | + - 2022.08.31 回声消除 RLS (递归最小二乘) |
| 153 | + - 2022.09.01 回声消除 卡尔曼滤波 |
| 154 | + - 2022.09.08 回声消除 FDAF 频域动态滤波 |
| 155 | + - 2022.09.09 回声消除 PFDAF (分块频域自适应滤波) |
| 156 | + - 2023.05.20 回声消除 效果演示 |
| 157 | + - 2024.04.21 回声消除 wRLS + 神经网络 AEC |
| 158 | + - 2024.04.21 回声消除 wRLS + 神经网络 AEC 延时估计 TDE 部分 |
| 159 | + - 2024.04.24 回声消除 FSMN 神经网络部分介绍 |
| 160 | + - 2024.04.24 回声消除 wRLS 实现细节 |
| 161 | + - 声音转换 |
| 162 | + - 2021.03.06 语音合成 基于 WSOLA 的语音变调 (变声器) |
| 163 | + - 2021.03.11 基于GMM的声音转换-1转换模型解析 |
| 164 | + - 2021.03.13 基于GMM的声音转换-2具体代码及实现流程 |
| 165 | + - 2021.08.21 非并行声音转换-CycleGan-VC2-1 2 |
| 166 | + - 2021.09.04 基于StarGan的多对多声音转换-1-原理解释 |
| 167 | + - 2021.09.04 基于StarGan的多对多声音转换-2-代码实现 |
| 168 | + - 2024.12.07 Seed-VC 原理与推理代码解析 |
| 169 | + - 乐音合成 |
| 170 | + - 2021.09.10 基于WaveNet的乐音生成-1-基本原理 |
| 171 | + - 2021.09.11 基于WaveNet的乐音生成-1-网络结构 |
| 172 | + - 2021.09.10 基于WaveNet的乐音生成-2-代码实现 |
| 173 | + - 2023.10.27 So-VITS-SVC-1-整体框架 |
| 174 | + - 2023.11.01 So-VITS-SVC-2-数据准备和预处理 |
| 175 | + - 2023.11.02 So-VITS-SVC-3-先验后验编码器 |
| 176 | + - 2023.11.06 So-VITS-SVC-4-decoder部分 |
| 177 | + - 2023.11.08 So-VITS-SVC-5-蛇形激活函数 |
| 178 | + - 2023.11.15 So-VITS-SVC-6-Flow部分 |
| 179 | + - 2023.11.16 So-VITS-SVC-7-训练及损失函数部分 |
| 180 | + - 2023.11.22 So-VITS-SVC-8-训练推理以及基频矫正 |
| 181 | + - 语音合成 |
| 182 | + - 2021.09.19 基于Tacotron2的语音合成-1-网络结构 |
| 183 | + - 2021.09.19 基于Tacotron2的语音合成-2-代码实现 |
| 184 | + - 2023.01.08 SV2TTS-5秒语音克隆 |
| 185 | + - 2023.01.08 SV2TTS-语音克隆(中文版) |
| 186 | + - 2023.07.26 VITS-1 一个应用实例 |
| 187 | + - 2023.07.30 VITS-2 三种生成模型 |
| 188 | + - 2023.08.16 VITS-3 模型整体结构 |
| 189 | + - 2023.08.16 VITS-4 config 文件解释 |
| 190 | + - 2023.08.18 VITS-5 文本编码器 |
| 191 | + - 2023.08.18 VITS-5-2 文本编码器部分代码讲解 |
| 192 | + - 2023.08.22 VITS-6 相对位置编码 Relative Position Representations |
| 193 | + - 2023.08.30 VITS-7 后验音频后验编码器 |
| 194 | + - 2023.08.30 VITS-8 Flow 部分的实现 |
| 195 | + - 2023.08.31 VITS-9 音频解码器部分 |
| 196 | + - 2023.09.04 VITS-10 随机时长预测1 |
| 197 | + - 2023.09.04 VITS-11 随机时长预测2 |
| 198 | + - 2023.09.05 VITS-12 随机时长预测3-convFlow |
| 199 | + - 2023.09.07 VITS-13 鉴别器部分 |
| 200 | + - 2023.09.08 VITS-14 生成器总体工作流程 |
| 201 | + - 2023.09.08 VITS-15 训练过程及损失函数计算 |
| 202 | + - 2023.09.13 VITS-16 数据准备+训练自己的模型 |
| 203 | + - 2023.09.22 VITS-17 快速微调(fast finetuning) |
| 204 | + - 2023.09.25 VITS-18 声音转换(voice conversion) |
| 205 | + - 语音识别 |
| 206 | + - 2024.03.05 Whisper的基本使用 |
| 207 | + - 2024.03.07 Faster Whisper 基本使用 |
| 208 | + - 声纹识别 |
| 209 | + - 2022.09.28 声纹识别-GMM-UBM算法原理 |
| 210 | + - 2022.09.28 声纹识别-GMM-UBM-数据准备 |
| 211 | + - 2022.09.28 声纹识别-GMM-UBM-代码实现 |
153 | 212 |
|
154 |
| -## 魔搭社区 |
| 213 | +- [Double童发发](https://space.bilibili.com/323109608) |
| 214 | + - 2024.07.16 [系列: Rectified Flow 基本原理](https://space.bilibili.com/323109608/lists/3427751?type=season) 4P |
| 215 | + - 2024.07.31 [系列: 从零手搓 Flow Matching](https://space.bilibili.com/323109608/lists/3732092?type=season) |
| 216 | + - 2024.08.05 [合集: 零门槛掌握 DDPM](https://space.bilibili.com/323109608/lists/3466926?type=season) 4P |
| 217 | + - 2024.09.06 [系列: 一致性模型&连续一致性模型](https://space.bilibili.com/323109608/lists/4329394?type=season) |
| 218 | + - 2024.09.26 [系列: 扩散模型通用框架 EDM](https://space.bilibili.com/323109608/lists/3828551?type=season) |
155 | 219 |
|
156 |
| -- 2024.08.12 [Qwen2-Audio开源,让VoiceChat更流畅!](https://www.modelscope.cn/headlines/article/602) |
| 220 | +- [RethinkFun](https://space.bilibili.com/18235884) |
| 221 | + - 2024.06.30 理解大模型分布式训练技术 |
| 222 | + - 2024.07.02 评价大模型好坏的指标 |
| 223 | + - 2024.07.09 用梯度检查点节省内存 |
| 224 | + - 2024.07.16 十分钟学懂vLLM内部原理 |
| 225 | + - 2024.07.23 FlashAttention原理讲解 |
| 226 | + - 2024.08.08 大模型预训练 |
| 227 | + - 2024.08.23 大模型微调SFT_NEFTune |
| 228 | + - 2024.09.29 大模型强化学习PPO代码实现 |
| 229 | + - 2024.12.14 [一次学懂多模态大模型系列教程](https://www.bilibili.com/video/BV15RDtYqE4r/) 9P |
| 230 | + |
| 231 | +- [数字黑魔法](https://space.bilibili.com/1235535223) |
| 232 | + - 2023.10.13 [系列·九天玩转 LangChain](https://space.bilibili.com/1235535223/lists/1794575?type=season) |
| 233 | + - 2024.06.19 [系列·Diffuers 实战教程](https://space.bilibili.com/1235535223/lists/3392067?type=season) |
| 234 | + - 2024.06.19 [01: Hello World](https://www.bilibili.com/video/BV1s1421r7Zg/) |
| 235 | + - 2024.07.11 [02: Scheduler 和 Model](https://www.bilibili.com/video/BV1YE421A7Jq/) |
| 236 | + - 2024.07.15 [03: U-Net](https://www.bilibili.com/video/BV1NS421d785/) |
| 237 | + - 2024.08.21 [04: Fine-Tuning 与 Guidance](https://www.bilibili.com/video/BV1XuWae8ELs/) |
| 238 | + - 2024.09.11 [05: Condition](https://www.bilibili.com/video/BV1jE4BebEcH/) |
| 239 | + - 2024.10.02 [06: 真实的 Stable Diffusion](https://www.bilibili.com/video/BV1RU4ueLEXH/) |
| 240 | + |
| 241 | +- [有趣的理工男](https://space.bilibili.com/2008799191) |
| 242 | + - 2023.01.29 [合集·傅里叶变换从零到一](https://space.bilibili.com/2008799191/channel/collectiondetail?sid=990857) |
| 243 | + - 2023.12.18 [合集·小波变换](https://space.bilibili.com/2008799191/lists/4325308?type=season) |
157 | 244 |
|
158 | 245 | ## CSDN
|
159 | 246 |
|
|
168 | 255 | - 2024.03.07 [VITS 模型详解与公式推导:基于条件变分自编码器和对抗学习的端到端语音合成模型](https://blog.csdn.net/m0_56942491/article/details/136536601)
|
169 | 256 | - 最近更新: 2024.05.11
|
170 | 257 | - 韩曙亮
|
171 |
| - - [系列·音频编解码原理 (已合并整理)](Blogs/音频编解码原理-韩曙亮.md) |
| 258 | + - [系列·音频编解码原理 (已合并整理)](Blogs/2024.01.24_音频编解码原理_韩曙亮.md) |
172 | 259 | - 2024.01.24 [01: 声音特性|声音本质|声音频率|声音频率和响度本质分析|数字音频|脉冲编码调制PCM|采样振幅值|奈奎斯特 Nyguist 采样定理](https://hanshuliang.blog.csdn.net/article/details/135781972)
|
173 | 260 | - 2024.01.25 [02: 采样值-本质分析|采样值-震动振幅值|采样值的录制与播放|采样值在播放设备中才有意义|音频采样率|音频采样精度|音频通道数](https://hanshuliang.blog.csdn.net/article/details/135822403)
|
174 | 261 | - 2024.01.27 [03: 比特率/码率|帧/帧长|帧采样排列方式-交错模式/非交错模式](https://hanshuliang.blog.csdn.net/article/details/135852745)
|
|
181 | 268 |
|
182 | 269 | - [Audio Course](https://hf-mirror.com/learn/audio-course/)
|
183 | 270 | - 译: [音频特征](https://datawhalechina.github.io/hugging-audio/) by Datawhale
|
| 271 | +- Diffusers |
| 272 | +- PEFT |
| 273 | +- Transformers |
184 | 274 |
|
185 | 275 | ## Github
|
186 | 276 |
|
|
192 | 282 | - [Repo·speechmetrics](https://github.com/aliutkus/speechmetrics)
|
193 | 283 | - 最近更新: 2023.07.05
|
194 | 284 |
|
| 285 | +## 魔搭社区 ModelScope |
| 286 | + |
| 287 | +- 2024.08.12 [Qwen2-Audio开源,让VoiceChat更流畅!](https://www.modelscope.cn/headlines/article/602) |
| 288 | + |
| 289 | +## Stanford |
| 290 | + |
| 291 | +- CS224S Spring 2024: [Spoken Language Processing](https://web.stanford.edu/class/cs224s/) |
195 | 292 |
|
196 | 293 | ## Tencent Cloud
|
197 | 294 |
|
|
204 | 301 |
|
205 | 302 | - Hung-yi Lee/李宏毅
|
206 | 303 | - [2024 生成式AI导论](https://www.youtube.com/playlist?list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI)
|
207 |
| - - [Diffusion Model](https://www.youtube.com/playlist?list=PLJV_el3uVTsNi7PgekEUFsyVllAJXRsP-) |
| 304 | + - 课程页: https://speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php |
| 305 | + - [00 课程说明](https://www.youtube.com/watch?v=AVIKFXLCPY8) |
| 306 | + - 01 生成式AI是什么 |
| 307 | + - 02 今日的生成式AI厉害在哪里 |
| 308 | + - 03 训练不了AI可以训练你自己_上 |
| 309 | + - 04 训练不了AI可以训练你自己_中 |
| 310 | + - 05 训练不了AI可以训练你自己_下 |
| 311 | + - 06 大型语言模型修炼史_上_自我学习 |
| 312 | + - 07 大型语言模型修炼史_中_名师指点 |
| 313 | + - 08 大型语言模型修炼史_下_参与实战 |
| 314 | + - 09 以大型语言模型打造的AI智能体 |
| 315 | + - 10 浅谈Transformer |
| 316 | + - 11 浅谈大型语言模型的可解释性 |
| 317 | + - 12 浅谈检定大型语言模型能力的各种方式 |
| 318 | + - 13 浅谈大型语言模型相关的安全性议题_上 |
| 319 | + - 14 浅谈大型语言模型相关的安全性议题_下 |
| 320 | + - 15 浅谈生成式AI的生成策略 |
| 321 | + - 16 可以加速所有语言模型生成速度的技术 |
| 322 | + - [Diffusion Model](https://www.youtube.com/playlist?list=PLJV_el3uVTsNi7PgekEUFsyVllAJXRsP-) |
| 323 | + - 2023.05.17 Speech Foundation Models 语音基石模型 - 张凯为 |
| 324 | + - 2024.05.20 [GPT-4o 背后可能的语音技术猜测](https://www.youtube.com/watch?v=CgQ3lUOpXgc) |
| 325 | + |
| 326 | +## 知乎 Zhihu |
| 327 | + |
| 328 | +- Fred |
| 329 | + - [专栏: 语音生成算法](https://www.zhihu.com/column/c_1741531927322664961) |
| 330 | + - 2024-05-14 GPT-SoVITS 源码梳理系列 (6 篇) |
| 331 | +- 倦鸟余花 |
| 332 | + - 2024.07.02 [文章: 举世无双语音合成 VITS 发展历程](https://zhuanlan.zhihu.com/p/474601997) |
| 333 | +- 林唯秀 |
| 334 | + - 2023.12.30 [文章: 万字长文+详细公式推导解读扩散模型的经典论文](https://zhuanlan.zhihu.com/p/674019932) |
| 335 | + - 最近更新: 2024.06.21 |
| 336 | + - 2024.01.15 [文章: 论文解读:扩散模型也能做语音合成吗?](https://zhuanlan.zhihu.com/p/672986204) |
| 337 | + - 最近更新: 2024.01.15 |
| 338 | + - 2024.05.22 [文章: 别慌! 一文教你看懂 GPT-4o 背后的语音技术](https://zhuanlan.zhihu.com/p/698725358) |
| 339 | + - 最近更新: 2024.05.27 |
| 340 | + - 二次整理: [文件](Blogs/2024.05.27_一文教你看懂GPT-4o背后的语音技术_林唯秀.md) #TODO 修改排版 |
| 341 | +- 笑叔神侠 |
| 342 | + - 2025.02.10 [文章: 深入解析 Flow Matching 技术](https://zhuanlan.zhihu.com/p/685921518) |
| 343 | +- 小冬瓜AIGC |
| 344 | + - [专栏: 手撕 LLM](https://www.zhihu.com/column/c_1683257985659564032) |
| 345 | +- v_JULY_v 七月 |
| 346 | + - 2020.01.05 [16 系列合集](https://blog.csdn.net/v_JULY_v/article/details/6543438) |
| 347 | + - 最近更新: 2025.02.21 |
| 348 | + - 01 微软面试 100 题 |
| 349 | + - 02 十五个经典算法 |
| 350 | + - 03 程序员编程艺术 40 章 |
| 351 | + - 04 红黑树/B树/R树/Trie树 |
| 352 | + - 05 机器学习十大算法 |
| 353 | + - 06 大模型与 ChatGPT 系列 |
| 354 | + - 07 Transformer 改进 |
| 355 | + - 08 DeepSeek |
| 356 | + - 09 AIGC 与 CV 多模态 |
| 357 | + - 10 工业协作机器人 |
| 358 | + - 11 机器人大模型 |
| 359 | + - 12 视觉语言动作机器人 |
| 360 | + - 13 具身智能 |
| 361 | + - 14 七月论文审稿 GPT |
| 362 | + - 15 RAG 知识库问答 |
| 363 | + - 16 智能体 Agent 项目 |
| 364 | + - 17 其他文章节选 |
| 365 | + - 2023.04.12 [文章: 从零实现Transformer的简易版与强大版:从300多行到3000多行](https://blog.csdn.net/v_JULY_v/article/details/130090649) |
| 366 | + - 最近更新: 2023.11.24 |
0 commit comments