声纹分割聚类教程

从无监督方法到有监督方法的旅程

课程英文名：A Tutorial on Speaker Diarization

此视频教程共8.0小时，中英双语字幕，画质清晰无水印，源码附件全

下载地址

课程编号：360百度网盘地址：https://pan.baidu.com/s/1_eoVIwUijTDjw8v5pVDccA?pwd=ndku

课程内容

你将会学到的

说话人二元化的基本概念

说话人二值化常用算法

说话人分类的最新学术进展

说话人二值化的编码示例

使用流行工具包的实践项目，包括 SCTK、pyannote-metrics、pyannote-audio 和 uisrnn

课程内容

5 个章节 - 16 个讲座 - 总时长 3 小时 26 分钟展开所有章节

要求

音频和语音处理的基础知识

[机器学习]和神经网络的基础知识

Python 编程基础

有说话人识别经验（推荐先学习王权博士的说话人识别课程）

说明

本课程是关于说话人二值化技术的教程。

说话人二值化是语音处理中的高级课题。它解决了"谁在什么时候说"或"谁说了什么"的问题。它与许多其他技术高度相关，例如语音活动检测、说话人识别、自动语音识别、语音分离、统计和深度学习。它已经在众多场景中找到了不同的应用，例如自动生成会议记录、医疗记录分析、媒体索引和检索以及二次语音识别。

在本课程中，我们将首先介绍说话人分类的基本概念和应用，然后是评分和指标。然后我们将介绍说话人分类中的无监督方法，从常用的模块化框架开始，然后介绍聚类算法，重点介绍谱聚类及其扩展。接下来，我们将讨论聚类算法的问题，并介绍说话人二分化中的监督方法。我们将主要讨论4种有监督的说话人二分化方法，即UIS-RNN、PIT/EEND、TS-VAD和DNC。最后，我们将讨论说话人区分的挑战和未来的研究方向。

对于那些想要深入研究说话人分类的人，我们还包括来自顶级演讲会议（如 ICASSP 和 SLT）的讲师的视频讲座作为额外的学习材料。

除了讲座视频外，我们在每节课后还提供了小测验，以帮助您更好地理解我们在讲座中涵盖的主题。

此外，说话人二值化是一项非常实用的技能。因此，我们精心准备了各种编码实践和项目，让您熟悉各种研究人员和科学家使用的最流行的工具包，包括 SCTK、pyannote-metrics、pyannote-audio 和 uisrnn。

本课程非常适合从事音频和语音处理工作的学生、研究人员、开发人员或产品经理。

此课程面向哪些人：

对音频和语音处理感兴趣的大学生和研究生

计算机科学或信号处理领域的研究人员

智能语音系统的开发人员、系统架构师和产品经理

酷技术爱好者

计算机字幕视频教程网 https://blog.ittutorial.top/ 持续更新Udemy，Coursera等在线课堂上的视频教程，类别涵盖人工智能、机器学习、编程语言、游戏开发、网络安全、云计算、Linux运维、面试技巧等计算机学科的全部知识。

所有视频教程均包含中英双语字幕、练习源码及配套的补充资料。