音频的人工智能算法有哪些？

时间：2023-12-07 本站点击：0

导读：今天首席CTO笔记来给各位分享关于音频的人工智能算法有哪些的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

《蚂蚁呀嘿》火了，背后的AI技术不止换脸这么简单

作者|小葳

2月底，各种版本的《蚂蚁呀嘿》在抖音刷屏。有网友说，“一打开抖音，好像捅了蚂蚁窝。”

通过一款名为Avatarify 的APP，用户只需上传一张照片，即可让照片主人做出各种想要的表情。截止发稿，《蚂蚁呀嘿》在抖音有超过25万个视频，相关话题视频播放量达到30亿次。Avatarify曾在2 月 25 日问鼎国内App Store 应用免费榜榜首，随后连续数天稳居总榜第一名。

相比ZAO火爆之后的3天后下架，Avatarify也逃不出换脸软件的宿命，只有7天便在APP Store中国市场下架（目前国外还可以使用）。

Avatarify 由一个俄罗斯程序员开发，并放在GitHub上，最初是给Zoom、Skype等视频会议“解闷”用的，比如可以在开视频会议时把自己的脸换成马斯克的脸，并实时互动。迄今为止这个项目已在 GitHub 上获得了近 1.2 万的 star 量。

几个月后，Avatarify又推出了APP版（只有iOS版）。原理上，Avatarify借助 deepfake 等技术，在想要交换的脸部图像上对算法进行训练。通过在目标图像的相似类别上训练算法，该模型支持实时换脸操作。

类似换脸软件屡次被下架的背后还是隐私和信息安全问题。很多人都会担心自己的人脸信息被泄露或滥用，然而我们却不必对其背后的AI技术——深度合成一棒子打死。而且，目前深度合成在很多行业已经有了不少更有价值的应用。

深度合成首次被公众关注是2017年11月，彼时美国新闻网站Reddit一个名为“deepfakes”的用户上传了一段合成后的色情视频，将色情影片中演员的脸换成某明星的脸。此后，媒体开始用deepfake描述这种基于AI的视频合成内容。不过因此也让不少人误认为，深度合成就是deepfake、换脸，实在是太冤了。

首先，deepfake是深度合成的子集。只不过，换脸是最早进入公众视野，也是最为大众熟知的一种深度合成应用。

深度合成（Deep Synthesis）的内涵非常广泛，包括借助人工智能算法实现语音、图像、音频、视频、人脸等内容的合成与自动生成。其典型应用包括：人脸替换（换脸）、人脸再现（操纵目标对象的面部表情，比如让他们说从未说过的话）、人脸合成（AI生产媲美真实的人脸图像，事实上这张人脸并不存在）、语音合成、全身合成等等。

其次，deepfake频频导致的隐私安全和色情场景滥用问题，会让人们对深度合成技术存在偏见和误解，甚至认为AI伪造内容会冲击社会信任等等。不过，随着深度合成技术在更多领域的落地应用，公众对深度合成技术的认识也愈加成熟。

深度合成背后的AI技术主要包括两块：自编码器（autoencoders）和生成对抗网络（GAN, Generative Adversarial Networks ）。GAN由两组相互对抗的人工神经网络组成，一个是生成器，一个是鉴别器，在无数次对抗中，生成器最终做到让鉴别器不再能够区分真实数据和合成数据，从而生成高度逼真的内容。

业界最先进的图像生成器当属英伟达的StyleGAN，已于2019年2月在Github上开源。

腾讯研究院、腾讯优图实验室发布的《AI生成内容发展报告2020——“深度合成”商业化元年》（以下简称报告）显示，近几年深度合成技术演进加快，并展现出几个技术趋势：

一、在单一的音频、图像合成之外，深度合成技术正向综合性的方向发展。

二、面部而成之后，全身合成将成为新热点。

三、2D合成之外，3D合成技术（尤其是虚拟数字人）将是下一阶段的重点。

而且，随着“深度合成”技术日趋成熟，其已经在多个领域实现落地应用，包括影视、娱乐、教育、医疗、电商、广告营销等领域。

在媒体行业，AI主播日益火热。2018年，搜狗联合新华社推出全球首个AI合成主播后，2020年，双方又推出全球首个3D AI合成主播。3D AI合成主播基于超写实3D数字人建模、多模态识别及生成、实时面部动作生成及驱动、迁移学习等多项人工智能前沿技术，使机器可以基于输入文本生成逼真度极高的3D数字人视频内容，呈现和真人一样的视频播报。

此外，包括百度、京东、网易在内的互联网巨头先后推出虚拟数字人。百度智能云推出的虚拟数字人，成为国内首个上岗的银行“虚拟员工”。

在自动驾驶领域，深度合成被用于开发自动驾驶仿真系统（AADS），创造虚拟道路环境为自动驾驶系统提供训练和测试。

在医疗领域，通过生成与真实医学影像无异的医学图像训练AI系统，可以解决医疗数据不足、病患隐私保护等问题。在NVIDIA与合作伙伴联合发表的论文中，展示了利用GAN算法合成带有肿瘤的脑部核磁共振图像的方法。在算法训练生成过程中，仅需投入10%的真实数据，AI诊断系统就可以检测出真实影像中的肿瘤。

在广告营销领域，AI合成的人脸和虚拟形象可以替代真人模特参与营销活动，而不会有人像版权问题。比如，Generated Photos 就是一个用AI自动生成人脸的网站，它的资料库中有超过 10 万张AI生成的人脸，对外提供免费下载使用，而且没有版权问题。这些免费人脸图片可以用在非常多的场景，比如广告传单、网站、PPT 简报、问卷、用户头像等等。

深度合成被滥用是人工智能治理的一个重要课题。

色情行业是新技术采用和普及的先锋，AI技术也不例外。目前，色情产业是深度合成技术滥用的重灾区。根据报告，2019年12月，全网共有14678个深度合成视频，其中96%属于色情性的深度合成视频，主要存在于色情网站。

如何防止人们用深度合成技术作恶？多元治理是比较公认的思路，包括法律方案、技术方案、行业自律和公众教育等各个方面。

法律方面，一些发达国家已经出台相关法案。但值得注意的是，并没有“一刀切”禁止使用深度合成技术，而是禁止利用深度合成技术从事色情视频合成、虚假新闻、干扰选举等非法行为。比如美国国会《DeepFakes责任法案》等相关法案，只禁止政治干扰、色情报复、冒充身份等目的的深度合成，并要求制作者对深度合成内容添加水印等标记。

技术方面，鉴别技术和溯源技术是两种主流的方法。但是在鉴别方面，没有通用的视频鉴别方案，需要针对每一种新兴的合成技术训练针对性的鉴别网络。

虽然目前深度合成内容的门槛已大幅降低，普通人也可以在智能手机等智能终端能上完成娱乐性的深度合成内容，但这类内容往往较容易识别。高质量、高仿真的深度合成内容仍需要专业工具和技能。所以，我们需要防范风险但无需恐慌。

AI就像人类的一个非常聪明的学生，TA只是飞快又忠实地学会人类教的东西。

正如报告中所说，“深度合成并非是关于‘伪造’和‘欺骗’的技术，而是极富创造力和突破性的技术。虽然它和其他技术一样，也催生了一系列必须面对的难题，但这并不会磨灭这一技术给社会带来的进步。”

人工智能算法简介

人工智能的三大基石—算法、数据和计算能力，算法作为其中之一，是非常重要的，那么人工智能都会涉及哪些算法呢？不同算法适用于哪些场景呢？

一、按照模型训练方式不同可以分为监督学习（Supervised Learning），无监督学习（Unsupervised Learning）、半监督学习（Semi-supervised Learning）和强化学习（Reinforcement Learning）四大类。

常见的监督学习算法包含以下几类：

（1）人工神经网络（Artificial Neural Network）类：反向传播（Backpropagation）、波尔兹曼机（Boltzmann Machine）、卷积神经网络（Convolutional Neural Network）、Hopfield网络（hopfield Network）、多层感知器（Multilyer Perceptron）、径向基函数网络（Radial Basis Function Network，RBFN）、受限波尔兹曼机（Restricted Boltzmann Machine）、回归神经网络（Recurrent Neural Network，RNN）、自组织映射（Self-organizing Map，SOM）、尖峰神经网络（Spiking Neural Network）等。

（2）贝叶斯类（Bayesin）：朴素贝叶斯（Naive Bayes）、高斯贝叶斯（Gaussian Naive Bayes）、多项朴素贝叶斯（Multinomial Naive Bayes）、平均-依赖性评估（Averaged One-Dependence Estimators，AODE）

贝叶斯信念网络（Bayesian Belief Network，BBN）、贝叶斯网络（Bayesian Network，BN）等。

（3）决策树（Decision Tree）类：分类和回归树（Classification and Regression Tree，CART）、迭代Dichotomiser3（Iterative Dichotomiser 3， ID3）,C4.5算法（C4.5 Algorithm）、C5.0算法（C5.0 Algorithm）、卡方自动交互检测（Chi-squared Automatic Interaction Detection，CHAID）、决策残端（Decision Stump）、ID3算法（ID3 Algorithm）、随机森林（Random Forest）、SLIQ（Supervised Learning in Quest）等。

（4）线性分类器（Linear Classifier）类：Fisher的线性判别（Fisher’s Linear Discriminant）

线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项逻辑回归（Multionmial Logistic Regression）、朴素贝叶斯分类器（Naive Bayes Classifier）、感知（Perception）、支持向量机（Support Vector Machine）等。

常见的无监督学习类算法包括：

（1）人工神经网络（Artificial Neural Network）类：生成对抗网络（Generative Adversarial Networks，GAN），前馈神经网络（Feedforward Neural Network）、逻辑学习机（Logic Learning Machine）、自组织映射（Self-organizing Map）等。

（2）关联规则学习（Association Rule Learning）类：先验算法（Apriori Algorithm）、Eclat算法（Eclat Algorithm）、FP-Growth算法等。

（3）分层聚类算法（Hierarchical Clustering）：单连锁聚类（Single-linkage Clustering），概念聚类（Conceptual Clustering）等。

（4）聚类分析（Cluster analysis）：BIRCH算法、DBSCAN算法，期望最大化（Expectation-maximization，EM）、模糊聚类（Fuzzy Clustering）、K-means算法、K均值聚类（K-means Clustering）、K-medians聚类、均值漂移算法（Mean-shift）、OPTICS算法等。

（5）异常检测（Anomaly detection）类：K最邻近（K-nearest Neighbor，KNN）算法，局部异常因子算法（Local Outlier Factor，LOF）等。

常见的半监督学习类算法包含：生成模型（Generative Models）、低密度分离（Low-density Separation）、基于图形的方法（Graph-based Methods）、联合训练（Co-training）等。

常见的强化学习类算法包含：Q学习（Q-learning）、状态-行动-奖励-状态-行动（State-Action-Reward-State-Action，SARSA）、DQN（Deep Q Network）、策略梯度算法（Policy Gradients）、基于模型强化学习（Model Based RL）、时序差分学习（Temporal Different Learning）等。

常见的深度学习类算法包含：深度信念网络（Deep Belief Machines）、深度卷积神经网络（Deep Convolutional Neural Networks）、深度递归神经网络（Deep Recurrent Neural Network）、分层时间记忆（Hierarchical Temporal Memory，HTM）、深度波尔兹曼机（Deep Boltzmann Machine，DBM）、栈式自动编码器（Stacked Autoencoder）、生成对抗网络（Generative Adversarial Networks）等。

二、按照解决任务的不同来分类，粗略可以分为二分类算法（Two-class Classification）、多分类算法（Multi-class Classification）、回归算法（Regression）、聚类算法（Clustering）和异常检测（Anomaly Detection）五种。

1.二分类（Two-class Classification）

（1）二分类支持向量机（Two-class SVM）：适用于数据特征较多、线性模型的场景。

（2）二分类平均感知器（Two-class Average Perceptron）：适用于训练时间短、线性模型的场景。

（3）二分类逻辑回归（Two-class Logistic Regression）：适用于训练时间短、线性模型的场景。

（4）二分类贝叶斯点机（Two-class Bayes Point Machine）：适用于训练时间短、线性模型的场景。（5）二分类决策森林（Two-class Decision Forest）：适用于训练时间短、精准的场景。

（6）二分类提升决策树（Two-class Boosted Decision Tree）：适用于训练时间短、精准度高、内存占用量大的场景

（7）二分类决策丛林（Two-class Decision Jungle）：适用于训练时间短、精确度高、内存占用量小的场景。

（8）二分类局部深度支持向量机（Two-class Locally Deep SVM）：适用于数据特征较多的场景。

（9）二分类神经网络（Two-class Neural Network）：适用于精准度高、训练时间较长的场景。

解决多分类问题通常适用三种解决方案：第一种，从数据集和适用方法入手，利用二分类器解决多分类问题；第二种，直接使用具备多分类能力的多分类器；第三种，将二分类器改进成为多分类器今儿解决多分类问题。

常用的算法：

（1）多分类逻辑回归（Multiclass Logistic Regression）：适用训练时间短、线性模型的场景。

（2）多分类神经网络（Multiclass Neural Network）：适用于精准度高、训练时间较长的场景。

（3）多分类决策森林（Multiclass Decision Forest）：适用于精准度高，训练时间短的场景。

（4）多分类决策丛林（Multiclass Decision Jungle）：适用于精准度高，内存占用较小的场景。

（5）“一对多”多分类（One-vs-all Multiclass）：取决于二分类器效果。

回归

回归问题通常被用来预测具体的数值而非分类。除了返回的结果不同，其他方法与分类问题类似。我们将定量输出，或者连续变量预测称为回归；将定性输出，或者离散变量预测称为分类。长巾的算法有：

（1）排序回归（Ordinal Regression）：适用于对数据进行分类排序的场景。

（2）泊松回归（Poission Regression）：适用于预测事件次数的场景。

（3）快速森林分位数回归（Fast Forest Quantile Regression）：适用于预测分布的场景。

（4）线性回归（Linear Regression）：适用于训练时间短、线性模型的场景。

（5）贝叶斯线性回归（Bayesian Linear Regression）：适用于线性模型，训练数据量较少的场景。

（6）神经网络回归（Neural Network Regression）：适用于精准度高、训练时间较长的场景。

（7）决策森林回归（Decision Forest Regression）：适用于精准度高、训练时间短的场景。

（8）提升决策树回归（Boosted Decision Tree Regression）：适用于精确度高、训练时间短、内存占用较大的场景。

聚类

聚类的目标是发现数据的潜在规律和结构。聚类通常被用做描述和衡量不同数据源间的相似性，并把数据源分类到不同的簇中。

（1）层次聚类（Hierarchical Clustering）：适用于训练时间短、大数据量的场景。

（2）K-means算法：适用于精准度高、训练时间短的场景。

（3）模糊聚类FCM算法（Fuzzy C-means，FCM）：适用于精确度高、训练时间短的场景。

（4）SOM神经网络（Self-organizing Feature Map，SOM）：适用于运行时间较长的场景。

异常检测

异常检测是指对数据中存在的不正常或非典型的分体进行检测和标志，有时也称为偏差检测。

异常检测看起来和监督学习问题非常相似，都是分类问题。都是对样本的标签进行预测和判断，但是实际上两者的区别非常大，因为异常检测中的正样本（异常点）非常小。常用的算法有：

（1）一分类支持向量机（One-class SVM）：适用于数据特征较多的场景。

（2）基于PCA的异常检测（PCA-based Anomaly Detection）：适用于训练时间短的场景。

常见的迁移学习类算法包含：归纳式迁移学习（Inductive Transfer Learning）、直推式迁移学习（Transductive Transfer Learning）、无监督式迁移学习（Unsupervised Transfer Learning）、传递式迁移学习（Transitive Transfer Learning）等。

算法的适用场景：

需要考虑的因素有：

（1）数据量的大小、数据质量和数据本身的特点

（2）机器学习要解决的具体业务场景中问题的本质是什么？

（3）可以接受的计算时间是什么？

（4）算法精度要求有多高？

————————————————

原文链接：

利用人工智能识别声音的技术来检测故障机器

参考文章：

声音是一种表达力很强的因素，我们可以透过声音来得到各种信息，或是开心或是难过等等；这并不仅限于人类自身，对于机器声音也是一样的，不同的声音代表着不同的状态，宣示着机器的工作状态。

总部位于芬兰赫尔辛基的Noiseless Acoustics和总部位于荷兰阿姆斯特丹的OneWatt正在研究利用人工智能识别声音的技术来检测故障机器，因为通过AI技术他们可以更容易发现问题。至于这两家公司，是去年新能源挑战赛(New Energy Challenge)的最终入围者，这是一场旨在挑选可以在新能源转型方面提出创新技术以及解决方案的比赛。

根据美国能源部的数据，工业用发电机用电量占全国用电量的25%。尽管他们扮演着重要的作用，但由于种种原因，发电机是可能出故障的，进而导致生产率和盈利能力下降。但如果有可能将这种无声噪音转化为有价值的东西呢?

通过使用人工智能，可以对声音进行分析来检测故障。换句话说，即使在人类听不到某种声音的情况下，也可以让声音变得清晰。在非侵入式传感器、机器学习算法和预测维护解决方案的帮助下，出现故障的组件可以在它们变得更严重之前就被识别出来。

OneWatt便正在用AI听音的方式来对发电机进行检测。通过嵌入式声学识别传感器设备，再结合机器学习和频率分析，该公司可以在事故发生前进行预测，包括问题出现的部位与时间。

16,000个出故障的发电机声音片段

为了验证人工智能技术的有效性，OneWatt将其设备对业内电机八大故障进行了测试，范围从轴承故障到软基断层等均包括在内。在这种情况下，该公司收集到了近2TB的声学数据，约达16,000个声音片段。

“ 音频是机械故障最明显的标志，”OneWatt首席技术官Paolo Samonta ez再一次采访中表示。“ 电机的部件会因为运动而产生摩擦，大部分的故障可以因此被识别出来。但其中的可见光并不是一个好的故障标志，因为它无法透过电机被探测到，也无法判断轴承是不是有所退化。 ”

超声波是一种可视化发动机内部结构的选项，但Samonta ez表示，这是一种昂贵的技术。它还需要一个操作员监控发射器和接收器(有点类似于医院中的超声波机器)。音频是理想的解决方案，即使它不是很引人注意。在处理工业设备时，这也是一个主要的因素，因为工作人员需要在保证安装设备时不会对电机产生负面影响。

而Noiseless Acoustics则使用了硬件、软件加分析的组合进行声音识别。

利用NL Camera，该公司可以通过声音进行定位。与热成像类似，NL Camera可以拍摄到捕捉噪音信号的热图像，然后将信息上载到云端，利用算法对问题进行评估。

NL Sense是Noiseless Acoustics使用的另一种工具，一个非侵入式系统，可以精确定位出问题所在的位置。通过使用集线器和传感器，可以将信息放置在任何给定表面上，它将自动把数据发送到云端，并进行分析和处理。

“声音描述事物，这是一个全新的世界，”Noiseless Acoustics首席执行官Kai Sakesla表示。他补充道，一旦从声源中隔离出声音信号，AI就会检查是否存在问题。

根据Elsevier发表的一份研究报告，工厂里高达40%的能源成本可能是由于漏气造成的。当故障开始出现时，电机的电效率就会降低，需要更多的能量来补偿运作过程中由于故障所带来的额外压力。这就带来了额外的能源消耗和更高的耗电费用。

“用于NL Camera的一个用例是能量优化，这对于找到工厂器械的故障部位非常有用，”Sakesla说。“通常情况下，气动系统产生的空气中有10%-15%被泄露。在全球范围内，这是一个巨大的浪费能源。“

Sakesla表示，NL Sense的工作原理是通过非侵入式监控延长现有设备的使用寿命，这也有助于可持续能源产业的发展。

OneWatt从他们的系统中发现，可以减少10%的电力消耗。根据Samonta ez的说法，全球市场大概有5亿台电机在运作，这是一个巨大的数字。“到2022年，如果按计划可以占到市场的1%，以及我们可以帮助节省596711兆瓦的电力，这足以为伯利兹提供一年的电力。”

随着声音变得更有价值，硬件和软件的进步表明，基于音频的预测分析领域正取得重大进展。无论是与电网，加油站，发动机，工厂还是水力学结合，两家公司都发现任何行业都可能从声音分析中获益。

对OneWatt，Samonta ez表示他们希望有朝一日成为“行业里的Alexa”，可以用人工智能技术来节省工业资产。

人工智能算法有哪些

同意上一个回答，我来补充一下

决策树

决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

随机森林

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

逻辑回归

逻辑回归，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。

Adaboost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。

朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。

和决策树模型相比，朴素贝叶斯分类器发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，朴素贝叶斯分类器模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

K近邻

所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

SVM

使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。

神经网络

人工神经网络是生物神经网络在某种简化意义下的技术复现，它的主要任务是根据生物神经网络的原理和实际应用的需要建造实用的人工神经网络模型，设计相应的学习算法，模拟人脑的某种智能活动，然后在技术上实现出来用以解决实际问题。因此，生物神经网络主要研究智能的机理；人工神经网络主要研究智能机理的实现，两者相辅相成。

最常见的人工智能算法都有哪些？它们在求解过程中与传统算法相比，有什么特点

很多很多，早期的算法特点是通过规则方式建立知识库，指导算法完成计算；当前算法的特点是不编程高速计算机如何计算，而是让计算机自己学习，这些算法可以看一下163上斯坦福《机器学习》的公开课。

结语：以上就是首席CTO笔记为大家整理的关于音频的人工智能算法有哪些的相关内容解答汇总了，希望对您有所帮助！如果解决了您的问题欢迎分享给更多关注此问题的朋友喔～