人工智能基础篇
本篇目录:
一、人工智能、机器学习、深度学习的关系
(1)、关系图
概括来说,人工智能、机器学习和深度学习覆盖的技术范畴是逐层递减的,三者的关系如 图所示:
(2)、人工智能
人工智能的英文全称是 Artificial Intelligence,简称 AI。
人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,从而解决一些不能用代码描述的问题,这些问题不能用传统的编程方法解决,因为没有一个确定的公式,或者说没有一个确定的算法。人工智能的目的也是如此,就是不给计算机编写固定的算法,而是让它自己形成一套模型,然后利用这套模型来帮助人们解决问题。这里的模型,就可以看做计算机的“经验”或者“认知”。
人工智能是一门交叉学科,相关学科有很多,计算机类、自动化类、数学、专业领域类(如:通信工程、信息工程、水声工程、电子信息工程、微电子科学与工程、光电信息科学与工程、自然语言处理、电磁度场与无线技术、电子信息科学与技术、电波传播与天线、集成电路设计与集成系统、轨道交通信号与控制。)、神经学、心理学和哲学。
人工智能的研究目的是促使智能机器会听(语音识别、语音翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、定理证明等)、会学习(机器学习、知识表示等)、会行动(机器人、自动驾驶汽车等)。
(3)、人类智能过程
人类在成长、生活过程中会积累很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。
当人类遇到未知的问题需要解答或者需要对未来进行“推测”的时候,人类会使用这些归纳总结出来的“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。
(4)、机器学习
如何才能实现人工智能呢?答案就是机器学习。机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决很多灵活复杂的问题。
机器学习的英文全称是 Machine Learning,简称 ML。
机器学习是是专门研究计算机怎样模拟或实现人类的学习行为,赋予机器学习的能力,让它完成直接编程无法完成的功能的方法。机器学习可以重新组织已有的知识结构,通过不断改善自身的性能,以获取新的知识技能,并使之不断循环的过程。
换句话说,机器学习是计算机利用已有的数据,训练出某种模型,并利用此模型预测未来的一种方法。
机器学习的实现可以分成两步:训练和预测。
机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“预测”过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,是对人类在生活中学习成长的一个模拟。
◆ 从具体案例(一定数量的样本)中抽象一般规律。从(已知模型输入x和模型输出y)中,学习输出y与输入x的关系。
◆ 基于训练得到的y与x之间的关系,如出现新的输入x,计算出输出y。通常,如果通过模型计算的输出和真实场景的输出一致,则说明模型是有效的。
(5)、深度学习
深度学习的英文全称是 Deep Learning,简称 DL。
深度学习是机器学习算法中最热门的一个分支,近些年取得了显著的进展,并替代了大多数传统机器学习算法。它是机器学习的高级玩法,更加接近真正的人工智能。
深度学习改变了很多领域算法的实现模式。在深度学习兴起之前,很多领域建模的思路是投入大量精力做特征工程,将专家对某个领域的“人工理解”沉淀成特征表达,然后使用简单模型完成任务(如分类或回归)。而在数据充足的情况下,深度学习模型可以实现端到端的学习,即不需要专门做特征工程,将原始的特征输入模型中,模型可同时完成特征提取和分类任务
目前深度学习已经被应用在人工智能的各个领域,其中最显著的应用是计算机视觉和自然语言处理领域,我们所熟知的语音识别、机器翻译、无人驾驶、人脸识别等等,都是基于对深度学习算法的应用。
二、人工智能研究的领域
人工智能研究的领域如图所示:
- 人工智能研究的领域主要有五层:
1、最底层是基础设施建设,包含数据和计算能力两部分。
2、第二层为算法。
3、第三层为技术方向。
4、第四层为具体的技术。
5、第五层为行业的解决方案。
三、人工智能的应用场景
(1)、计算机视觉
计算机视觉(Computer Vision)是人工智能 (AI) 的一个领域,是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提供建议。 如果说人工智能赋予计算机思考的能力,那么计算机视觉就是赋予发现、观察和理解的能力。
计算机视觉的工作原理与人类视觉类似,只不过人类起步更早。 人类视觉系统的优势是终身可以在适当的环境下训练分辨物体、物体距离、物体动静与否以及图像是否存在问题等能力。
计算机视觉训练机器来执行这些功能,但它们依靠摄像头、数据和算法在更短的时间内完成工作,而不像人类是依靠视网膜、视神经和视皮质。 经过训练用于检验产品或监控生产资产的系统每分钟能够分析数千个产品或流程,并且会发现极其细微的缺陷或问题,因此计算机视觉的能力迅速超越人类。
计算机视觉解决的主要问题是:给出一张二维图像,计算机视觉系统必须识别出图像中的对象及其特征,如形状、纹理、颜色、大小、空间排列等,从而尽可能完整地描述该图像。
例如一张图片效果不理想,我们通过计算机视觉处理一下,代码:
import numpy as np
import cv2
def img_contrast_bright(img,a,b,g):
h,w,c=img.shape
blank=np.zeros([h,w,c],img.dtype)
dst=cv2.addWeighted(img,a,blank,b,g)
return dst
img=cv2.imread('a1a.jpg')
#a对比度
#g亮度
a=5.2
b=1-a
g=50
img3 = img_contrast_bright(img,a,b,g)
cv2.imshow('1',img3)
cv2.waitKey(0)
经过处理后的图片和原图对比效果:
计算机视觉广泛用于许多行业,例如能源、公用事业、制造和汽车行业等等,并且市场仍在不断拓展,而深度学习则逐渐运用机器代替人工来学习特征,扩大了其应用场景,零售业、行为追踪、库存管理、制造业、医疗行业、自动驾驶、保险业、农业、安防等行业都有计算机视觉的应用。例如车牌识别、安防、人脸、无人车。
在计算机视觉上,未来的人工智能应更加注重效果的优化,加强计算机视觉在不同场景、问题上的应用。
(2)、语音技术
语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。
语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别系统中。
深度学习的广泛应用使语音识别的准确率大幅提升,像 Siri、Voice Search 和 Echo 等,可以实现不同语言间的交流,从语音中说一段话,随之将其翻译为另一种文字;再如智能助手,你可以对手机说一段话,它能帮助你完成一些任务。
当前的语音识别虽然在特定的场景(安静的环境)下,已经能够得到和人类相似的水平。但在噪音情景下仍有挑战,如原场识别、口语、方言等长尾内容。未来需增强计算能力、提高数据量和提升算法等来解决这个问题。
- 文本文字转换成语音播报完整实例代码:
import pyttsx3 as pyttsx
engine = pyttsx.init()
engine.say('I can because i think i can. 逆境清醒 Life is not all roses.人生并不是康庄大道。')
engine.runAndWait()
运行结果为:
如果你没有出错,打开电脑的声音,就能听到语音(把我们刚才在代码里写的文本文字转换成语音播报出来了:I can because i think i can. 逆境清醒 Life is not all roses.人生并不是康庄大道。)
- 文本转存为语音文件wav完整实例代码:
from comtypes.client import CreateObject
engine = CreateObject('SAPI.SpVoice')
stream = CreateObject('SAPI.SpFileStream')
from comtypes.gen import SpeechLib
infile = '就算世界无童话.txt'
outfile = '就算世界无童话.wav'
stream.open(outfile, SpeechLib.SSFMCreateForWrite)
engine.AudioOutputStream = stream
f = open(infile, 'r', encoding='utf-8')
theText = f.read()
f.close()
stream.close()
运行结果为:生成了“就算世界无童话.wav”语音文件。
(3)、自然语言处理
自然语言处理,英文Natural Language Processing,简写NLP。
可以把自然语言处理分成“自然语言”和“处理”两部分。
区分于计算机语言,自然语言是人类发展过程中形成的一种信息交流的方式,包括口语及书面语,反映了人类的思维,都是以自然语言的形式表达。
“自然语言”:现在世界上所有的语种语言,都属于自然语言,包括汉语、英语、法语等。然后再来看“处理”。
“处理”:“处理”必须是计算机处理,但计算机毕竟不是人,无法像人一样处理文本,需要有自己的处理方式。因此自然语言处理,简单来说即是计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。
与图像相比,自然语言更难、更复杂,不仅需要认知,还需要理解。目前一个比较重大的突破是机器翻译,这大大提高了原来的机器翻译水平。
在自然语言处理中,机器的优势在于拥有更多的记忆能力,但却欠缺语意理解能力,包括对口语不规范的用语识别和认知等。人说话时,是与物理事件学相联系的,而在自然语言里,它仅仅将"电脑"作为一个孤立的词,不会去产生类似的联想,自然语言的联想只是通过在文本上和其他所共现的一些词的联想, 并不是物理事件里的联想。所以如果要真的解决自然语言的问题,将来需要去建立从文本到物理事件的一个映射,但目前仍没有很好的解决方法。因此,这是未来着重考虑的一个研究方向。
import re
text_string = "Windows 11 带来了许多新的功能和改进,其中之一就是文件管理器。文件管理器是我们在电脑上管理和查找文件的重要工具。而 Windows 11 的文件管理器经过了重大的改造,拥有了更现代化和简洁的界面,更好的性能和更多的功能。"
regex = "文件"
p_string = text_string.split("。")
for line in p_string:
if re.search(regex,line) is not None:
print(line)
运行结果为:
Windows 11 带来了许多新的功能和改进,其中之一就是文件管理器
文件管理器是我们在电脑上管理和查找文件的重要工具
而 Windows 11 的文件管理器经过了重大的改造,拥有了更现代化和简洁的界面,更好的性能和更多的功能
(4)、决策系统
决策支持系统(Decision-making Support System,DSS)是管理信息系统应用概念深化。决策系统的发展是随着棋类问题的解决而不断提升,从人机棋类对弈,机器的胜利都标志了科技的进步,决策系统可以在自动化、量化投资等系统上广泛应用。
当下的决策规划系统存在两个问题,第一是不通用,即学习知识的不可迁移性。第二是大量模拟数据。所以它有两个目标,一个是算法的提升。另一个是自适应能力。
(5)、大数据应用
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
人工智能应用,可以通过你之前看到的文章,理解你所喜欢的内容而进行更精准的推荐;机器通过一系列的数据分析进行判别,找出最适合的一些策略而反馈给我们。
四、总结
此文为人工智能的基础知识篇。下面陆续会推出计算机视觉方面的相关知识和图像处理相关实例(基于python )
推荐阅读:
计算机视觉__基本图像操作(显示、读取、保存) | 直方图(颜色直方图、灰度直方图) | 直方图均衡化(调节图像亮度、对比度) |