第三章 语音和图像

上一章 目录 下一章
最后一学期,是忙碌的一学期,所有同学都忙着找工作,在毕业即失业的大趋势下,也由不得这些同学不着急。论坛上不是说嘛,保研的过着猪一样的生活,考研的过着狗一样的生活,还有找工作的,过着猪狗不如的生活。这个话虽然过份了点,但至少说明了一点,现在出来混是相当难的,想要混得好就更难了。
不过王石没有打算出来找工作。考虑到那个神经元程序的发展前景,王石当前的目标是让它迅速成长,并发掘这个程序的潜力。王石觉得可以有这几个方面进行考虑,一个呢,是增加语音输入输出模块,还有一个就是图像的识别抽像以及归纳功能。还有呢,需要保证一下这个程序的安全。
因为考虑到现在语音输入软件已经比较成熟了,王石也不打算自己来开发这个软件,所以王石在网络上查了一下资料,最后选定开源的语音识别软件Simon作为它的输入主体。
n是一个开源的语音识别系统,它不仅可以输入文字,而且可以代替键盘、鼠标操作电脑。Simon基于Qt用C++开发,支持的语言相当少,但语言模型可以在任何语言下训练。网站上还有视频演示用Simon键入文章、操控各种软件等应用,识别率相当高,而且有源代码可以下载。比较适合王石目前的需要。
王石在网络上下载了这个程序的源代码以后。打算把它移植过来,作为智能核心的外挂模块。
但既然有了源代码,那么总比从零开始要好得多,也不需要有多高的识别度,王石相信,只要把模块挂接到智能核心上,在经过一段时间学习以后,识别率自然会有更好的表现。
这个语音模块的移植,花了王石大约一个月的时间,经过测试。还是不令人满意。但是还有更重要的事情等着王石来解决。那就图像识别。
根据网络上查询的资料,现在最为广泛接受的图像识别模型叫“泛魔”识别模型
这是一种以特征分析为基础的图像识别系统。1959年B.塞尔弗里吉把特征觉察原理应用于图像识别的过程,提出了“泛魔”识别模型。
这个模型把图像识别过程分为不同的层次,每一层次都有承担不同职责的特征分析机制,它们依次进行工作,最终完成对图像的识别。
塞尔弗里吉把每种特征分析机制形像地称作一种"小魔鬼",由于有许许多多这样的机制在起作用,因此叫做“泛魔”识别模型。这一模型的特点在于它的层次的划分。
“泛魔”识别模型系统的图像识别共有4个层次。第一层是执行最简单任务的“映象鬼”,它们只是记录外界的原始形象,正像视网膜获得外界刺激的映象;然后由“特征鬼”进一步分析这个映象。在分析过程中,每个特征鬼都去寻找与自己有关的图像特征。例如,在识别英文字母时,每个特征鬼负责报告字母的一种特征及其数量,如垂直线、水平线、斜线、直角、锐角,不连续曲线和连续曲线等;再由“认知鬼”接受特征鬼的反应,每个认知鬼都从特征鬼的反应中寻找与自己负责识别的图像有关的特征,发现了这种特征时,它就“叫喊”,发现的特征越多,“叫喊”声越大;最后,“决策鬼”根据许多“认知鬼”“叫喊”声的大小,选择叫喊声最大的“认知鬼”的反应作为所要识别的图像。
例如在识别字母R时,“映象鬼”先对R进行编码,把信息传递给"特征鬼"作进一步加工,这时会有5个“特征鬼”分别报告图像所包括的一条垂线、两条水平线,一条斜线,3个直角和一条不连续曲线。然后许多"认知鬼"则根据所报告的这些特征及其数量来识别是否是自己负责的字母。这时D、P、R鬼都会有反应,但P鬼只有4个特征与其符合,并有一特征(斜线)与其不符合;D鬼只有3个特征与其符合,并有两个特征(斜线、直角)与其不符合;只有R鬼有5个特征与其符合,而且这5个特征又包括了R的全部特征,所以R鬼的叫喊声最大,因此“决策鬼”就很容易地作出选择R的决定。

“泛魔”识别模型对于相似的图形也可以分辨,不致混淆;对于失真的图形,如字母的大小发生变化时,识别也不致发生困难。以特征分析为基础的“泛魔”识别模型是一个比较灵活的图像识别系统。它可进行一定程度的学习,如“认知鬼”可逐渐学会怎样解释与它所负责的字母有关的各种特征;它还可以容纳具有其他功能的鬼。这个系统现在也被用来描述人的图像识别过程。
基于这个模型,王石在剩下的几个月时间里艰难地完成了这个模块。经过测试后,效果差强人意,对于这个问题,王石也没有什么办法,必竞他不是神。
最后,由于把大把的时间都投入到了这个程序上面,自然也就没有更多精力去编造那个论文了。草草交了一份《图像识别的在文字输入上的应用》,算是完成学校里的任务了。
当然,由于毕业答辩还是没什么问题的,最差,这个论文也是王石自己写的,而且经过几个月的摸索。至少把模块给编写出来,而且可以运行。这点信心还是有的,很多同学的论文直接是从哪个角落里抄来也说不定呢。
在王石给智能核心进行图像识别训练的时候,他还不知道,这个花了一个晚上时间造出来的,用来糊弄答辩老师的论文己经给了答辩老师们以极大的震撼。当所有看到这篇论文的老师都赞叹不己的时候,甚至有的老师还以为是网络上哪儿抄来的。当轮到王石进行答辩的时候,甚至学院院长章教授都来旁听了。
在老师问了几个表面上的问题后,有一个老师就忍不住问王石:“王石,你这篇文章是哪里抄来的!"
王石瞬间就涨红的脸,“……”
“这篇文章是写得不错,不过就你的水平,还写不出来的。”
王石沉默了一下,然后就从口袋里摸出一个U盘来。
“各位老师,我想要演示一下,这个是我编的程序。这篇论文是我在写这个程序的一些总结。”
说着,王石就走到演示电脑的前面,把U盘的只读开关拔了一下,插在了电脑USB接口上。
然后王石在电脑就坐在电脑前面打开了那个U盘上的程序运行起来。
在经过一番设置以后。王石打开了一个画图板,在画图板上用铅笔写起了歪歪纽纽的字,有中文的,有英文的。而那个程序则把在画图板识别出来的字都在程序的文本框里显示了出来。由于演示电脑连着投影机。当由于王石写了一个实在太潦草的字,程序上的文本框居然显示的是“你是猪啊!这么潦草的字怎么认呀?”这下子,在场所有同学都大笑起来。
王石有点不好意思了,站了起来对老师说,这个程序我还没有完全弄好,所以界面也很简陋。不过它确实能够进行识别。识别率现在还不太高。
几个老师倒也恋感兴趣地围了拢了,都在机器上试了一下,觉得还真是有点意思,很显然,这个程序单单就这个功能,就是相当有价值了,这个时候,那个一开始说王石抄袭的老师笑着道了歉。
王石笑着说没关系,但心里却非常得意,这个单单识别手写字就这样惊呀,要是整个功能完善起来,那还不吓死你们呀。
书书网手机版 m.1pwx.com