传统的博物馆藏品展览多以实物展出为主,而随着信息技术的进步,数字技术已成为贯穿各行各业的不可抗拒的潮流.博物馆向公众展览物品也是一种向社会传达教育的方式,因为在整个展览过程中公众能够学习了解展览文物影射的丰富的文化信息.博物馆已经开始探索数字技术在展览中的应用,并努力加强与公众的交流,以便在公众和公共服务之间取得更好的平衡。建筑与文化之间一直有一根无形的纽带连接彼此,在人类发展中这是一个永恒的课题.文化元素给建筑赋予了灵魂,而纵观古往今来建筑的设计又进一步丰富了文化的发展.“荆楚”源自于《诗经》中描述商代的荆楚部落,如今在湖北地区的建筑中融入了历史风韵美其名曰为荆楚建筑。学术界对湖北地区的历史建筑展开了研究工作,在分析现存荆楚建筑的工程设计和遗址特性过程中,探讨了现代建筑中楚文化的强大作用.本文围绕着基于荆楚古代科技成果以“楚王归来”这个主题,基于Java框架的Web程序,结合当下成熟的语音交互技术,调用国内科大讯飞对外服务的语音识别框架API,完成了基于语音交互的荆楚建筑展示系统的研究和实现.研究与设计期间开展的主要工作如下:
基于语音交互的荆楚建筑展示系统在开发前期搜集并整理楚国20组建筑相关图片,分析系统的功能和性能需求,使用基于Java框架的WebService技术,语音对话系统前台界面运用了基于HTML、CSS、Javascript的Bootstrap框架.后台运用了SpringBoot开发框架,分为控制层、业务层、数据链路层.控制层负责将前台的消息数据传递到后台,数据的传递和处理工作在业务层完成,与数据库实现交互操作则是在数据链路层.本系统嵌入的是科大讯飞的最新语音识别框架,该框架基于深度全序列卷积神经网络研究,针对语音信号分析无法捕捉长句上下文信息这一问题,其通过大量增加卷积层数实现对整句语音信号建模的目标,进而表达了语音长时相关性的特点.此外,该系统委托于武汉光庭信息技术股份有限公司测评中心进行了软件验收测试,严格按照实验室体系规定执行了功能测试和非功能测试.本系统功能符合需求、性能稳定,测评过程系统运作正常,各项测试结果满足要求.
第一章绪论
1.1研究背最及意义
近年来,互联网技术和信息技术的发展一直保持着强劲的势头,人们在社交、交通出行、购物消费、饮食娱乐等日常活动中也总能见到互联网技术的应用.在文物安全方面,博物馆使用高科技电子设备如感知型、特征分析类摄像机,方便实时获取馆内信息;在展览引导方面,博物馆安装了智慧导览机,在手机上即可查看地图,获得文物信息和语音讲解。那么为了实现更好发挥博物馆的社教功能这一目标,我们将科学技术应用于博物馆越来越重要?如今,学术界和工业界也越来越多的把目光聚焦在语音交互领域,并且取得了大量富含价值的科研成果。当下是信息时代,互联网技术和信息技术的发展飞速,各个行业都已经投入到人工智能建设与应用的行列中,博物馆作为国家科普教育的重要场所,也迫切
的需要和新兴技术相结合.我们的项目正符合这一需求,通过语音交互的方式,将机器学习这一计算机技术与荆楚建筑这一博物馆展项融合到一起.作为创新展项,基于语音识别的荆楚建筑展示系统,不光具有博物馆传统展品的展示功能,而且可以让参观者有更高的自主性,在另一方面还可以普及人工智能的概念.传统的博物馆建筑展览系统已经无法满足人们与日俱增的科技需求,在人工智能技术的发展历程中,语音识别的出现极大程度的满足了人们在日常生活中方便、快捷获取信息的需求.博物馆在展示陈列方面运用了人工智能和虚拟现实技术,通过友好的人机交互提高了参观者的用户体验,既能更好完成展览内容的介绍工作,又能丰富博物馆社教功能更好地服务大众.本系统在博物馆展览中的应用有如下的意义:
(1)以三维建模技术丰富视觉体验
在博物馆展览服务中结合虚拟现实技术,通过三维建模技术丰富视觉体验是传统博物馆走向智能化的重要一步.在数字化技术的支持下,可根据实际运用环境下的展览需求、参观者需求及博物馆的整体空间环境,从视觉层次上设计展览内容,通过最适合的科技应用带给参观者一场精彩的视觉体验,包括3D建模、人机交互、视频技术、数字沙盘等.
(2)以语音交互技术优化听觉体验
在对声音进行处理的过程中运用多媒体技术'不仅能保证声音的音频音色,而且能有效烘托展览氛围,从而实现增强语音讲解的感染力这一目标.本系统通过碳粒麦克风进行声音输入,参观者按照正确的操作方法发出语音指令,后台分析输入的语音信息于语音资料库进行匹配并模拟人声完成讲解.一方面有效弥补传统讲解的不足,减轻博物馆讲解员的工作量;另一方面良好的语音仿真技术,优化了人机互动体验.
1.2国内外研究现状
在计算机技术及其相关技术支撑之下,各个行业都已经投入到人工智能建设与应用的行列中,博物馆作为国家科普教育的重要场所,也迫切的需要和新兴技术相结合.本系统正符合这一需求,通过语音交互的方式,将机器学习、三维建模、Web程序等计算机技术与荆楚建筑这一博物馆展项融合到一起。
1.2.1语言交互研究现状
语言是人类进行交往最基础的一种方式,伴随人工智能的突飞猛进,使用自动语音交互(AutomaticSpeechRecognition,ASR)技术已初步实现计算机与人类之间的语音交流.近几年来,顺应大数据时代的发展趋势,机器学习领域深入推动深度学习的研究工作,因此基于深度学习算法的语音交互技术发展势头迅猛.在语音交互领域的研究和应用中,国内外的互联网公司不仅花费高昂的研究资金,而且投入了大量的时间成本,希望能够将语音交互技术应用到商业项目中获取利益.当今,国外研究性成果以Siri为例,投入电子设备的使用并获得不断好评;纵观国内的应用,科大讯飞、搜狗语音助手、百度语音等系统相对成熟,迭代式推进了国内语音交互技术的发展.各大互联网公司生产的其他相关的产品也直接或间接嵌入了类似的技术.互联网技术近年来发展速度飞快,日常生活中手机等移动终端也得到了普及使用,构建通用大规模语言模型和声学模型已经不是技术难题.在构建过程中需要创建语音资料库,其中的语音信息来源于多渠道获取的大量文本或语音方面的语料.运用语音识别技术时,系统的性能容易受到训练数据的影响,尤其是建立语音模型时的匹配度和语料之间的相关性。当今社会是大数据时代,科研人员把更多的关注给予了积累大规模语料资源.在积累资源过程中对语料的标注技术尚不成熟,需要迭代发展技术,而且对语料的分析还需要很长的一段时间沉淀。国外微软研究院一直在从事语音交互的研究,尤其是于2011年在大规模语音识别任务上获得了显著效果,自从该研究院首次釆用深度神经网络(DeepNeuralNetwork,以下简称DNN)并取得成功后,语音识别领域的研发人员越来越重视DNN的应用效果,所以当前的主流语音识别系统都会采用本算法.语音识别投入实际开发项目时高错误率一直是业界无法解决的难题,而微软研究院运用深度神经网络技术建模,大大降低了错误率,这一改进措施很大程度上推动了语音交互方面的发展.语音识别技术包含语音识别解码器,解码器采用解码网络的技术思想,如今大多数的解码网络都是基于有限状态机设计。为了提高解码的准确率和工作效率,需要把语音模型、语义和声学模型集成开发,最后形成一个统一的解码网络.更深入的研究成果表明:DNN结构虽然具有很强的分类能力,但是仍然存在不足,处理时序信号时,通常情况下这些信号之间彼此存在关联,然而DNN无法高效率地捕捉信号之间相关的时序信息.语音归根到底是一串串信号,具有复杂性、时变性.它由很多喊集合而成,各喊之间具有很强的相关性.正常的对话交流过程,一句话的前后词语对于表达的词意都有影响,这就是体现在说话时的相关性,也被称为协同发音现象.在语音识别领域,近年来基于DNN发明了一个新深度学习框架即循环神经网络(RecurrentNeuralNetwork,以下简称RNN).
1.2.2三维建模技术研究现状
通过建立正确的模型来描述和表现事物的各种属性,是现代科学探索事物本身发展、运行规律的一个普遍而且重要的方法.不论是在应用领域还是在科学领域对整个世界进行三维建模研究,都是一个不断兴起的领域.对现实世界的建模和模拟,就是根据研究的目标和重点在数字空间中对其形状、材质、运动等属性进行数字化再现的过程.在模型数据获取阶段,要获得待建模型物体的外观数据,如长宽尺寸、深度数据.在不同的研究与应用领域,根据需求的不同,获取数据的类型与方法也有较大的不同,因而使用的设备和数据建模的过程也有区别。近年来,许多研究机构在进行三维信息获取时,系统中都使用了包括转台、数码相机在内的普通设备,以期在实验室灵活、快速、准确、廉价地得到体积相对不大的物体的三维模型.基于几何的建模与绘制属于传统的三维建模方法.随着AutoCAD、Maya等三维软件的出现,可以通过人机交互的手段来辅助三维建模.但这些方法费时费力,而且对使用者的技巧要求很髙,对于结构复杂、不规则的场景建模更是无能为力.三维建模研究与应用的不断深入,带来了三维模型数量的快速增长,进而引发了使用上的困难.一个综合、完整的模型系统离不开高效的模型检索功能与机制.由于依靠模型所具有的形状、拓扑结构、图像颜色、表面特征等属性和特征来进行区别以及相似度的计算存在着描述上的困难,因此并不能完全满足实际的应用需求.
1.2.3Javaweb技术研究现状
Web技术是以互联网技术为基础,在计算机上进行网页访问操作.近年来,在日常生活中的电子商务领域广泛应用此技术,可见Web技术有极大的重要性.为实现将数据处理和提供服务两项工作髙效率进行,对Web技术进行优化引来了研究人员的高度关注.在开发趋势中设计模式也出现了新的趋势,模型-视图-控制器(ModelView
Controller,MVC)模式是Web开发中经典的设计模式A模型层是用来承载数据的抽象结构,视图层也被称为表现层存在于前端代码中,控制器作为视图和模型
之间的桥梁存在于后端代码中.在后端代码中一般采用分层的方法实现代码的整洁和易读性.该方法自顶向下又分为控制Controller层,逻辑服务Service层,数据访间Dao层.大型网站开发过程中,架构愈加复杂,则需要进行逻辑处理,在数据访问时增加缓存层.在软件开发中,持久问题、分层问题和整体配置问题一直影响着系统性能Javaweb软件框架应运而生,对这些技术软件故障提供解决方案。
第二章系统幵发框架及关键技术
2.1JavaWeb技术介绍
本项B的最终成采是一个基于Java框架的Web程序,图2.1是当下对于JavaWeb的技术体系的概括,不难发现这就是一个技术的总和.在系统设计时我们"丨以把Web作为一个容器,需要使用JavaEE技术来实现,同时可以添加各种中间件.在完成一个JavaWeb项固时,我们结合实际的案例来贳穿这个开发学习过程,根据不同的需求逐步引人所涉及到的技术知识点和技术框架.为此我们需要先了解JavaWeb的整个技术体系,并且掌握常用的技术知识点.
2.1.1设计模式介绍
运用JavaWeb技术进行WEB应用屡见不鲜,从早期的纯JSP模式、JSP+JavaBean模式到经典的MVC设计模式.纯JSP模式:一部分JSP混合Java代码和HTML标签用来呈现数据,另外一部分JSP负责业务逻辑和数据访问.早期WEB应用开发需求较简单,开发人员仅仅使用该模式就能实现系统需求.这种模式的适用场景有限,只适合于业务流程简单的应用,当开发的系统复杂则存在JSP代码可读性差的问题,系统难以维护.JSP+JavaBean模式:JSP负责数据显示,JavaBean负责业务逻辑和数据访问Ml.针对上述问题,保证代码的可读性和可维护性,开发人员转向JSP+JavaBean模式,本模式适用于快速构建小型项目
2.1.2网络架构介绍
计算机的发展过程中,计算机模式也在演变,从集中式结构到分布式结构,是一代代开发人员在实践中积累的经验,不同于集中式的单节点处理,分布式在多节点机中存储数据和开发应用程序.上个世纪八十年代C/S结构广泛应用于系统开发,在C/S结构中,应用程序分为两部分:服务器部分和客户机部分,客户机通过局域网与服务器连接,收到用户的请求后再向服务器表达请求,最后能实现操作数据库的动作.服务器接收客户机的请求,并通过网络将数据提交给客户机,客户机将经过计算的数据结果展示给用户在该过程中服务器需要提供对数据完整性的保护操作,并且允许多客户机同时访问.
第三章基于神经网络的语音交互技术框架研究
随着互联网技术的飞速发展,越来越成熟的语音交互技术在商业项目中取得了不错成绩.基于虚拟技术的发展,人们实现了通过一种更自然的方式来交流信息,比如釆用语音对话以达到人机对话和交流的效果.我国的博物馆普遍是通过传统的展览柜陈列历史文物,这样不仅增加了人工维护的成本,而且枯燥乏味的文字描述并不能把文物的特性清晰明了地告诉参观者。运用基于神经网络的语音交互技术框架能够实现人机语音交互,以荆楚建筑为例,向公众传播我国的建筑构造及其背后的历史意义.本系统嵌入的是科大讯飞的最新语音识别框架,该框架基于深度全序列卷积神经网络研究,针对语音信号分析无法捕捉长句上下文信息这一问题,其通过大量增加卷积层数实现对整句语音信号建模的目标,进而表达了语音长时相关性的特点.
3.1交互技术的棚与应用
在上个世纪50年代,语言研究在美国AT&TBell实验室第一次被提出,当时实验室做了一个小型识别测试,引起了很多研究人员的注意。60年代初期,随着人工智能和虚拟技术的兴起,学术界发现神经网络技术能被应用在语音交互领域并且实验中取得很好的结果.纵观国内的研究,世界一流的大学以中科院自动化所、哈尔滨工业大学等为代表,知名的互联网企业以科大讯飞等为代表皆投人了相当多的研究精力和时间成本在语音交互这一领域.随着语音技术的迅速发展,对于虚拟人机交互领域的研究学习全世界的科研人员都在不断深入,从而基于语音交互的荆楚建筑展示系统以此为设计开发的研究背景.智能语音技术投入商业应用并且获得市场的好评不断,国内科大讯飞的研发团队在语音交互领域一直推动着技术的发展.该公司不仅提供了语音技术的前沿研究,为方便公众对于语音的开发,还向公众提供了可以直接调用的AP丨接口在设计基于语音交互的荆楚系统中,嵌入了科大讯飞的API实现了本系统的语音识别和语音合成的功能模块。后台直接访问服务平台,对语音数据库进行调用,良好的编程接口简化了开发工作,并且高效完成了语音交互的目标.语音交互技术可以划分为语音识别技术和语音合成技术这两大关键技术.语音识别技术的研究的是使得计算机等智能设备明白人类发出的声音及其背后的含义,语音合成技术主要是指计算机等智能系统将语音信息通过语音的形式表达出来。
3.2语音识别技术的基本原理
3.2.1前馈神经网络
神经网络一经提出就在学术界引起了广泛关汗,随肴研究人员不断深入实验,发现深度神经网络DNN给实现语音识别提供良好的技术支持。以微软研究院为代表的研发闭队,小断推进广语音识别领域的技术发肢,尤其是降低错误率和改进语音模型两方面取得不错成绩。在日常生活中.我们说的话往往前后好儿个字都对想要表达的意思存在影响,这就是因为语音的各帧之间具布长时相关性。DNN结构具有很强分类能力,但是随着语音识别技术的不断发展,实验结果显示DNN对处理具有长时相关性的语音时并不理想。因为无法准确的转达上下文时序信息.