网站首页 > 毕业设计> 文章内容

毕业设计(论文)开题报告

※发布时间:2018-3-19 1:47:58   ※发布作者:habao   ※出自何处: 

  毕业设计(论文)开题报告学生姓名 工作单位课题来源 教师自拟课题 课题性质 应用设计 课题名称 自动语音门禁系统的仿真实现 本设计的科学 依据 (科学意义和应 用前景,国内外 研究概况,目前 技术现状、水平 和发展趋势等) 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦 寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信 号转变为相应的文本或命令的高技术。 国外研究历史及现状语音识别的研究工作可以追溯到20 世纪50 年代AT&T贝尔实验室 的Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是 60年代末 70 年代初。这首先是因为计算机技术的发展为语音识别的 实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码 (LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音 信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板 匹配原理,研究的领域局限在特定人、小词汇表的孤立词识别,实现了 基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统;同时提 出了矢量量化(VQ) 和隐马尔可夫模型(HMM) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识 别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇 表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音 素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈 影响的协同发音(Co-articulation)现象;第三,识别的语音中有背景噪 声或其他干扰。因此原有的模板匹配方法已不再适用。 实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末:人们终 于在实验室突破了大词汇量、连续语音的障碍,第一次把这些特性都集 成在一个系统中,比较典型的是卡耐基梅隆大学(Carnegie Mellon University)的Sphinx 系统,它是第一个高性能的大词汇量连续语音识别 本设计的科学依据 (科学意义和应 用前景,国内外 研究概况,目前 技术现状、水平 和发展趋势等) 系统。 这一时期,语音识别研究进一步深入,其显著特征是 HMM 型和人工神经元网络(ANN)在语音识别中的成功应用。HMM 模型的广 泛应用应归功于AT&T Bell 实验室 Rabiner 等科学家的努力,他们把原 本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识,从而 使统计方法成为了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征 的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别 系统。在声学模型方面,以Markov 链为基础的语音序列建模方法 HMM (隐式Markov 链)比较有效地解决了语音信号短时稳定、长时时变的特 性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了 比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模 语料的词之间同现概率即N 元统计模型来区分识别带来的模糊音和同音 词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语 音识别中得到了应用。 20 世纪 90 年代前期,许多著名的大公司如 IBM、苹果、AT&T NTT都对语音识别系统的实用化研究投以巨资。 语音识别技术有一个很好的评估机制,那就是识别的准确率,而这 项指标在 20 世纪 90 年代中后期实验室研究中得到了不断的提高。比较 有代表性的系统有:IBM公司推出的 Via Voice 和Dragon System公司的 Naturally Speaking, Nuance 公司的 Nuance Voice Platform 语音平台, Microsoft 的Whisper, Sun 其中IBM公司于1997年开发出汉语 ViaVoice 语音识别系统,次年 又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice’98 。它带有一个32 ,000 词的基本词汇表,可以扩展到65 ,000 词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95 该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。 本设计的科学依据 (科学意义和应 用前景,国内外 研究概况,目前 技术现状、水平 和发展趋势等) 国内研究历史及现状我国语音识别研究工作起步于五十年代,但近年来发展很快。研究 水平也从实验室逐步实用。从1987 年开始执行国家863 计划后,国 863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一 次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音 识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动 化所、声学所、大学、大学、工业大学、上海交通大学、 中国科技大学、邮电大学、华中科技大学等科研机构都有实验室进 行过语音识别方面的研究,其中具有代表性的研究单位为大学电子 工程系与中科院自动化研究所模式识别国家重点实验室。 大学电子工程系语音技术与专用芯片设计课题组,研发的非特 定人汉语数码续语音识别系统的识别精度,达到 94.8%(不定长数 字串)和 96.8%(定长数字串)。在有 5%的拒识率情况下,系统识别率 可以达到 96.9%(不定长数字串)和 98.7%(定长数字串),这是目前国 际最好的识别结果之一,其性能已经接近实用水平。中科院自动化所及 其所属模式科技(Pattek)公司 2002 年发布了他们共同推出的面向不同计 算平台和应用的“天语”中文语音系列产品——Pattek ASR,结束了中文语 音识别产品自1998 年以来一直由国外公司垄断的历史。 当今社会是科学技术日新月异、飞速发展的信息时代。人们正感受 着高科技带来的极大方便和益处,同时,人们对于高科技服务于生活的 要求也越来越高。但随着科技的发展,也带来了许多不安全的方面,例 如,运用高科技手段进行盗窃、抢劫和间谍等犯为与日增多。怎样 才能使人们的安全防范措施跟得上科技的发展、更有效的这些犯罪 行为的呢?仅仅依靠普通的门锁、防盗门或者、报警等系统是不 够的。于是,智能门禁系统在千呼万唤中应运而生。 综合集成计算机、通讯、自动识别、机械工程和安全管理系统等相 关技术的门禁系统有效地解决了重要部门和场所的安全访问控制问题, 已得到广泛的应用,成为日常工作和生活中的电子门卫。随着科学技术 的发展,综合应用语音识别、指纹识别、虹膜识别、红外(热)等最 本设计的科学依据 (科学意义和应 用前景,国内外 研究概况,目前 技术现状、水平 和发展趋势等) 新生物识别技术的门禁系统已广泛吸引了人们的注意,并将逐步成为门 禁系统发展的主流。 利用语音识别技术来实现门禁系统不用像其他方式一样需要触摸, 具有方便、安全、准确、信息完整、性强、反应速度快等优点。基 于对声音特征辨识的特定人语音识别在对安全要求很高的部门门禁系统 中得到了较为广泛的应用。因此,基于语音识别技术的门禁系统有着非 常独特的优势和发展前景。 近20 年来,语音识别技术取得显著进步,开始从实验室市场。 预计,未来10 年内,语音识别技术将进入工业、家电、通信、汽车电子、 医疗、家庭服务、消费电子产品等各个领域。 设计内容和预 期 (具体设计内容 和重点解决的技 术问题、预期成 果和提供的形 语音识别的关键技术包括特征参数提取、模式匹配及模型训练、语音识别单元选取。所谓特征参数提取,就是从语言信号中提取用于语音 识别的有用信息。模式匹配是指根据一定准则,使未知模式与模型库中 某一模型获得最佳匹配。 模型训练是指按照一定准则,从大量已知模式 中提取表示该模式特征的模型参数。语音识别单元的选取是语音识别研 究工作很重要的第一步,语音识别单元有单词、音节、音素三种。 门禁系统涉及到的主要是特定人语音识别的特殊要求。特定人语音 识别分为语音训练和语音识别两个阶段。在训练阶段,通过麦克风输入 语音命令,然后对模拟语音信号进行预处理,对处理后得到的数字语音 信号进行语音特征提取,为不同用户的不同语音特征参数建立一个相应 的语音特征模型库。训练完成后,进入语音识别阶段,对麦克风输入事 先训练好的语音命令,然后对模拟语音信号进行预处理,对处理后得到 的数字语音信号提取语音特征参数,紧接着调出语音特征模型库进行匹 配检测。如果在模型库中找到先前已经训练好的与之匹配的语音特征模 型,就会产生识别结果;反之,则无法识别。 本设计要求利用 matlab 编程仿真实现以下各模块的功能: 1、预处理:包括语音信号采样、反混叠带通滤波、语音识别基元的 选取、端点检测、语音分帧加窗以及预加重等处理工作。 设计内容和预期 (具体设计内容 和重点解决的技 术问题、预期成 果和提供的形 2、特征提取:提取语音中反映本质特征的声学参数,如平均能量、平均过零率、共振峰等;并提取特征参数,如线性预测倒谱系数(LPCC) 与Mel 倒谱系数(MFCC)。 3、模型训练:在识别之前通过让讲话者多次重复语音,从原始语音 样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类, 形成模式库。 4、模式匹配:根据一定规则(如某种距离测度),计算输入特征与 库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语 义信息。 本设计最终提交: 1、本系统软件及清单一套(可供电子版程序清单) 2、毕业论文(毕业设计说明书)一份 拟采取设计方 法和技术支持 (设计方案、技 术要求、实验方 法和步骤、可能 遇到的问题和解 决办法等) 1、预处理 预处理包括噪音去除以及端点检测。 1.1 噪音去除 将通过麦克风输入的一段模拟语音信号进行量化和采样,转换成数 字语音信号;将这段含噪音的数字语音信号去噪,得到干净的数字语音 信号,再通过预加重技术滤除低频干扰(尤其是 50Hz 60Hz的工频干 扰)提升语音信号的高频部分,这样可以起到提升清音部分能量、随 机噪声和消除直流漂移的作用。 1.2 端点检测 端点检测也即是从一段语音信号中确定出语音的起点及结束点的过 程。有效的端点检测不仅减少了系统的处理时间(帧数最少),而且能排 除无声段的噪声干扰,从而使处理质量得到。端点检测的困难在于 无声段或者发音前后人为呼吸等产生的杂音,使得语音的端点比较模 拟采取设计方法和技术支持 (设计方案、技 术要求、实验方 法和步骤、可能 遇到的问题和解 决办法等) 目前对端点检测采用较多的方法是单纯用过零率和能量值来检测, 但是由于这种方法没有考虑到背景噪声,因此存在不可避免的缺点。这 里,采用当前帧与前帧的过零率和能量值的差作为检验端点的标准就能 很好地解决背景噪声的问题。 2、语音特征的提取 一般而言,都是通过对语音信号的分析处理,去除无关的冗余信息, 获得影响语音识别的重要信息,来达到提取语音信号中表征不同人的不 同声纹特征的目的。对特定人语音识别,特征参数的选取注重于说话人 的个人信息与特征的获取,对语义信息获取的要求较低。本设计拟采用 基音周期和线性预测倒谱编码(LPCC)共同作为特定人识别的特征参数。 (1)基于线性预测编码(LPC)的倒谱编码(CC)推求算法。 这种方法与直接计算倒谱系数相比,计算量要小。其公式: 其中,P 为LPC 模型的阶数、X(n)为取样值、x(n)为预测值、为预测系数。 LPC 模型的阶数 的选择,应该从频谱估计精度、计算量、存储量等多方面综合进行考虑,而与线性预测分析的求解方法无关,P 值取得太大 会增加计算量和存储量。本设计拟把阶数P 8~12,如10kHz采样 的语音信号,取 p=l0,但为了弥补鼻音中存在零点以及感冒等其他因素 所引起的偏差,通常在上述阶数的基础上再增加两个极点,即P=12。为 了计算出倒谱系数,这里选用了Durbin 递推算法,由αl 可递推得到公式 (2)本设计拟采用基音估计方法是:对小词汇量语音信号进行线性预测,求取预测残差;再对残差信号求取自相关函数,找到除零点外第一 个峰值点,便可估计出基音周期。为了得到较好的基音周期估计速 度与效果,在此考虑一种反馈式窗长预估策略,使得所取窗长初步满足 拟采取设计方法和技术支持 (设计方案、技 术要求、实验方 法和步骤、可能 遇到的问题和解 决办法等) 至少大于 倍基音周期的要求。为克服声道共振峰特性的干扰,可以先对语音信号进行非线性变换后再求自相关函数。 3、模型训练和模式匹配 模型训练是指按照一定的规则,从大量训练样本中提取表征该样本 类本质特征参数的过程。模式匹配则是根据一定准则,使待识别样本与 通过提取出来的训练样本的本质特征而建立的模型进行对比分析,以期 获得最佳匹配。 语音识别所应用的模式匹配和模型训练技术主要有动态时间归整技 术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。DTW 较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在简短词语音识别中获 得了良好性能,但它不适合连续语音大词汇量语音识别系统。相反,其 对短时小词汇量的语音(有效语音长度小于 的识别却既简单又有效,且识别率非常高。因此,本设计拟选取DTW算法。 DTW 算法采用动态规划最优化来找到一条从起点(n 轴的过分倾斜,对通过径中各点的平均斜率加以,通常最大斜率定为2,最小斜率定为1/2。 常规 DTW 算法要求从(1,1)出发到(N,M)结束,这两点称为固定 的起点和终点,常规算法的缺陷是对端点的选取存在依赖性。这里 利用松弛的 DTW 算法,可以使语音识别系统的识别性能得到改善,且 匹配效果较之常规方法更好,即从起始点(1,1)、(1,2)、(2,1)、(1, 3)、(3,1)以及终止点(N,M)、(N- l,M)、(N,M-1)、(N-2,M)、(N, M-2)中各选择出一个最小值,两语音样本之间的相互距离在相应的点放 松后选择一个最小距离。 一般情况下,采取正确的端点检测之后,起点和终点在纵轴和横轴 方向各放松二帧,即在两方向各放松60ms 左右就足够了。松弛起点、终 点的优点是可以克服由于端点检测不精确引起的误差。 实现本项目预期目标和已具 备的条件 (包括过去学 习、研究工作基 础,现有主要仪 器设备、设计环 境及协作条件 综合运用所学知识完成本设计,使之能够模拟自动语音门禁系统,实现对特定人的语音识别。 通过这三年的本科学习,本人熟悉Windows 操作系统原理,对各种 计算机编程语言(主要有 VC++,VB,汇编语言等)有所了解,能够在 编程过程中熟练运用各种数据结构(包括栈,队列,数组,广义表等)。 本设计实现平台为 matlab,本人熟悉 matlab 的基本原理以及各种基 本操作,对语音识别的基本原理也有较详细的了解。 本人近一两年来积极关注语音识别系统的研究情况,国内外研 究动态,阅读了国内外大量的相关文献,如IEEE 及软件学报、计算机学 报、计算机科学等发表的学术文章。在Internet 上查阅了大量有关语音识 别和说话人识别的中英文期刊和论文。并且学习了提取线性预测倒谱系 数(LPCC)和 Mel 频率倒谱系数(MFCC)的方法,矢量量化(VQ) 和隐马尔可夫模型(HMM)及其相关算法,模式匹配技术,为采用矢量 量化(VQ)和隐马尔可夫模型(HMM)及其相关的算法进行说话人识 别奠定了理论基础。 各环节拟定阶 段性工作进度 (以周为单位) 第七学期 第6-7 周:选题,下达毕业设计任务书; 第8-16 周:文献资料检索,课题方案研究,完成文献综述、参考文 献翻译,填写开题报告,完成开题报告审定; 第八学期 周:完成模块设计文档,设计演示方案;第7-13 周:编程与开发实现总体功能; 第14-15 周:调试与测试,编写说明书; 第16 周:撰写毕业论文; 第17 周:设计验收,毕业答辩,成绩评定。 地点主持人

  毕业设计(论文)开题报告,毕业论文开题报告,毕业论文开题报告范文,毕业论文开题报告模板,本科毕业论文开题报告,毕业论文开题报告格式,会计毕业论文开题报告,毕业论文的开题报告,毕业论文开题报告,毕业论文开题报告ppt

  

相关阅读
  • 没有资料