متن کامل پایان نامه مقطع کارشناسی ارشد رشته مهندسی برق

با عنوان : ارتقای فشرده سازی سیگنال گفتار با بهره گرفتن از چندی کننده های برداری عصبی

در ادامه مطلب می توانید تکه هایی از ابتدای این پایان نامه را بخوانید

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشكده تحصیلات تكمیلی

“M.Sc” پایان نامه برای دریافت درجه كارشناسی ارشد

مهندسی برق – الكترونیك

عنوان:

ارتقای فشرده سازی سیگنال گفتار با بهره گرفتن از چندی كننده های برداری عصبی

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)

چكیده

پارامترهای كدكردن براساس پیشبینی خطی یا ضرایب LPC بطور گسترده در فشرده سازی سیگنال گفتار مورد استفاده قرار میگیرد. از سوی دیگر، شبكه های عصبی مصنوعی به عنوان سیستم هوشمندی هستند كه میتوانند در سیستمهای خطی و غیرخطی مانند كدینگ گفتار و تصویر بكار روند. در این تحقیق دو نمونه از شبكه های عصبی مبتنی بر تكنیك چندی سازی برداری به نامهای شبكه كوهنن و ARTMAP معرفی میشوند، كه از آنها برای دسته بندی بردارهای حاصل از پردازش سیگنال گفتار ورودی استفاده میشود، در این تكنیك با بهره گرفتن از زوجهای خط طیفی (LSP) بعنوان یك پارامتر قابل جایگزینی بجای ضرایب LPC میتوان نرخ بیت را كاهش داد در حالیكه كیفیت گفتار سنتز شده تقریباً حفظ میشود و این بدلیل این است كه وقتی از پارامترهای LSP استفاده میشود، فركانس های فرمنت (Formant) خوبی بدست می آید كه مشابه فركانسهای اصلی سیگنال گفتار میباشد. با این روش، نرخ بیت با توجه به واكدار یا بی واك بودن قاب گفتار مربوطه بین 2 تا 33 درصد كاهش می یابد. همچنین در این تحقیق شبكه های عصبی كوهنن و نظریه تشدید تطبیقی به عنوان دو شبكه عصبی بدون سرپرست و روش چندی سازی بردارهای یادگیری به عنوان یك شبكه عصبی با سرپرست معرفی و نتایج حاصل از هریك با هم مقایسه میشوند. نمونه های صوتی بكار رفته نیز به زبان فارسی میباشند.

مقدمه

اخیراً اكثر تكنیك هایی كه برای فشرده سازی سیگنال گفتار بكار میروند، براساس پیش بینی خطی ساختار یافته اند. سیگنال گفتار بعنوان یك ابزار مهم در ارتباطات انسان در فناوری های دیجیتالی مورد توجه خاص قرار گرفته است. نرخ بیت سیگنال گفتار ارسال شده باید كاهش یابد. سیگنال گفتار یك سیگنال پیوسته و غیرخطی بوده كه بصورت فیزیكی توسط لوله صوتی انسان تولید و شكل داده میشود، بنابراین ویژگی های سیگنال گفتار به حركات لوله صوتی در طول زمان و همچنین مشخصات گوینده بستگی دارد. تبدیل پارامترهای LPC به LSP كارایی كدكننده های با نرخ بیت كم را بهبود میبخشد.

پارامترهای LSP فركانس های فرمنت لوله صوتی را بصورت ریاضی مدلسازی میكنند. ازسوی دیگر شبكه های عصبی به عنوان ابزاری موفق تاكنون در كاربردهای گوناگونی از پردازش گفتار و زبان مورد استفاده قرار گرفته اند. در این راستا كاربردهای بازشناسی خودكار گفتار (ASR)، سنتز گفتار طبیعی و پردازش زبان طبیعی (NLP) به عنوان نمونه هایی كه توسط مؤلف برای زبان فارسی تجربه شده اند، قابل ذكر است. برای كدكننده های گفتار نیز شبكه های عصبی در حوزه كاری مورد استفاده قرار گرفته اند: پیش بینی كننده های نورونی برای بهبود كیفیت و كاهش پیچیدگی محاسباتی در كدكننده ها. در این تحقیق یك روش جدید برای كد كردن گفتار با نرخ بیت كم معرفی میشود كه از پارامترهای LSP برای استخراج و نگاشت ویژگیهای سیگنال گفتار با بهره گرفتن از نوعی شبكه عصبی مصنوعی بنام شبكه خود سازمانده (SOM) استفاده میكند. استفاده از این روش نرخ بیت گفتار بازسازی شده را كاهش می دهد، در حالی كه كیفیت سیگنال تفاوت آشكاری با گفتار اصلی ندارد. برای اندازه گیری كیفیت گفتار سنتز شده از معیار میانگین امتیاز آرا داده شده (MOS) استفاده می شود.

فصل اول: كلیات

1-1) هدف

یكی از ابزارهای ارتباطی انسان، گفتار است. سیستمهای ارتباطی نوین و پیشرفته بطور گستردهای براساس پردازش و ارسال گفتار بنا نهاده شده اند. خطوط تلفن دیجیتال، شبكه های اینترنت، ویدیو كنفرانسها و پیام های صوتی تنها تعدادی از كاربردهای روزمره چنین سیستمهایی است. با وجود چنین كاربردهای وسیعی، ناگزیر نیاز به گفتاری باكیفیت بالا در پهنای باند ارسال كمتر وجود دارد. كار اصلی كدكننده های گفتار پیشرفته، رقمی كردن سیگنال گفتار آنالوگ با بهره گرفتن از فرآیند نمونه برداری است. بنابراین یك كدكننده برای تولید شكل كدشده از یك سیگنال گفتار، یك دنباله ی عددی را پردازش میكند. گفتار كد شده بسته به كاربردی كه دارد، ارسال یا ذخیره میشود. كار هر واكدكننده نیز بازسازی گفتار اصلی از دنباله های كدشده است. كد كردن گفتار یك فشرده سازی همراه با اتلاف است، یعنی مقداری از كیفیت سیگنال گفتار اصلی در طی عملیات فشرده سازی به ازای كاهش حجم اطلاعات و افزایش سرعت ارسال، كاسته میشود. برای بهبود كیفیت گفتار فشرده شده روش های مختلفی وجود دارد، در این تحقیق، از یك شبكة عصبی با قابلیت خودسازماندهی برای این كار استفاده شده است. از این شبكه عصبی مصنوعی همان گونه كه توضیح داده خواهد شد، برای دسته بندی بردارهای حاصل از پردازش گفتار استفاده میشود. دسته بندی بردارهای بدست آمده از پردازش و چندیسازی گفتار باعث كاهش بیت های بكار رفته در گفتار كد شده و در نتیجه فشرده سازی بیشتر آن میشود، در حالی كه كیفیت گفتار حاصل بر اساس معیارهای MOS حفظ می شود.

تعداد صفحه : 102

قیمت : 14700 تومان

 

—-

پشتیبانی سایت :       

*         serderehi@gmail.com


1 دیدگاه

دیدگاهتان را بنویسید