دانلود متن کامل کارشناسی ارشد مهندسی برق گرایش الکترونیک
عنوان :استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی
استاد راهنما:
آقای دکتر مروی
استاد مشاور:
آقای دکتر احمدی فرد
پایان نامه ارشد جهت اخذ درجه کارشناسی ارشد
تکه هایی از متن به عنوان نمونه :
چکیده
در این پایان نامه روشی برای شناسایی مصوتهای فارسی در کلمات تک سیلابی ارائه می شود. برای این منظور پس از جداسازی فریمهای تصویر و انتخاب فریمهایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیهای پیرامون لبها، ویژگیهای مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوتها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگیها را کاهش داده و سایز ویژگیها را به 25 تغییر دادیم. در نهایت موثرترین ویژگیها برای شناسایی مشخص گردید. در این تحقیق از پایگاه دادهای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگیهای استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.
کلمات کلیدی:
لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی
فهرست مطالب
فصل اول : مقدمه ………………………………………………………………………………………………………………1
1-1 مقدمه ……………………………………………………………………………………………………………………….2
1-2 ساختار پایان نامه ………………………………………………………………………………………………………4
فصل دوم : مروری بر تحقیقات انجام شده ……………………………………………………………………….5
2-1 مقدمه ………………………………………………………………………………………………………………………6
2-2 مدلهای مرز فعال …………………………………………………………………………………………………….6
2-2-1 تابع انرژی ………………………………………………………………………………………………………….7
2-2-2 حداقل سازی انرژی ……………………………………………………………………………………………..9
2-3 مدلهای شکل فعال ………………………………………………………………………………………………..12
2-4 مدلهای انعطافپذیر ………………………………………………………………………………………………16
2-4-1 مدل لب ………………………………………………………………………………………………………….16
2-4-2 فرمولبندی تابع هزینه ………………………………………………………………………………………17
2-4-3 بهینه سازی پارامترهای مدل ……………………………………………………………………………….18
2-5 الگوهای انعطافپذیر ……………………………………………………………………………………………….19
2-6 موجک هار ……………………………………………………………………………………………………………..21
2-6-1 پیش پردازش …………………………………………………………………………………………………..21
2-6-2 تبدیل رنگی ……………………………………………………………………………………………………..22
2-6-3 قطعهبندی ……………………………………………………………………………………………………….22
2-7 آنالیز مؤلفه های خاص ……………………………………………………………………………………………..23
2-7-1 زمینه ریاضی EM-PCA ………………………………………………………………………………….24
2-7-2 تولید منیفولد از تصویر ورودی………………………………………………………………………………24
2-8 تبدیل کسینوسی گسسته ………………………………………………………………………………………..26
2-8-1 مدلسازی بر اساس 3-D DCT…………………………………………………………………………..26
2-8-1-1 استخراج ویژگی حرکتی لب ……………………………………………………………………….27
2-8-1-2 استخراج ویژگی حرکت مبتنی بر شبکه …………………………………………………………27
2-8-1-3 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………..28
2-8-2 استخراج ویژگی از ناحیه مورد نظر……………………………………………………………………….29
2-8-2-1 استخراج ویژگیهای دیداری………………………………………………………………………..30
2-8-3 تبدیل کسینوسی و LSDA………………………………………………………………………………31
2-8-3-1 پیش پردازش ………………………………………………………………………………………….31
2-8-3-2 روش DCT……………………………………………………………………………………………31
2-8-3-3 DCT + PCA ……………………………………………………………………………………..31
2-8-3-4 DCT +LDA ………………………………………………………………………………………32
2-8-3-5 DCT +LSDA……………………………………………………………………………………32
2-8-3-6 ماتریس انتقال ویژگی…………………………………………………………………………………35
2-9 مدل لب با منحنی بیزیر ………………………………………………………………………………………….35
2-10 جداسازی ناحیه لب با کا- منیز ………………………………………………………………………………37
فصل سوم : روشهای استخراج ناحیه دهان و سیستمهای تشخیص …………………………..39
3-1 مقدمه ……………………………………………………………………………………………………………………40
3-2 آشکارسازی ناحیه لب ……………………………………………………………………………………………..41
3-2-1 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………41
3-2-2 رنگ و اشباع و شدت روشنایی (HSV) ………………………………………………………………42
3-2-3 حذف مؤلفه قرمز ……………………………………………………………………………………………..43
3-2-4 الگوریتم کا- مینز …………………………………………………………………………………………….43
3-2-4-1 پیاده سازی الگوریتم …………………………………………………………………………………44
3-2-5 شدت روشنایی و باینری کردن ……………………………………………………………………………45
3-2-6 روشهای ترکیبی ………………………………………………………………………………………………45
3-3 روشهای کلاسهبندی و شناسایی …………………………………………………………………………….47
3-3-1 شبکه عصبی …………………………………………………………………………………………………….47
3-3-1-1 شبکه های پیشخور ………………………………………………………………………………….48
3-3-1-2 الگوریتم پس انتشار خطا ……………………………………………………………………………48
3-3-2 مدل مخفی مارکوف …………………………………………………………………………………………..48
فصل چهارم : ویژگیهای استخراجی وپیاده سازی روش پیشنهادی و معرفی پایگاه داده …………………………………………………………………………………………………………………………………….51
4-1 پایگاه داده ……………………………………………………………………………………………………………..52
4-1-1 جداسازی ویدیوهای ضبط شده ……………………………………………………………………………53
4-2 ویژگیهای استخراج شده ………………………………………………………………………………………..53
4-3 جداسازی ناحیه لب ………………………………………………………………………………………………..54
4-3-1 آستانهگذاری ……………………………………………………………………………………………………54
4-3-2 استفاده از روش حذف رنگ قرمز ………………………………………………………………………….56
4-3-3 آنالیز ترکیب رنگ لب و پوست ……………………………………………………………………………..57
4-3-4 برچسبگذاری اجزا ……………………………………………………………………………………………58
4-3-5 جعبه محاطی …………………………………………………………………………………………………..59
4-4 ضرایب مل فرکانسی ………………………………………………………………………………………………60
4-4-1 فریم بندی ……………………………………………………………………………………………………….61
4-4-2 پنجرهگذاری …………………………………………………………………………………………………….62
4-4-3 تبدیل فوریه گسسته ………………………………………………………………………………………….62
4-4-4 مقیاس مل ………………………………………………………………………………………………………62
4-4-5 تبدیل کسینوسی گسسته …………………………………………………………………………………..64
4-4-5-1 محاسبه ضرایب کسینوسی و ویولت ……………………………………………………………..65
4-4-5-2 محاسبه ضرایب مل فرکانسی ………………………………………………………………………65
4-5 یافتن مرکز لب و استخراج ناحیهای حول لب ……………………………………………………………..66
4-5-1 اسکن زیگزاگ …………………………………………………………………………………………………..67
4-5-2 کاهش ویژگی با LSDA ……………………………………………………………………………………68
4-5-2-1 استفاده از تابع Logsigmoid و تغییر الگوریتم آموزش ………………………………..70
4-5-2-2 استفاده از تابع Tansigmoid و الگوریتم ممنتوم …………………………………………70
4-6 استخراج ویژگی از تصاویر مختلف …………………………………………………………………………….72
4-6-1 استخراج ویژگی از تصاویر جدید …………………………………………………………………………..72
4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی ……………………………………………………………….72
4-7 کاهش تعداد فریمها و کاهش سایز تصاویر…………………………………………………………………73
4-7-1 محاسبه ضرایب MFCC …………………………………………………………………………………..73
4-7-2 ضرایب DCT , DWT …………………………………………………………………………………….73
4-7-3 کاهش تعداد فریمها و کاهش سایز تصاویر با دستور ریسایز ……………………………………..76
4-8 نتیجه گیری ……………………………………………………………………………………………………………81
4-9 پیشنهاد ادامه کار ……………………………………………………………………………………………………82
مراجع ………………………………………………………………………………………………………………………………83
فهرست جدولها
جدول 1-1 گروهبندی ویزمها در انگلیسی …………………………………………………………………………………………3
جدول 1-2 گروهبندی ویزمها در زبان فارسی ……………………………………………………………………………………3
جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی ……………………………………………………………………………..52
جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی …………………………………………………………………………………… 71
جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی …………………………………………………………………………………….71
جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم …………………………………..74
جدول 4- 5 نتایج حاصل از ویژگیهای استخراجی از تصاویر نرمالیزه شده با رابطه (4-7) با 20 فریم ….74
جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم …………………………75
جدول 4- 7 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر اصلی با 20 فریم ………………………….75
جدول 4- 8 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ……………….76
جدول 4- 9 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر کوچک شده با 20 فریم ………………..76
فهرست شکلها
شکل 2- 1 مدل کانتور فعال نمونه گیری شده ……………………………………………………………………………………..11
شکل 2- 2 علامت گذاری انجام شده بر روی لب ……………………………………………………………………………….13
شکل 2- 3 مدل توزیع نقطهای، هر حالت با σ2 ± اطراف متوسط رسم شده است ……………………………….14
شکل 2- 4 مدل هندسی لب …………………………………………………………………………………………………………… 16
شکل 2- 5 الگوی لب …………………………………………………………………………………………………………………….. 19
شکل 2- 6 فرایند تولید منیفولد …………………………………………………………………………………………………….25
شکل 2- 7 (a) نتیجه درونیابی منیفولد (b) نمونه گیری دوباره از منیفولد درونیابی شده با 20 نقطه کلیدی ……………………………………………………………………………………………………………………………………………26
شکل 2- 8 نمودار بلوکی برای استخراج ویژگیهای حرکت مبتنی بر شبکه ……………………………………….28
شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور ………………………………………………………………………….29
شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی …………………………………………30
شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است……………………………………………………33
شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب …………………………………………………………….36
شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ……………………………………………………..38
شکل 3–1 نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب ………………………………………..42
شکل 3-2 الگوریتم جداسازی ناحیه لب ………………………………………………………………………………………….46
شکل 4-1 آستانه گذاری با ترشلد 0.4 ………………………………………………………………………………………………55
شکل 4-2 آستانه گذاری با ترشلد 0.5 …………………………………………………………………………………………….55
شکل 4-3 استفاده از الگوریتم حذف رنگ قرمز با 0.5=β ……………………………………………………………….56
شکل 4-4 تصاویر مربوط به گوینده ها ………………………………………………………………………………………….. 57
شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم ……………………………………………………………….58
شکل 4- 6 شکل لب استخراج شده بعد از برچسبگذاری ……………………………………………………………….. 59
شکل 4-7 مستطیل محاطی لب …………………………………………………………………………………………………….. 60
شکل 4-8 مراحل محاسبه ضرایب مل ……………………………………………………………………………………………. 61
شکل 4-9 فیلتر بانک مثلثی …………………………………………………………………………………………………………. 63
شکل 4-10 ناحیه مورد نظر پیرامون لب ………………………………………………………………………………………….. 66
شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر …………………………………… 67
شکل 4-12 نحوه اسکن زیگزاگ ماتریس ……………………………………………………………………………………….. 68
شکل 4-13 نتایج حاصل از ویژگیها + LSDA ………………………………………………………………………………..70
شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم…………………………………. 77
شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم…………………………………. 78
شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.5 ……………………………………………………… 79
شکل 4-17 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.7………………………………………………………. 80
فصل اول : مقدمه
1-1 مقدمه
از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی میشود، به حرکات لب گوینده توجه بیشتری میکنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار میباشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می تواند به طور قابل ملاحظهای دقت سیستمهای تشخیص گفتار صوتی را خصوصاً در محیطهای نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله میباشد.
افرادی زیادی هستند كه دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حركات لب به شكلی كه برای تكلم لازم است را داشته و در حالت ایدهآل میتوان با انجام لبخوانی به مقصود آنها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچههایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می شود که کوچکترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابهای گروهبندی شده که یک ویزم را نشان میدهد. یک نگاشت چند به یک بین واجها و ویزمها هست یعنی میتوان مجموعه ای از واجها را در نظر گرفت که تأثیر مشابهای بر روی شکل دهان دارند. در جدولهای زیر گروهبندی ویزمها در زبان انگلیسی و فارسی آورده شده است [1] , [2].
جدول 1- 1 گروهبندی ویزمها در انگلیسی
n,l | 8 | p,b,m | 1 |
R | 9 | f,v | 2 |
A | 10 | th,dh | 3 |
E | 11 | t,d | 4 |
I | 12 | k,g | 5 |
O | 13 | sh,zh | 6 |
U | 14 | s,z | 7 |
جدول 1- 2 گروهبندی ویزمها در زبان فارسی
1. ف، و | 5. ر | 9. آ |
2. ث، س، ص، ز، ذ، ظ، ض | 6.ج، چ، گ، ک، ن، ت، د، ی، ط | 10. ٳ |
3. ژ، ش | 7. ای | 11. ٱ |
4. ب، پ، م | 8. ٲ | 12. او |
به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این تحقیق به شناسایی تصویری صحبت پرداخته میشود.
1-2 ساختار پایان نامه
در فصلهای مختلف این پایان نامه روشهای شناسایی دیداری صحبت بررسی شده است. در فصل اول مقدمهای در مورد شناسایی گفتار بیان شد. در فصل دوم به بررسی تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روشهای مختلف برای انجام این کار پرداخته شده است. در فصل سوم روشهای مختلف جداسازی دهان از بقیه قسمتهای صورت معرفی شده است تا با بهره گرفتن از این روشها بتوانیم علاوه برکوچک نمودن اندازه تصاویر، از پیچیدگی و نیز ابعاد زیاد ویژگیها جلوگیری نماییم. در فصل چهارم نحوه محاسبه و استخراج ویژگیهای فرکانسی – زمانی از ناحیه مورد نظر از دهان از فریمهای مختلف ویدیو و نیز عملکرد آنها با تغییر تعداد فریمهای انتخابی و سایز تصاویر با یکی از روشهای کاهش ویژگی نیز بررسی شده است. که این ویژگیهای استخراجی برای تشخیص به شبکه عصبی اعمال شده اند و همچنین پایگاه دادهای که ما در این تحقیق از آن استفاده نمودیم معرفی شده است.
[1] phonem
[2] viseme
[3] Audio Speech Recognition
[4] Visual Speech Recognition
[5] Audio-Visual Speech Recognition
ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است
متن کامل را می توانید دانلود نمائید
چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)
ولی در فایل دانلودی متن کامل پایان نامه
با فرمت ورد word که قابل ویرایش و کپی کردن می باشند
موجود است
تعداد صفحه :124
قیمت : 14700 تومان
—-
پشتیبانی سایت : parsavahedi.t@gmail.com
در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.
*
14,700 تومانافزودن به سبد خرید