کد خبر:۷۶۶۱۱۶
برای بکارگیری اطلاعات تصویری؛

محققان دانشگاه امیرکبیر سامانه‌ای برای «طراحی بازشناسی خودکار گفتار» راه‌اندازی کردند

محققان دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر موفق به طراحی سامانه‌ای برای بکارگیری اطلاعات تصویری در بازشناسی خودکار گفتار صوتی-تصویری شدند.

به گزارش گروه دانشگاه خبرگزاری دانشجوبه نقل از روابط عمومی دانشگاه صنعتی امیرکبیر، فاطمه وخشیته، دکترای مهندسی پزشکی - گرایش بیوالکتریک، از دانشگاه صنعتی امیرکبیر درباره طرح خود مبنی بر «طراحی سامانه طراحی بازشناسی خودکار گفتار» گفت: به‎ کارگیری منابع اطلاعاتی متعدد نقش مهمی در سامانه‎های بازشناسی گفتار دارد. این موضوع ریشه در طبیعت ادراک  انسان دارد چراکه در مغز انسان و از جمله در فرآیند‌های تولید و ادراک گفتار، به‎ طور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت می ‎پذیرد.
 
وخشیه با اشاره به تحقیقات خود در زمینه بازشناسی خودکار تصریح کرد: هدف این رساله به‎ کارگیری اطلاعات تصویری در قالب اطلاعات کمکی و ارائۀ سامانه بازشناسی خودکار گفتار صوتی - تصویری است، تا ضمن برآورده ‎شدن طبیعت چند گونه‎ای ادراک در انسان، از خاصیت مقاوم‌‎ بودن اطلاعات تصویری در برابر نویز صوتی نیز استفاده شود.
 
وی تاکید کرد: در بازشناسی گفتار صوتی - تصویری، هر یک از روش‎های‎ استخراج ویژگی، مدل‎سازی، تلفیق گونه‎های مختلف صوتی و تصویری، و نهایتاً بازشناسی‎ دوگونه‎ای گفتار نقش بسزایی دارند. منظور از یک گونه، یک منبع اطلاعاتی است و ویژگی‎های مستخرج در شرایط ارائه یک منبع اطلاعاتی، ویژگی‎های تک ‎گونه‎ای نامیده می‎شوند.
 
این محقق با بیان اینکه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگی‎های مستخرج در شرایط فراهم‎ شدن همزمان  و منبع اطلاعاتی، ویژگی‎های دوگونه‎ای نامیده می‎شوند، بیان کرد: بر این اساس در این رساله ابتدا ویژگی‏ های مناسب صوتی و تصویری جستجو و استخراج می‎شوند.
 
وخشیته اظهار کرد: درخصوص شاخه ‎تصویری، از روش‏ های کلاسیک و مبتنی بر شبکه‎های عصبی عمیق استفاده می‎شود و در ادامه یک روش استخراج ویژگی ترکیبی پیشنهاد می‎شود که از این میان ویژگی‎های تصویری هیبریدی، که در یک فرآیند پیش پردازشی پیچیده استخراج می‌شوند، به‎ عنوان ویژگی‎های منتخب تصویری درنظر گرفته خواهند شد.
 
وی در خصوص چگونگی روند کار با این سامانه ادامه داد: شاخه صوتی، ویژگی‎های کپسترال فرکانس حوزه مل پس ازانجام مقایسه‎ها به‎عنوان ویژگی‎های منتخب صوتی لحاظ می شوند؛ در ادامه، تلفیق کارآمد ویژگی‎های منتخب تک گونه‎ای دنبال می‎شود، به ‎گونه‎ای که موجب هم‎ افزایی دو منبع اطلاعاتی و همچنین کاهش نویز زمینه موجود در گفتار صوتی شود.
 
این محقق با بیان اینکه در این خصوص دو رویکرد تلفیق ویژگی پیشنهاد می‏ شود؛ تصریح کرد: در رویکرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگی‎های حاصل از منابع صوتی و تصویری استفاده می‎شود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی کمینه صورت می ‏پذیرد. در رویکرد دوم، از شبکه‎های کد گذار خودکار عمیق استفاده می‎شود و تلفیق اطلاعات در لایه گلوگاه شبکه صورت می‎پذیرد. در این رویکرد یک ساختار دوگونه‎ای پیشنهاد می‎شود که طی چهار مرحله توسعه و تکمیل می‎شود.
 
وخشیته افزود: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشت‎ دهنده ویژگی‏ های گلوگاهی نویزی به تمیز و قراردادن لایه برچسب‎ها در کنار گلوگاه شبکه، ساختاری به‎ دست می‎آید که نسبت به سایر ساختار‌ها از کارآمدی بالاتری برخوردار است.
 
وی با اشاره به نتیجه تحقیقات خود گفت: خروجی رویکرد‌ها به‏ طور کلی موفقیت عملکرد آن‎ها را نشان می‎دهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.
 
این محقق ادامه داد: در شرایط نویزی با ارائه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدی مبتنی بر شبکه باور عمیق و مدل مخفی مارکوف، نرخ خطای واجی ۱۸.۵ درصد را نشان می دهد که در این شرایط، با تلفیق ویژگی‎ها بر اساس معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد کاهش می‌یابد که این مقدار با تلفیق ویژگی‎ها توسط شبکه کد گذار خودکار عمیق دوگونه‎ای برابر با ۱۰.۳ درصد می‎شود.

وخشیته با اشاره به اینکه، این سامانه برای افرادی که مشکل ناشنوایی دارند مورد استفاده  قرار می گیرد؛ تاکید کرد: کمک به افرادی که اختلال تکلم دارند، به نحوی که از اطلاعات تصویری آن‌ها کمک گرفته و اختلال ایجاد شده در سیگنال گفتار را جبران کرد. این  سامانه در بهبود انتقال پیام در سیگنال گفتار گویندگان کاربرد دارد .
 
وی اظهار کرد: در محیط‌های شلوغ که اطلاعات صوتی گویندگان مخدوش یا نامفهوم است از اطلاعات تصویری این افراد کمک گرفته می‌شود و پیغام صوتی منتقل می‌شود. این کاربرد در بهبود انتقال پیام برای شنوندگان  بسیار موثراست. این‌ها نمونه کاربرد‌های رایجی هستند که در آن‌ها از اطلاعات تصویری در بازشناسی خودکار گفتار استفاده می‌شود، همچنین  در توجیه بکارگیری شبکه‌های عصبی عمیق در راستای ارتقاء دقت بازشناسی گفتار تصویری (لب خوانی) و گفتار صوتی معمولی در شرایطی  که از اطلاعات صوتی و تصویری بصورت همزمان استفاده می‌شودکارایی دارد. 

این پروژه به راهنمایی  فرشاد الماس گنج و مشاوره احمد نیک آبادی انجام شده است.
ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار