محققان دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر موفق به طراحی سامانهای برای بکارگیری اطلاعات تصویری در بازشناسی خودکار گفتار صوتی-تصویری شدند.
به گزارش گروه دانشگاه خبرگزاری دانشجوبه نقل از روابط عمومی دانشگاه صنعتی امیرکبیر، فاطمه وخشیته، دکترای مهندسی پزشکی - گرایش بیوالکتریک، از دانشگاه صنعتی امیرکبیر درباره طرح خود مبنی بر «طراحی سامانه طراحی بازشناسی خودکار گفتار» گفت: به کارگیری منابع اطلاعاتی متعدد نقش مهمی در سامانههای بازشناسی گفتار دارد. این موضوع ریشه در طبیعت ادراک انسان دارد چراکه در مغز انسان و از جمله در فرآیندهای تولید و ادراک گفتار، به طور همزمان بر روی چندین منبع اطلاعاتی پردازش صورت می پذیرد.
وخشیه با اشاره به تحقیقات خود در زمینه بازشناسی خودکار تصریح کرد: هدف این رساله به کارگیری اطلاعات تصویری در قالب اطلاعات کمکی و ارائۀ سامانه بازشناسی خودکار گفتار صوتی - تصویری است، تا ضمن برآورده شدن طبیعت چند گونهای ادراک در انسان، از خاصیت مقاوم بودن اطلاعات تصویری در برابر نویز صوتی نیز استفاده شود.
وی تاکید کرد: در بازشناسی گفتار صوتی - تصویری، هر یک از روشهای استخراج ویژگی، مدلسازی، تلفیق گونههای مختلف صوتی و تصویری، و نهایتاً بازشناسی دوگونهای گفتار نقش بسزایی دارند. منظور از یک گونه، یک منبع اطلاعاتی است و ویژگیهای مستخرج در شرایط ارائه یک منبع اطلاعاتی، ویژگیهای تک گونهای نامیده میشوند.
این محقق با بیان اینکه منظور از دو گونه، دو منبع مختلف اطلاعاتی است و ویژگیهای مستخرج در شرایط فراهم شدن همزمان و منبع اطلاعاتی، ویژگیهای دوگونهای نامیده میشوند، بیان کرد: بر این اساس در این رساله ابتدا ویژگی های مناسب صوتی و تصویری جستجو و استخراج میشوند.
وخشیته اظهار کرد: درخصوص شاخه تصویری، از روش های کلاسیک و مبتنی بر شبکههای عصبی عمیق استفاده میشود و در ادامه یک روش استخراج ویژگی ترکیبی پیشنهاد میشود که از این میان ویژگیهای تصویری هیبریدی، که در یک فرآیند پیش پردازشی پیچیده استخراج میشوند، به عنوان ویژگیهای منتخب تصویری درنظر گرفته خواهند شد.
وی در خصوص چگونگی روند کار با این سامانه ادامه داد: شاخه صوتی، ویژگیهای کپسترال فرکانس حوزه مل پس ازانجام مقایسهها بهعنوان ویژگیهای منتخب صوتی لحاظ می شوند؛ در ادامه، تلفیق کارآمد ویژگیهای منتخب تک گونهای دنبال میشود، به گونهای که موجب هم افزایی دو منبع اطلاعاتی و همچنین کاهش نویز زمینه موجود در گفتار صوتی شود.
این محقق با بیان اینکه در این خصوص دو رویکرد تلفیق ویژگی پیشنهاد می شود؛ تصریح کرد: در رویکرد اول، از معیار آنتروپی جهت سنجش میزان رسایی (چگونگی بازنمایی اطلاعات) ویژگیهای حاصل از منابع صوتی و تصویری استفاده میشود و تلفیق اطلاعات در سطح متوسط با انتخاب لایه صوتی با آنتروپی بیشینه و لایه تصویری با آنتروپی کمینه صورت می پذیرد. در رویکرد دوم، از شبکههای کد گذار خودکار عمیق استفاده میشود و تلفیق اطلاعات در لایه گلوگاه شبکه صورت میپذیرد. در این رویکرد یک ساختار دوگونهای پیشنهاد میشود که طی چهار مرحله توسعه و تکمیل میشود.
وخشیته افزود: در آخرین مرحله از توسعه، با در نظر گرفتن تابع مناسب نگاشت دهنده ویژگی های گلوگاهی نویزی به تمیز و قراردادن لایه برچسبها در کنار گلوگاه شبکه، ساختاری به دست میآید که نسبت به سایر ساختارها از کارآمدی بالاتری برخوردار است.
وی با اشاره به نتیجه تحقیقات خود گفت: خروجی رویکردها به طور کلی موفقیت عملکرد آنها را نشان میدهد و به میزان بالایی در بهبود نتایج بازشناسی گفتار موثر است.
این محقق ادامه داد: در شرایط نویزی با ارائه اطلاعات صوتی به تنهایی در سامانه عمیق هیبریدی مبتنی بر شبکه باور عمیق و مدل مخفی مارکوف، نرخ خطای واجی ۱۸.۵ درصد را نشان می دهد که در این شرایط، با تلفیق ویژگیها بر اساس معیار آنتروپی، نرخ خطای واجی به ۱۰.۹ درصد کاهش مییابد که این مقدار با تلفیق ویژگیها توسط شبکه کد گذار خودکار عمیق دوگونهای برابر با ۱۰.۳ درصد میشود.
وخشیته با اشاره به اینکه، این سامانه برای افرادی که مشکل ناشنوایی دارند مورد استفاده قرار می گیرد؛ تاکید کرد: کمک به افرادی که اختلال تکلم دارند، به نحوی که از اطلاعات تصویری آنها کمک گرفته و اختلال ایجاد شده در سیگنال گفتار را جبران کرد. این سامانه در بهبود انتقال پیام در سیگنال گفتار گویندگان کاربرد دارد .
وی اظهار کرد: در محیطهای شلوغ که اطلاعات صوتی گویندگان مخدوش یا نامفهوم است از اطلاعات تصویری این افراد کمک گرفته میشود و پیغام صوتی منتقل میشود. این کاربرد در بهبود انتقال پیام برای شنوندگان بسیار موثراست. اینها نمونه کاربردهای رایجی هستند که در آنها از اطلاعات تصویری در بازشناسی خودکار گفتار استفاده میشود، همچنین در توجیه بکارگیری شبکههای عصبی عمیق در راستای ارتقاء دقت بازشناسی گفتار تصویری (لب خوانی) و گفتار صوتی معمولی در شرایطی که از اطلاعات صوتی و تصویری بصورت همزمان استفاده میشودکارایی دارد.
این پروژه به راهنمایی فرشاد الماس گنج و مشاوره احمد نیک آبادی انجام شده است.