نرم‌افزار خطايابي املايي، معنايي و دستوري زبان فارسي طراحي شد

نرم‌افزار خطايابي املايي، معنايي و دستوري زبان فارسي با همكاري دانشكده فني دانشگاه تهران طراحي شد.

به گزارش گروه علمي «شبکه خبر دانشجو»، اخيرا مركز تحقيقات مخابرات ايران طرحی با عنوان «به سازي و ارائه الگوريتم‌هاي جديد خطايايي املايي و دستوري زبان فارسي و پياده‌سازي نرم‌افزار مربوطه» با همكاري دانشكده فني دانشگاه تهران و زيرنظر دكتر هشام فيلي (عضو هيئت علمي دانشكده برق و كامپيوتر دانشگاه تهران) به عنوان طرحی بنيادي و كاربردي به انجام رسانده است.

اين پروژه به توسعه يك نرم‌افزار خطايايي متون فارسي انجاميد كه به صورت افزونه (plug-in) قابل اتصال به نرم‌افزار مايكروسافت ورد است.

امروزه با توجه به رشد سريع حجم مستندات الكترونيكي توليد شده، نياز به ابزارهاي سريع‌پردازش اطلاعات نوشتاري بيش از هر زمان ديگري احساس مي‌شود.

از ميان اين ابزارهاي پردازش، خطاياب متون را مي‌توان اساسي‌ترين و پراهميت‌ترين دانست. با توجه به عدم امكان بررسي دستي چنين خطاهايي در متون حجيم كه كاري زمانبر و خسته كننده مي‌باشد و با توجه به ماهيت بر خط تايپ، نرم‌افزارهايي كه توانايي بررسي سريع اين خطاها را دارد از اهميت ويژه‌اي در هنگام تايپ متون حجيم برخوردارند.

خطاياب املايي نرم‌افزاري رايانه‌اي است كه مشكلات نوشتاري يك متن را تشخيص داده و پيشنهادات تصحيح را ارائه مي‌دهد. خطاياب مي‌تواند علاوه بر خطاهاي املايي، خط‌هاي دستور زباني و معنايي را نيز تشخيص دهد.

خطاهاي نوشتاري به سه دسته خطااي لغوي، نحوي (يا گرامي) و معنايي تقسيم مي‌شوند، منظور از خطاهاي لغوي آن دسته خطاهاست كه به دامنه كلمات محدود مي‌شود و در صورتي كه كلمه در لغتنامه موجود نباشد و يا بر اساس قواعد ساختواژي توجيه نشود، خطا محسوب مي‌شود.

خطاهاي نحوي (گرامري) نيز كه در سطح جمله و ارتباط كلمات با يكديگر مطرحند، شامل خطاهايي چون عدم تطابق (مثلا بين فاعل و فعل)، عدم رعايت ترتيب بكارگيري كلمات (صفت قبل از موصوف) و بطور كلي هرگونه نوشتاري كه با قواعد دستوري فارسي ناسازگار باشد.

نهايتا خطاهائي معنايي به كاربرد نادرست كلمات درست مربوط مي‌شود. مثلا قيدي از اول جمله بر اساس يك خطاي لغوي به اسمي كه در لغتنامه وجود دارد تبديل شود («اكثر» به «اكبر») به اينگونه خطاها، خطاهاي word rdal نيز گفته مي‌شود. هرچند كه پيش از اين تعدادي خطاياب فارسي توسط مؤسسات و شركت‌هاي مختلف ارائه شده بودند، ولي خطاياب‌هاي موجود تنها قابليت بررسي خطاهاي املايي را داشته و براي تشخيص خطاهاي دستور زباني و معنايي طراحي نشده بودند.

بدين ترتيب نرم‌افزار ارائه شده در اين پروژه، اولين خطايابي براي زبان فارسي خواهد بود كه توانايي تشخيص تمامي خطاهاي سه‌گانه را خواهد داشت. انتظار مي‌رود كه خطاياب ارائه شده با توجه به حجم عظيم اطلاعات مورد استفاده قرار گرفته در توسعه آن از ساير رقباي خود در امر خطايابي و تصحيح لغوي نيز پيشي بگيرد. نرم‌افزار توسعه داده شده از جديدترين روش‌هاي مطرح در حوزه پردازش زبان طبيعي به منظور تشخيص و تصحيح خطاهاي سه‌گانه بهره مي‌برد.

به منظور پوشش هرچه بيشتر واژگان اين خطاياب، متون فارسي از منابع مختلفي استخراج شده و در تهيه ليست كلمات مورد استفاده قرار گرفته‌اند.

اين خطاياب قابليت تشخيص حدودا 20 نوع خطاي گرامري را داشته و پيشنهاد تصحيح را ارائه مي‌دهد. علاوه بر اين مي‌توان ويژگي‌هايي همچون قابليت تشخيص كلمات جاافتاده در اصطلاحات پركاربرد زبان، تنظيم ميزان حساسيت خطاياب به خطاهاي معنايي، خطاهابي بخشي از متون،‌امكان سفارشي كردن تنظيمات مختلف براي كاربر و همچنين امكان حذف (افزودن) قواعد گرامري،‌حذف (افزودن) كلمان واژگان و فعال و غيرفعال كردن يكايك مراحل خطايابي و تصحيح را براي اين نرم‌افزار برشمرد.

اطلاعات بيشتر در مورد اين طرح را مي‌توان از سايت آزمايشگاه‌پردازش زبان طبيعي دانشگاه تهران به آدرس http:/ece.ut.ac.ir/nlp دريافت كرد./انتهای پیام/

لینک کپی شد

گزارش خطا

پسندها:

اشتراک گذاری