کد خبر:۹۹۲۲۶
نرمافزار خطايابي املايي، معنايي و دستوري زبان فارسي طراحي شد
نرمافزار خطايابي املايي، معنايي و دستوري زبان فارسي با همكاري دانشكده فني دانشگاه تهران طراحي شد.
به گزارش گروه علمي «شبکه خبر دانشجو»، اخيرا مركز تحقيقات مخابرات ايران طرحی با عنوان «به سازي و ارائه الگوريتمهاي جديد خطايايي املايي و دستوري زبان فارسي و پيادهسازي نرمافزار مربوطه» با همكاري دانشكده فني دانشگاه تهران و زيرنظر دكتر هشام فيلي (عضو هيئت علمي دانشكده برق و كامپيوتر دانشگاه تهران) به عنوان طرحی بنيادي و كاربردي به انجام رسانده است.
اين پروژه به توسعه يك نرمافزار خطايايي متون فارسي انجاميد كه به صورت افزونه (plug-in) قابل اتصال به نرمافزار مايكروسافت ورد است.
امروزه با توجه به رشد سريع حجم مستندات الكترونيكي توليد شده، نياز به ابزارهاي سريعپردازش اطلاعات نوشتاري بيش از هر زمان ديگري احساس ميشود.
از ميان اين ابزارهاي پردازش، خطاياب متون را ميتوان اساسيترين و پراهميتترين دانست. با توجه به عدم امكان بررسي دستي چنين خطاهايي در متون حجيم كه كاري زمانبر و خسته كننده ميباشد و با توجه به ماهيت بر خط تايپ، نرمافزارهايي كه توانايي بررسي سريع اين خطاها را دارد از اهميت ويژهاي در هنگام تايپ متون حجيم برخوردارند.
خطاياب املايي نرمافزاري رايانهاي است كه مشكلات نوشتاري يك متن را تشخيص داده و پيشنهادات تصحيح را ارائه ميدهد. خطاياب ميتواند علاوه بر خطاهاي املايي، خطهاي دستور زباني و معنايي را نيز تشخيص دهد.
خطاهاي نوشتاري به سه دسته خطااي لغوي، نحوي (يا گرامي) و معنايي تقسيم ميشوند، منظور از خطاهاي لغوي آن دسته خطاهاست كه به دامنه كلمات محدود ميشود و در صورتي كه كلمه در لغتنامه موجود نباشد و يا بر اساس قواعد ساختواژي توجيه نشود، خطا محسوب ميشود.
خطاهاي نحوي (گرامري) نيز كه در سطح جمله و ارتباط كلمات با يكديگر مطرحند، شامل خطاهايي چون عدم تطابق (مثلا بين فاعل و فعل)، عدم رعايت ترتيب بكارگيري كلمات (صفت قبل از موصوف) و بطور كلي هرگونه نوشتاري كه با قواعد دستوري فارسي ناسازگار باشد.
نهايتا خطاهائي معنايي به كاربرد نادرست كلمات درست مربوط ميشود. مثلا قيدي از اول جمله بر اساس يك خطاي لغوي به اسمي كه در لغتنامه وجود دارد تبديل شود («اكثر» به «اكبر») به اينگونه خطاها، خطاهاي word rdal نيز گفته ميشود. هرچند كه پيش از اين تعدادي خطاياب فارسي توسط مؤسسات و شركتهاي مختلف ارائه شده بودند، ولي خطايابهاي موجود تنها قابليت بررسي خطاهاي املايي را داشته و براي تشخيص خطاهاي دستور زباني و معنايي طراحي نشده بودند.
بدين ترتيب نرمافزار ارائه شده در اين پروژه، اولين خطايابي براي زبان فارسي خواهد بود كه توانايي تشخيص تمامي خطاهاي سهگانه را خواهد داشت. انتظار ميرود كه خطاياب ارائه شده با توجه به حجم عظيم اطلاعات مورد استفاده قرار گرفته در توسعه آن از ساير رقباي خود در امر خطايابي و تصحيح لغوي نيز پيشي بگيرد. نرمافزار توسعه داده شده از جديدترين روشهاي مطرح در حوزه پردازش زبان طبيعي به منظور تشخيص و تصحيح خطاهاي سهگانه بهره ميبرد.
به منظور پوشش هرچه بيشتر واژگان اين خطاياب، متون فارسي از منابع مختلفي استخراج شده و در تهيه ليست كلمات مورد استفاده قرار گرفتهاند.
اين خطاياب قابليت تشخيص حدودا 20 نوع خطاي گرامري را داشته و پيشنهاد تصحيح را ارائه ميدهد. علاوه بر اين ميتوان ويژگيهايي همچون قابليت تشخيص كلمات جاافتاده در اصطلاحات پركاربرد زبان، تنظيم ميزان حساسيت خطاياب به خطاهاي معنايي، خطاهابي بخشي از متون،امكان سفارشي كردن تنظيمات مختلف براي كاربر و همچنين امكان حذف (افزودن) قواعد گرامري،حذف (افزودن) كلمان واژگان و فعال و غيرفعال كردن يكايك مراحل خطايابي و تصحيح را براي اين نرمافزار برشمرد.
اطلاعات بيشتر در مورد اين طرح را ميتوان از سايت آزمايشگاهپردازش زبان طبيعي دانشگاه تهران به آدرس http:/ece.ut.ac.ir/nlp دريافت كرد./انتهای پیام/
لینک کپی شد
گزارش خطا
۰