
نوآوری پژوهشگران دانشگاه تهران در شناسایی پروتکلهای ناشناخته با استفاده از دادههای مصنوعی

به گزارش گروه دانشگاه خبرگزاری دانشجو، در پژوهشی که به سرپرستی دکتر مهدی تیموری، دانشیار دانشکده سامانههای هوشمند دانشکدگان علوم و فناوریهای میانرشتهای دانشگاه تهران و پژوهشگرانی از دانشگاه قم انجام شده است، راهکار تازهای برای تولید دادههای مصنوعی و آموزش یک مدل یادگیری ماشین با استفاده از این دادهها پیشنهاد شده است.
مهدی تیموری، سرپرست این تیم تحقیقاتی درباره اهمیت این پژوهش گفت: «یکی از چالشهای اساسی در کاربردهای عملی یادگیری ماشین، مسئلهی تعمیمپذیری است؛ یعنی اینکه یک مدل آموزشدیده چقدر میتواند در شرایط و دادههای متفاوت، از دادههای آموزشی، عملکرد مطلوبی ارائه دهد. این مشکل بهویژه در حوزههایی مانند امنیت شبکه که دادههای برچسبخورده کمیاب و اغلب محرمانه هستند، اهمیت بیشتری پیدا میکند. تحقیق اخیر برای پاسخ به همین چالش طراحی شده است.»
وی افزود: «در این پژوهش، با تمرکز بر پروتکلهای جغرافیایی مانند NMEA و KLV، روشی مبتنی بر مهندسی ویژگیها و مدلسازی آماری-تحلیلی توزیع ویژگیها معرفی و با استفاده از آن، مجموعهدادهای مصنوعی تولید شده است. سپس، یک مدل یادگیری ماشین تنها با همین دادههای مصنوعی آموزش داده شده و عملکرد آن با دادههای واقعی مورد ارزیابی قرار گرفته است. نتایج نشان میدهد که مدل آموزشدیده، حتی زمانی که دادهها دارای نویز هستند، دقت بالایی در شناسایی پروتکلها دارد.»
عضو هیأت علمی دانشکدگان علوم و فناوریهای نوین دانشگاه تهران گفت: «از ویژگیهای برجستهی این پژوهش، قابلیت تعمیم روش پیشنهادی به سایر حوزههای مبتنی بر یادگیری ماشین است. اگرچه مطالعهی حاضر بهطور خاص بر شناسایی پروتکلهای جغرافیایی تمرکز دارد، اما رویکرد ارائهشده در تولید دادههای مصنوعی میتواند در حوزههایی مانند تشخیص نفوذ، تحلیل رفتار کاربران، تصویربرداری پزشکی، یا حتی در صنایع هوشمند مانند کشاورزی، لجستیک و حملونقل نیز کاربرد داشته باشد؛ بهویژه در مواردی که دادههای واقعی بهدلیل محدودیتهای حریم خصوصی، امنیتی یا هزینهبر بودن، در دسترس نیستند.»
وی با بیان اینکه یکی از مهمترین دستاوردهای این پژوهش، کاهش وابستگی به دادههای واقعی برچسبخورده است، اظهار داشت: «این مزیت نهتنها از نظر صرفهجویی در منابع و زمان اهمیت دارد، بلکه از نظر یافتن راه حلی عملی برای حفظ حریم خصوصی کاربران و شناسایی پروتکلهای نادر یا جدید مهم است.»