به گزارش گروه دانشگاه خبرگزاری دانشجو، هوش مصنوعی با مدلهای زبانی پیشرفتهای که به کار میگیرد، قادر است متونی شبیه به نوشتههای انسان تولید کند. این مدلهای زبانی که به «مدلهای زبانی بزرگ» یا LLMها معروف هستند، در برنامههای مختلفی از جمله چتباتها، نوشتن خودکار و تولید محتوا به کار میروند.
با وجود مزایای این فناوریها، شناسایی متون تولیدشده توسط ماشین و نسبت دادن آنها به منابع معتبر همواره یک چالش بوده است. این امر باعث شده تا نگرانیهایی درباره دقت و اعتبار این متون در میان کارشناسان و کاربران مطرح شود.
از آنجا که تفاوت ظاهری میان متون انسانی و مصنوعی کمتر شده است، نیاز به روشهایی برای تشخیص این دو بیشتر از قبل احساس میشود. روشهای مختلفی برای حل این مشکل پیشنهاد شده است، اما اغلب این روشها به دلیل تأثیر منفی بر کیفیت متن یا نیاز به توان محاسباتی بالا، در مقیاسهای بزرگ کاربردی نیستند. به همین دلیل، پژوهشگران به دنبال راهحلهایی هستند که هم کیفیت متن را حفظ کند و هم در تشخیص متون مصنوعی مؤثر باشد.
در این زمینه، گروهی از پژوهشگران به سرپرستی «سومانث داتاتری» و «پوشمیت کهولی» از Google DeepMind سیستمی به نام SynthID-Text را توسعه دادهاند. این سیستم با استفاده از یک الگوریتم نمونهگیری پیشرفته، واترمارکهایی را به طور نامحسوس به متون تولیدشده توسط هوش مصنوعی اضافه میکند.
این واترمارکها در واقع امضاهای دیجیتالی هستند که میتوانند با کمک نرمافزارهای خاص شناسایی شوند. این ابزار به گونهای طراحی شده که دو مسیر متفاوت برای واترمارکگذاری ارائه میدهد: مسیری که کمی کیفیت متن را تغییر میدهد و مسیری که بدون تأثیر بر کیفیت، امضا را اضافه میکند.
در روش کار این پژوهش، الگوریتم نمونهگیری به گونهای عمل میکند که انتخاب کلمات توسط هوش مصنوعی به شکلی تنظیم میشود که یک علامت خاص و قابل شناسایی در متن باقی بگذارد. این علامت با چشم انسان قابل مشاهده نیست، اما توسط نرمافزارهای تشخیص واترمارک به راحتی قابل ردیابی است. از این روش میتوان برای شناسایی هرگونه متنی که توسط مدلهای هوش مصنوعی تولید شده استفاده کرد.
نتایج این پژوهش که در نشریه معتبر Nature منتشر شده اند، نشان میدهند که سیستم SynthID-Text در مقایسه با روشهای موجود، عملکرد بهتری در تشخیص متون تولیدشده توسط هوش مصنوعی دارد.
همچنین، بررسی کیفیت متون واترمارکگذاریشده نشان داده است که در حالت غیرتغییری (non-distortionary)، کیفیت متن حفظ میشود و تغییری در آن احساس نمیشود. از دیگر نتایج این پژوهش میتوان به این نکته اشاره کرد که این واترمارکها تأثیر چندانی بر میزان توان محاسباتی مورد نیاز برای اجرای مدلها ندارند.
علاوه بر این، پژوهشگران تاکید دارند که اگرچه این واترمارکها ممکن است با تغییرات جزئی در متن از بین بروند، اما این ابزار میتواند به عنوان گامی مهم در جهت افزایش شفافیت و مسئولیتپذیری در استفاده از مدلهای زبانی هوش مصنوعی مورد استفاده قرار گیرد. این امر به ویژه در مواردی که متنهای تولیدشده باید از اعتبار بالایی برخوردار باشند، اهمیت دارد.
در انتها بایستی اشاره کرد که این پژوهش، قدمی مهم در جهت افزایش امنیت و شفافیت استفاده از هوش مصنوعی در فرایندهای تولید محتوا محسوب میشود.