آخرین اخبار:
کد خبر:۱۲۴۹۶۵۴

روش جدید به طور موثر از داده‌های آموزشی حساس هوش مصنوعی محافظت می‌کند

محققان MIT اخیراً چارچوبی را بر اساس معیار حریم خصوصی جدید به نام PAC Privacy توسعه داده‌اند که می‌تواند عملکرد یک مدل هوش مصنوعی را حفظ کند و در عین حال اطمینان حاصل کند که داده‌های حساس مانند تصاویر پزشکی یا سوابق مالی در برابر مهاجمان در امان هستند.

به گزارش گروه دانشگاه خبرگزاری دانشجو، حفظ حریم خصوصی داده‌ها هزینه دارد. تکنیک‌های امنیتی وجود دارد که از داده‌های حساس کاربر، مانند آدرس‌های مشتری، در برابر مهاجمانی که ممکن است سعی کنند آنها را از مدل‌های هوش مصنوعی استخراج کنند محافظت می‌کند –، اما اغلب این مدل‌ها را دقیق‌تر می‌کنند.

محققان MIT اخیراً چارچوبی را بر اساس معیار حریم خصوصی جدید به نام PAC Privacy توسعه داده‌اند که می‌تواند عملکرد یک مدل هوش مصنوعی را حفظ کند و در عین حال اطمینان حاصل کند که داده‌های حساس مانند تصاویر پزشکی یا سوابق مالی در برابر مهاجمان در امان هستند. اکنون، آنها این کار را با کارآمدتر کردن تکنیک خود از نظر محاسباتی، بهبود معاوضه بین دقت و حریم خصوصی، و ایجاد یک الگوی رسمی که می‌تواند برای خصوصی کردن تقریباً هر الگوریتم بدون نیاز به دسترسی به عملکرد درونی آن الگوریتم مورد استفاده قرار گیرد، یک قدم جلوتر برداشته‌اند.

این تیم از نسخه جدید PAC Privacy برای خصوصی سازی چندین الگوریتم کلاسیک برای تجزیه و تحلیل داده‌ها و وظایف یادگیری ماشینی استفاده کرد.

آنها همچنین نشان دادند که الگوریتم‌های پایدارتر با روش آنها خصوصی‌سازی آسان‌تر است. پیش‌بینی‌های یک الگوریتم پایدار حتی زمانی که داده‌های آموزشی آن اندکی تغییر کرده باشد، ثابت می‌مانند. پایداری بیشتر به الگوریتم کمک می‌کند تا پیش‌بینی‌های دقیق‌تری روی داده‌های دیده نشده قبلی انجام دهد.

محققان می‌گویند افزایش کارایی چارچوب جدید PAC Privacy و الگوی چهار مرحله‌ای که می‌توان برای پیاده‌سازی آن دنبال کرد، استقرار این تکنیک را در موقعیت‌های دنیای واقعی آسان‌تر می‌کند.

"ما تمایل داریم استحکام و حریم خصوصی را با ساختن یک الگوریتم با کارایی بالا بی ربط یا حتی در تضاد با آن در نظر بگیریم. ابتدا یک الگوریتم کارآمد می‌سازیم، سپس آن را قوی می‌کنیم و سپس خصوصی می‌کنیم. نشان داده‌ایم که همیشه چارچوب بندی مناسبی نیست. اگر الگوریتم خود را در تنظیمات مختلف، می‌توانید به صورت رایگان Sprivihar دریافت کنید، می‌توانید به صورت رایگان، یک الگوریتم کارآمد را بسازید. " دانشجو و نویسنده اصلی مقاله در مورد این چارچوب حریم خصوصی.

دکتر Hanshen Xiao '۲۴ که به عنوان استادیار در دانشگاه پوردو در پاییز کار خود را آغاز خواهد کرد، در مقاله به او پیوست؛ و نویسنده ارشد سرینی دواداس، ادوین سیبلی وبستر استاد مهندسی برق در MIT. این تحقیق در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی ارائه خواهد شد.

تخمین نویز

برای محافظت از داده‌های حساسی که برای آموزش یک مدل هوش مصنوعی استفاده می‌شد، مهندسان اغلب نویز یا تصادفی عمومی را به مدل اضافه می‌کنند تا حدس زدن داده‌های آموزشی اصلی برای حریف سخت‌تر شود. این نویز دقت یک مدل را کاهش می‌دهد، بنابراین هر چه صدای کمتری اضافه شود، بهتر است.

PAC Privacy به طور خودکار کمترین میزان نویزی را که برای دستیابی به سطح مطلوبی از حریم خصوصی باید به یک الگوریتم اضافه شود، تخمین می‌زند.

الگوریتم اصلی PAC Privacy مدل هوش مصنوعی کاربر را بار‌ها بر روی نمونه‌های مختلف یک مجموعه داده اجرا می‌کند. واریانس و همچنین همبستگی بین این خروجی‌های زیاد را اندازه‌گیری می‌کند و از این اطلاعات برای تخمین میزان نویز برای محافظت از داده‌ها استفاده می‌کند.

این نوع جدید از PAC Privacy به همین روش کار می‌کند، اما نیازی به نمایش کل ماتریس همبستگی داده‌ها در میان خروجی‌ها ندارد. فقط به واریانس‌های خروجی نیاز دارد.

سریدار توضیح می‌دهد: «از آنجایی که چیزی که شما تخمین می‌زنید بسیار بسیار کوچکتر از کل ماتریس کوواریانس است، می‌توانید آن را بسیار بسیار سریعتر انجام دهید. این بدان معنی است که می‌توان مجموعه داده‌های بسیار بزرگتری را مقیاس کرد.

اضافه کردن نویز می‌تواند به سودمندی نتایج آسیب برساند و مهم است که از دست دادن ابزار به حداقل برسد. به دلیل هزینه محاسباتی، الگوریتم اصلی PAC Privacy محدود به اضافه کردن نویز همسانگرد بود که به طور یکنواخت در همه جهات اضافه می‌شود. از آنجایی که نوع جدید نویز ناهمسانگرد را تخمین می‌زند، که بر اساس ویژگی‌های خاص داده‌های آموزشی تنظیم شده است، کاربر می‌تواند نویز کلی کمتری را برای دستیابی به همان سطح از حریم خصوصی اضافه کند و دقت الگوریتم خصوصی سازی شده را افزایش دهد.

حریم خصوصی و ثبات

سریدار با مطالعه حریم خصوصی PAC، این فرضیه را مطرح کرد که خصوصی سازی الگوریتم‌های پایدارتر با این تکنیک آسان‌تر است. او از نوع کارآمدتر PAC Privacy برای آزمایش این نظریه بر روی چندین الگوریتم کلاسیک استفاده کرد.

الگوریتم‌هایی که پایدارتر هستند، زمانی که داده‌های آموزشی آنها کمی تغییر می‌کند، واریانس کمتری در خروجی‌های خود دارند. PAC Privacy یک مجموعه داده را به قطعات تقسیم می‌کند، الگوریتم را روی هر تکه داده اجرا می‌کند و واریانس بین خروجی‌ها را اندازه گیری می‌کند. هر چه واریانس بیشتر باشد، نویز بیشتری باید برای خصوصی سازی الگوریتم اضافه شود.

او توضیح می‌دهد که استفاده از تکنیک‌های پایداری برای کاهش واریانس در خروجی‌های الگوریتم، میزان نویز مورد نیاز برای خصوصی‌سازی آن را نیز کاهش می‌دهد.

او می‌گوید: در بهترین موارد، ما می‌توانیم این سناریو‌های برد-برد را دریافت کنیم.

تیم نشان داد که این ضمانت‌های حفظ حریم خصوصی علی‌رغم الگوریتمی که آزمایش کرده‌اند، قوی باقی مانده‌اند و نوع جدید PAC Privacy به آزمایش‌های درجه‌ای کمتر برای تخمین نویز نیاز دارد. آنها همچنین این روش را در شبیه سازی حمله آزمایش کردند و نشان دادند که تضمین‌های حریم خصوصی آن می‌تواند در برابر حملات پیشرفته مقاومت کند.

دواداس می‌گوید: ما می‌خواهیم بررسی کنیم که چگونه الگوریتم‌ها را می‌توان با PAC Privacy طراحی کرد، بنابراین الگوریتم از ابتدا پایدارتر، ایمن‌تر و قوی‌تر است. محققان همچنین می‌خواهند روش خود را با الگوریتم‌های پیچیده‌تر آزمایش کنند و معاوضه حریم خصوصی و سودمندی را بیشتر بررسی کنند.

اکنون سؤال این است: این موقعیت‌های برد-برد چه زمانی اتفاق می‌افتند، و چگونه می‌توانیم آنها را بیشتر تکرار کنیم؟

سریدار می‌گوید: استادیار بخش تحلیل داده‌های کامپیوتری در دانشگاه Yu می‌گوید: من فکر می‌کنم مزیت کلیدی PAC Privacy در این تنظیمات نسبت به سایر تعاریف حریم خصوصی این است که یک جعبه سیاه است - برای خصوصی‌سازی نتایج، نیازی به تجزیه و تحلیل دستی هر پرس‌وجو ندارید. می‌توان آن را کاملاً خودکار انجام داد. ما به طور فعال در حال ساخت یک پایگاه داده با قابلیت PAC با توسعه موتور‌های SQL برای پشتیبانی عملی، خودکار و کارآمد هستیم.  دانشگاه ویسکانسین در مدیسون، که در این مطالعه شرکت نداشت.

این تحقیق تا حدی توسط سیسکو سیستمز، کپیتال وان، وزارت دفاع ایالات متحده و بورسیه MathWorks پشتیبانی می‌شود.

ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار