آخرین اخبار:
کد خبر:۱۲۷۰۲۵۰

هوش مصنوعی کره‌ای، تصاویر را تا بی‌نهایت زوم می‌کند!

سه نفر از محققان هوش مصنوعی در KAIST AI در کره، چارچوبی به نام Chain-of-Zoom توسعه داده‌اند که امکان تولید تصاویر با وضوح فوق‌العاده بالا را با استفاده از مدل‌های با وضوح فوق‌العاده بالا و بدون نیاز به آموزش مجدد فراهم می‌کند.

به گزارش گروه دانشگاه خبرگزاری دانشجو، سه نفر از محققان هوش مصنوعی در KAIST AI در کره، چارچوبی به نام Chain-of-Zoom توسعه داده‌اند که امکان تولید تصاویر با وضوح فوق‌العاده بالا را با استفاده از مدل‌های با وضوح فوق‌العاده بالا و بدون نیاز به آموزش مجدد فراهم می‌کند.

در مطالعه‌ی خود که در سرور پیش‌چاپ arXiv منتشر شد، برایان سنگوو کیم، جئونگسول کیم و جونگ چول یه فرآیند بزرگنمایی روی یک تصویر را تجزیه و تحلیل کردند و سپس در هر مرحله از یک مدل فوق‌رزولوشن موجود برای اصلاح تصویر استفاده کردند که منجر به بهبود‌های تدریجی در وضوح تصویر شد.

تیم کره‌ای با توجه به این نکته شروع کرد که چارچوب‌های موجود برای بهبود وضوح تصاویر، هنگام بزرگنمایی، تمایل به استفاده از درون‌یابی یا رگرسیون دارند که منجر به تصاویر تار می‌شود. برای غلبه بر این مشکلات، آنها رویکرد جدیدی را در پیش گرفتند - با استفاده از یک فرآیند بزرگنمایی گام به گام، که در آن مراحل بعدی نسبت به مراحل قبلی بهبود می‌یابند.

محققان چارچوب جدید خود را زنجیره‌ای از بزرگنمایی (CoZ) می‌نامند، به دلیل زنجیره‌ای از فرآیند‌هایی که برای بهبود وضوح استفاده می‌شوند.

برای هر مرحله، چارچوب جدید از یک مدل با وضوح فوق‌العاده (SR) که از قبل وجود دارد برای شروع فرآیند اصلاح استفاده می‌کند. همزمان با انجام چنین پردازشی، یک مدل زبان بینایی (VLM) دستورالعمل‌های توصیفی تولید می‌کند که به مدل SR در انجام فرآیند تولید کمک می‌کند. نتیجه، تولید بخشی بزرگنمایی شده از تصویر اول است.

(الف) SR مرسوم. وقتی یک ستون فقرات SR که برای یک ضریب بزرگنمایی ثابت (مثلاً ۴ برابر) آموزش دیده است، به بزرگنمایی‌های بسیار بزرگتری فراتر از رژیم آموزشی خود منتقل می‌شود، تاری و مصنوعات ایجاد می‌شوند. (ب) زنجیره بزرگنمایی (زنجیره بزرگنمایی ما). با شروع از یک ورودی LR، یک VLM از پیش آموزش دیده یک راهنمای توصیفی تولید می‌کند که - همراه با تصویر - به همان ستون فقرات SR داده می‌شود تا حالت مقیاس HR بعدی را تولید کند. این چرخه راهنمای بزرگنمایی و بزرگنمایی تکرار می‌شود و به یک مدل آماده اجازه می‌دهد تا با حفظ جزئیات دقیق و وفاداری معنایی، به وضوح‌های بسیار بالا (۱۶ x-۲۵۶ x) برسد.

سپس این چارچوب، با استفاده از نشانه‌های مفید VLM، این فرآیند را بار‌ها و بار‌ها تکرار می‌کند و هر بار وضوح تصویر بزرگنمایی شده را بهبود می‌بخشد تا در نهایت به نسخه نهایی برسد. برای اطمینان از مفید بودن دستورالعمل‌های ارائه شده توسط VLM، تیم تحقیقاتی از تکنیک‌های یادگیری تقویتی استفاده کرد. آزمایش این چارچوب نشان داد که قادر است از تصاویر تولید شده توسط معیار‌های استاندارد، بهتر عمل کند.

محققان خاطرنشان می‌کنند که چارچوب آنها برای بهبود کیفیت تصویر نیازی به آموزش مجدد ندارد، که به گفته آنها، آن را قابل حمل‌تر می‌کند. آنها همچنین اظهار می‌کنند که کاربران باید در مورد نحوه استفاده از چارچوب خود مراقب باشند. تصویر بزرگنمایی شده واقعی نیست - با استفاده از هوش مصنوعی تولید شده است.

بنابراین، اگر قرار باشد از آن برای تشخیص حروف و/یا اعداد روی پلاک ماشین فراری که در جریان سرقت از بانک استفاده شده است، استفاده شود، ممکن است حروف و اعداد بسیار واضحی را نشان دهد -، اما ممکن است با اعداد و حروف روی ماشین واقعی مطابقت نداشته باشند.

ارسال نظر
captcha
*شرایط و مقررات*
خبرگزاری دانشجو نظراتی را که حاوی توهین است منتشر نمی کند.
لطفا از نوشتن نظرات خود به صورت حروف لاتین (فینگیلیش) خودداری نمايید.
توصیه می شود به جای ارسال نظرات مشابه با نظرات منتشر شده، از مثبت یا منفی استفاده فرمایید.
با توجه به آن که امکان موافقت یا مخالفت با محتوای نظرات وجود دارد، معمولا نظراتی که محتوای مشابهی دارند، انتشار نمی یابد.
پربازدیدترین آخرین اخبار