به گزارش گروه دانشگاه خبرگزاری دانشجو، به نقل از ایندیپندنت فارسی شبکه عصبی «دیپ مایند» (Deepmind) گوگل اکنون قادر به ساختن ویدیوهای ۳۰ ثانیهای از یک تصویر واحد است.
«ترنسفریمر» (Transframer)، نامی که بر این ابزار جدید گذاشته شده است، تنها به یک عکس نیاز دارد تا با آن کار کند، به این صورت که [در ابتدا شروع میکند]به شناسایی آنچه در چارچوب عکس وجود دارد. محتوای تصویر را تجزیهوتحلیل میکند و سپس با استفاده از «تصاویر زمینهای» آنچه را که احتمالا در پیرامون آن است پیشبینی میکند – و بر اساس حجم عظیمی از دادههایی [که از قبل با آنها]آموزش دیده است، حدس میزند که اشیاء از زوایای مختلف احتمالا چه شکلیاند.
تیم دیپ مایند در مطلب ارسالی خود نوشت: «وظیفه [ترنسفریمر]با در اختیار داشتن مجموعهای از تصاویر زمینهای با حواشی مرتبط (ازجمله برچسب زمانی، زاویه دید دوربین و غیره) و همچنین تحقیق و بررسی درباره این حواشی و تفاسیر، این است که سهم احتمالی [این موارد را]بر روی تصویر مورد نظر پیشبینی کند.»
«این چارچوب [هوش مصنوعی]، از طیف وسیعی از کارهای پیشبینی بصری، ازجمله مدلسازی ویدیویی، ترکیب نمای جدید و دید چند وظیفهای (multi-task) پشتیبانی میکند.»
این امکان وجود دارد که بتوان بهجای [روش]مرسوم رندرینگ که در حال حاضر در بازیهای ویدیویی و دیگر فضاهای آنلاین استفاده میشود، از این فناوری در ساخت محیطهای دیجیتالی سه بعدی استفاده شود.
تیم ما همچنین یک مدل واحد را آموزش داد تا ۸ وظیفه مختلف، برایمثال تخمین عمق، گروهبندی موارد نمونه، جریان نوری و تشخیصی در تصاویر و ویدیوها را انجام دهد. از طریق تارنمای پروژه بیشتر دراینباره بدانید.