گروهی از پژوهشگران دانشگاه پکن، شرکت Kuaishou Technology و دانشگاه پست و مخابرات پکن مدل هوش مصنوعی نوینی به نام «پایرامید فلو» (Pyramid Flow) را معرفی کردند که با هدف تولید ویدئوهای با وضوح بالا و هزینه کم طراحی شده است. این مدل پیشرفته میتواند صنعتهایی مانند تولید محتوای مجازی را متحول کند.
فهرست
چگونه «پایرامید فلو» کار میکند؟
مدل پایرامید فلو از روش منحصربهفردی برای تولید ویدئو استفاده میکند. این مدل به جای تولید مستقیم ویدئوهای با وضوح بالا، ابتدا ویدئوهایی با وضوح پایین در مراحل متعدد تولید و سپس آنها را به یک خروجی با کیفیت بالا (تا وضوح ۷۶۸p) تبدیل میکند.
این فرایند مرحلهبهمرحله نیاز به قدرت پردازشی را به طرز چشمگیری کاهش میدهد و آن را به راهکاری اقتصادی برای کاربران عادی و کاربردهای تجاری تبدیل میکند.
بر اساس اعلام تیم تحقیقاتی، پایرامید فلو قادر است یک کلیپ پنجثانیهای با وضوح ۳۸۴p را در ۵۶ ثانیه تولید کند. این سرعت در مقایسه با روشهای قبلی که به منابع پردازشی سنگین و زمان بیشتر نیاز داشتند پیشرفتی چشمگیر محسوب میشود.
دسترسی آزاد و متنباز
یکی از ویژگیهای برجسته این پروژه، انتشار متنباز پایرامید فلو است. این مدل تحت مجوز MIT بهرایگان در دسترس قرار گرفته است و کاربران میتوانند کدهای آن را برای مصارف شخصی یا تجاری دانلود، اصلاح و استفاده کنند. این اقدام نشاندهنده تعهد تیم پژوهشی به نوآوری و همکاری در جامعه هوش مصنوعی است.
علاوه بر مدل اصلی، پژوهشگران نمونههایی از ویدئوهای تولیدشده به وسیله پایرامید فلو را منتشر کردهاند که تواناییهای مدل را به نمایش میگذارد. از جمله این نمونهها میتوان به صحنههای پیچیدهای مانند انفجارهای زیرآبی همراه با ایجاد حبابها و پاشیدن آب اشاره کرد.
این کیفیت بصری بالا نشاندهنده پتانسیل پایرامید فلو برای ایجاد استانداردهای جدید در تولید ویدئو با هوش مصنوعی است.
دادههای آموزشی و چالشهای اخلاقی
برای آموزش این مدل، پژوهشگران از یک مجموعه داده شامل حدود ۱۰ میلیون ویدئوی کوتاه استفاده کردهاند که این دادهها نیز به صورت عمومی منتشر شده است.
با این حال، استفاده از دادههای متنباز در تولید ویدئوهای هوش مصنوعی بحثهایی درباره نگرانیهای مرتبط با حق نشر به وجود آورده است. برخی از منتقدان معتقدند این روش ممکن است حقوق تولیدکنندگان محتوایی را که آثارشان بدون اجازه برای آموزش مدل استفاده میشود نقض کند.
تیم تحقیقاتی به طور مستقیم به این نگرانیها پاسخ نداده، اما پیشنهاد داده است که پایرامید فلو میتواند به عنوان ابزاری برای بهینهسازی محتواهای متنباز موجود استفاده شود و وابستگی به محتوای دارای حق نشر را کاهش دهد.
چشمانداز آینده
پایرامید فلو گامی مهم در مسیر تولید ویدئوهای مبتنی بر هوش مصنوعی محسوب میشود. طراحی کارآمد و متنباز این مدل فرصتهای جدیدی برای سازندگان، توسعهدهندگان و کسبوکارها در حوزه تولید ویدئو فراهم میکند.
از فیلمسازی و انیمیشنسازی تا بازیسازی و شبیهسازیهای مجازی، کاربردهای این مدل بسیار گسترده و متنوع است.
انتشار متنباز این مدل علاوه بر دموکراتیک کردن دسترسی به ابزارهای پیشرفته هوش مصنوعی، امکان توسعه و بهبود بیشتر آن را به وسیله جامعه هوش مصنوعی فراهم میکند. با پایرامید فلو، آینده تولید ویدئوهای هوش مصنوعی بیش از پیش در دسترس و امیدوارکننده به نظر میرسد.