چگونه با ۱.۵ دلار فیلمهای سینمایی با هوش مصنوعی بسازیم؟

هوش مصنوعی Veo ۳ گوگل با تولید ویدئوهای واقعگرایانه همراه با صدا، گامی بزرگ در دموکراتیزه کردن فیلمسازی برداشته است. ابزار Flow، با رابط کاربری ساده و هزینه ۱.۵ دلاری به ازای هر ویدئو، خلاقیت را برای همه از حرفهایها تا آماتورها قابل دسترس کرده است. بااینحال، نگرانیهایی درباره تأثیر بر صنعت سینما، محتوای جعلی و محدودیتهای فنی باقی مانده است.
فرارو- گوگل با معرفی مدل هوش مصنوعی Veo 3 در کنفرانس Google I/O 2025 در تاریخ ۱۴ می ۲۰۲۵، صنعت تولید ویدئو را متحول کرد. این مدل، که توسط Google DeepMind توسعه یافته، قادر است ویدئوهای ۸ ثانیهای با کیفیت ۷۲۰p را همراه با صدا، گفتوگو، موسیقی و جلوههای صوتی همگامشده از روی متن یا تصاویر تولید کند. Veo 3 با ابزار جدید گوگل به نام Flow ترکیب شده که به کاربران امکان میدهد با توصیفهای متنی ساده، فیلمهای سینمایی بسازند. این فناوری، که هماکنون برای مشترکان سرویس AI Ultra در ایالات متحده با هزینه ۱.۵ دلار به ازای هر ویدئو در دسترس است، بحثهای گستردهای درباره آینده سینما و اخلاقیات تولید محتوای هوش مصنوعی به راه انداخته است. در این مقاله، با استناد به منابع معتبر مانند Mashable، Tom’s Guide، Axios، CNBC، جزئیات این فناوری بررسی میشود.
قابلیتهای Veo 3 و ابزار Flow
به گزارش فرارو، Veo 3 پیشرفتهترین مدل تولید ویدئوی گوگل تا به امروز است و نسبت به نسخههای قبلی مانند Veo 2 و ابزارهای رقیب مانند Sora از OpenAI و Kling 2.1 از Kuaishou برتریهایی دارد:
- تولید ویدئو با صدا: Veo 3 میتواند ویدئوهای کوتاه با گفتوگو، موسیقی پسزمینه و جلوههای صوتی تولید کند، ویژگیای که برای اولین بار در ابزارهای گوگل دیده میشود. به گفته CNBC، این قابلیت ویدئوها را به سطحی از واقعگرایی میرساند که تشخیص آنها از محتوای واقعی دشوار است.
- کیفیت بصری: ویدئوها با وضوح ۷۲۰p تولید میشوند و جزئیاتی مانند بافت پوست، نورپردازی و حرکت طبیعی را با دقت بالا نمایش میدهند. Mashable این کیفیت را «فراتر از انتظار» توصیف کرده است.
- ورودیهای متنوع: Veo 3 از پرامپتهای متنی، تصاویر ثابت یا حتی کلیپهای ویدئویی بهعنوان ورودی استفاده میکند و سبکهای بصری مانند انیمیشن، فیلم نوآر یا فانتزی را بازسازی میکند.
- ابزار Flow: این ابزار آنلاین، که با ترکیب Veo 3، مدل زبانی Gemini و تولیدکننده تصویر Imagen 4 کار میکند، به کاربران اجازه میدهد صحنهها، شخصیتها و داستانها را در یک رابط وب ساده مدیریت کنند. Tom’s Guide گزارش داده که Flow تولید فیلم را برای غیرحرفهایها آسان کرده است.
گوگل سه نسخه از Veo 3 ارائه کرده است: سریع با صدا (۲۰ اعتبار)، باکیفیت بیصدا (۵۰ اعتبار) و باکیفیت با صدا (۱۵۰ اعتبار). نسخه سریع، که در پلن پرو روزانه تا ۳ بار قابل استفاده است، برای تولید محتوای سریع مناسب است.
فناوری پشت Veo 3
Veo 3 بر پایه فناوری انتشار (Diffusion) ساخته شده، مشابه ابزارهای تولید تصویر مانند Stable Diffusion. این فناوری با افزودن نویز به ویدئوهای واقعی و سپس آموزش شبکه عصبی برای معکوس کردن این فرآیند، ویدئوهای جدید خلق میکند. Nature توضیح داده که Veo 3 شامل سه جزء اصلی است:
- مدل زبانی بزرگ (LLM): برای تفسیر پرامپتهای متنی کاربران.
- مدل انتشار ویدئو: برای تولید فریمهای بصری.
- مدل تولید صدا: برای خلق گفتوگو و جلوههای صوتی همگامشده.
این ترکیب، امکان تولید محتوای چندوجهی را فراهم میکند.
دسترسی و هزینه
Veo 3 و Flow هماکنون برای مشترکان سرویس AI Ultra گوگل در ایالات متحده با اشتراک ماهانه ۲۵۰ دلار در دسترس است، که شامل ۱۲,۵۰۰ واحد اعتبار برای تولید حدود ۸۳ ویدئو میشود. هر ویدئوی ۸ ثانیهای ۱۵۰ اعتبار (معادل ۱.۵ دلار) هزینه دارد، و اعتبار اضافی با قیمت ۱ سنت به ازای هر واحد قابل خرید است. کاربران با آیپی اروپا به نسخه قدیمیتر Veo 2 دسترسی دارند، در حالی که آیپی آمریکا دسترسی به Veo 3 را فراهم میکند.
تأثیرات و نگرانیها
Veo 3 و Flow بحثهای گستردهای در صنعت سینما و جامعه ایجاد کردهاند:
- تأثیر بر سینما: FandomWire ادعا کرده که Veo 3 ممکن است «هالیوود را نابود کند»، زیرا تولید ویدئوهای حرفهای را برای افراد عادی ممکن میکند. بااینحال، CineD معتقد است که این ابزارها بیشتر برای پیشتولید (مانند استوریبورد) یا محتوای آزمایشی مفیدند تا جایگزینی کامل فیلمسازی سنتی.
- واقعگرایی و اخلاقیات: ویدئوهای Veo 3 چنان واقعی هستند که Axios هشدار داده «تشخیص واقعیت از هوش مصنوعی دشوار شده است». گوگل برای جلوگیری از سوءاستفاده، واترمارکهای کوچک به ویدئوها اضافه کرده، اما نگرانیها درباره انتشار محتوای جعلی همچنان وجود دارد.
- محدودیتها: eWeek اشاره کرده که Veo 3 محدودیتهایی مانند طول کوتاه ویدئوها (۸ ثانیه)، نیاز به اتصال ابری و خطر تولید محتوای غیراخلاقی دارد. همچنین، کیفیت صدا در برخی موارد به پای تولیدات انسانی نمیرسد.
- رقابت: Veo 3 با ابزارهایی مانند Kling 2.1 (که صدا تولید نمیکند) و Bing Video Creator مایکروسافت رقابت میکند. کاربران در X از هماهنگی صدا و تصویر Veo 3 تمجید کردهاند، اما برخی آن را «ترسناک» خواندهاند.
چشمانداز آینده
گوگل قصد دارد Veo 3 را با ویژگیهای جدید مانند تولید ویدئوهای طولانیتر و کیفیت 1080p بهبود دهد. Medium گزارش داده که این مدل میتواند در آینده برای تولید انیمیشنهای پیچیده یا تبلیغات استفاده شود. همچنین، گسترش دسترسی به کشورهای بیشتر و کاهش هزینهها در برنامه اولویت دارد. Analytics Insight پیشبینی کرده که Veo 3 میتواند بازار تولید محتوای هوش مصنوعی را که تا سال ۲۰۳۰ به ۱۰۰ میلیارد دلار میرسد، تحت تأثیر قرار دهد.
نمونه ای از ویدیوهای تولید شده با Veo 3 :