Grok Imagine

xAI (команда Илона Маска)

Grok Imagine — новая видео-модель от xAI (команда Илона Маска) на технологии Aurora. Главная фишка — автоматическая генерация звука вместе с видео (музыка, диалоги, эффекты среды). Длительность 6, 10 или 15 секунд, разрешение 720p, форматы 16:9, 9:16 и 1:1. Поддержка Text-to-Video и Image-to-Video. «Бюджетный Veo со звуком» — в 2,5 раза дешевле Veo Quality.

720p HD6 / 10 / 15 секундАвто-звук в каждом видео16:9, 9:16, 1:1Text-to-VideoImage-to-Video
Стоимость
35 — 85 тк ≈ 49 — 119₽
Генерировать Попробовать бесплатно
Grok Imagine 10с — старик-часовщик, русский шёпот + тиканье часов

Возможности

Авто-звук

Звук генерируется автоматически — диалоги, фоновые шумы, музыка. Как у Veo, но в 2,5 раза дешевле

До 15 секунд

6, 10 или 15 секунд на выбор — длиннее, чем у большинства моделей (Veo — 8с, Kling — до 10с)

Прямая речь

Реплики в кавычках в промпте — Grok озвучит голосом персонажа, работает и по-русски для коротких фраз

Image-to-Video

Загрузите фото как первый кадр — Grok оживит его и добавит звуковое сопровождение

Примеры промптов

Vertical 9:16 composition. A weathered elderly watchmaker in a dim antique workshop, framed from chest up, carefully brings a gold pocket watch held in tweezers toward his right eye which has a jeweler's loupe attached. His face fills the upper two-thirds of the frame, the watch and tweezers centered in the lower third, his other hand rests still on the wooden workbench in soft focus below. The watch ticks loudly and steadily. He whispers softly in Russian with a gentle voice: "Она ещё жива." Shot on Arri Alexa 35, 85mm lens, shallow depth of field, warm amber tungsten light from a single brass desk lamp above, dust motes floating in the beam. Subtle cello drone and rhythmic ticking of many clocks in the background. Cinematic, film grain, anamorphic lens flare, vertical portrait framing.

Rainy neon-lit alley in Tokyo at night. Young woman with umbrella walks slowly past glowing sign, reflections on wet pavement. Ambient synthwave music, rain sounds, distant traffic. Cinematic, shallow depth of field.

Close-up of bearded man in leather jacket sitting at bar. He looks at camera, smirks and says: "You have no idea what's coming". Jazz piano plays softly, glass clinks in background. Moody cinematic lighting.

Red sports car accelerates on empty highway at sunset. Engine roars, tires screech briefly. Camera follows from behind with drone shot. Upbeat electronic music builds. Golden hour, lens flare.

Советы

  • Звук работает лучше на английских промптах — описывайте звуковую атмосферу словами
  • Русский язык работает для коротких фраз (1-4 слова) в спокойной интонации
  • Максимум 2 активных звуковых слоя — не просите 3 (тиканье + речь + музыка), третий не смешается
  • Прямая речь в кавычках: Grok автоматически озвучит реплику голосом персонажа
  • Одна рука активна, другая rest still — защита от артефакта «3 руки»
  • Negative prompts не работают — описывайте что нужно, а не что не нужно
  • Grok не генерирует видео с реальными знаменитостями — для «себя в видео» используйте Seedance Omni

Готовы попробовать Grok Imagine?

Генерировать Все модели