グラボ Nvidia RTX 30XX, 40XX, 50XX シリーズでローカル環境で動画が生成できるという、話題の「FramePack」が気になったので試してみました。
インストール
Windowsであれば公式のInstallを参考に、「>>> Click Here to Download One-Click Package (CUDA 12.6 + Pytorch 2.6) <<<」からダウンロードして、update.bat、run.batの順で行うと完了です。
もし高速化ライブラリを入れる場合は Issue #138 のmodを利用すると速いです。package_installer.zip
を解凍して中身をFramePackのルートディレクトリに移動後、package_installer.bat
を実行して完了です。
実際に使ってみて
まず、できあがったものがこちらです。

今回試したのは、1枚の画像を使い、プロンプトに「1回転して、海動かして」といった単純な指示を与えたものです。これだけのシンプルな設定にもかかわらず、クオリティの高い動画が作成されたのは素直にすごいなと感じました。
また、動画生成中にYouTubeを見たり、軽作業は普通にできました。動画を結合しているときは重たくなります。
使用した環境、動画の設定は以下になっています。
- CPU:Intel 13th Core i5 13500
- GPU:GeForce RTX 4060 Ti 8GBモデル
- メモリ:32GB
- 動画サイズ:512×768ピクセル
- TeaCache:OFF
- Total Video Length (Seconds):5
- Steps:25
- Distilled CFG Scale:7
- GPU Inference Preserved Memory (GB) :7
生成時間
RTX 4060 Ti 8GBモデルだと5秒の動画に約40分かかりました。単純計算すると1秒の動画に約8分かかるようです。
それで、動画のフレームレートを確認したところ30fpsでした。つまり、480秒 ÷ 30枚 = 1枚あたり約16秒で画像が生成されている計算になります。この分野には全く詳しくないので断言はできませんが、ローカルマシンで、しかもそこまでハイスペックではないこのグラボ(RTX 4060 Ti 8GB)でこの速度が出るのは、かなり早いほうだと思いました。もちろん画像サイズにも影響されるとは思います。
とはいえ、5秒の動画を作るのに約40分はかかるので、絶対的に見れば時間はかかる部類かもしれません。それでも、これだけのクオリティの動画をクラウドを使わず自分のPCだけで完結できるのは、やっぱり驚きです。
ちなみに、TeaCacheという高速化機能を使うと、1秒の動画が約5分ほどで生成できました。TeaCacheの機能については、手っ取り早い話が「速さを取るならTeaCache ON」「品質を取るならTeaCache OFF」とChatGPTが教えてくれました。
TeaCacheについて(公式情報をChatGPTで要約)
- TeaCacheをONにすると、速度が大幅に向上する。
- RTX 4090の場合、通常2.5秒/フレーム → TeaCache有効で1.5秒/フレームに短縮される。
- TeaCacheはメモリを使って一部の中間結果をキャッシュ(再利用)する仕組み。
- 速度を重視するならON推奨だが、メモリに余裕がない場合はOFFにしてもOK。
- TeaCacheは処理を高速化するための仕組みだが、結果に影響を与える場合がある(=完全にロスレスではない)。
- アイデア出しや素早い試行(プロトタイピング)にはTeaCacheをONにする
- 最終的に高品質な結果を求めるときはTeaCacheをOFFにして、完全なディフュージョン処理を行うことが推奨されている。
まとめると、5秒の動画の生成時間の目安は以下になります。
設定 | 5秒動画の生成時間 | 1秒あたり |
---|---|---|
TeaCache OFF | 約40分 | 約8分 |
TeaCache ON | 約25分 | 約5分 |
精度
正確性や制御の精度については、正直なところよくわかりません。
作成した動画ではプロンプトに「1回転してほしい」と書いたのですが、半回転で終わってしまったり、同じ条件で再実行すると2回転してしまったりと、動きの制御が難しいと感じました。
おそらく、もっと細かく丁寧に指示を書く必要があるのだと思いますが、どう書けば思った通りに動いてくれるのかは、まだ掴めていません。
今のところは、なんとなくいい感じに出来上がることを祈るような使い方になってしまっています。
下の動画は、服の背中が開いたり閉じたりする現象が発生しました。プロンプトには「服の背中部分が開かないように」と書いていたのですが、なかなか意図通りにはいかないようです……。
おわりに
なかなか思った感じの動きを作るのが難しいですが、適当に動くのを見ているのも楽しいです!
キーフレームを設定する機能が追加されたフォーク「FramePack-eichi」なども開発されているので、こちらも試していこうと思います。
(Stable Diffusion も初めて触りましたが面白かったです!)

コメント
※コメントは管理者が承認するまで表示されません