はじめに
txt2imgで、ようやく「いい感じの画像」が生成できるようになってきました。
でも、こんなことを感じたことはないでしょうか。
- もう少し背景だけ変えたい
- 顔はいいのに、手だけ崩れてる…
- ラフ画を元に、本格的な絵に仕上げたい
そのもどかしさを解決するのが、img2imgです。
txt2imgが「ゼロから画像を作る」機能なら、img2imgは「既存の画像を素材にして、AIと一緒に育てる」機能です。一度生成した画像を、さらに自分好みに仕上げるための、もう一段階上のツールです。
この記事では、Stable Diffusion Forgeの img2imgタブを使って、RTX 5070環境で実際に試しながら、設定値の意味から実践テクニックまでを丁寧に解説していきます。
このシリーズの関連記事
UruruAILab RTX 5070 / 50シリーズ対応!Stable Diffusion導入・設定完全ガイド|Blackwell世代を100%活かすStability … RTX 5070(Blackwell)対応!Stability Matrixを使ったStable Diffusionの導入・設定ガイド。Forge – Neoなら手動インストール不要で最新環境が整います 。RTX 3070 Tiとの…UruruAILab Stable Diffusion Forge「txt2img」の使い方|RTX 5070「最高画質」の最短ルート | UruruAILab RTX 5070(Blackwell)のパワーをフルに回す!Stable Diffusion Forgeの「txt2img」最適設定を徹底解説。DPM++ SDE Karrasを常用し、SDXLで10秒を切る爆速&高画質を両立す…UruruAILab Stable Diffusion 高画質化の最適解|Hires. fixとADetailerで理想の顔と質感を出す最短ルート | UruruAILa… RTX 5070でStable Diffusion Forgeを「最高画質」で使いこなす最短ルートを解説。Hires.fixとADetailerの推奨設定値を具体的に公開します。旧世代GPUで発生していた「仕上…
img2imgとは?txt2imgとの違いを理解する
「ノイズ」の使い方が根本的に違います
txt2imgは、完全なランダムノイズからスタートして、プロンプトに従いながら画像を作り上げていきます。いわば「白紙に絵を描く」プロセスです。
一方img2imgは、アップロードした画像にノイズを乗せてから、同じようにノイズ除去しながら画像を生成します。元の画像の構図や色味を「記憶」した状態でAIが動くため、ゼロからではなく元画像をベースに変換・改造できるのが最大の特徴です。
img2imgでできること
| やりたいこと | img2imgでの活用法 |
|---|---|
| 生成画像の雰囲気を変えたい | 同じ構図で別スタイルに変換 |
| 手や顔だけ修正したい | Inpaintで部分的に再生成 |
| ラフ画を仕上げたい | ラフをアップロードして清書 |
| 解像度を上げながら加筆したい | Hires.fixとの併用 |
img2imgの設定値を理解する
最重要パラメータ:Denoising Strength(ノイズ除去強度)
img2imgを使いこなす上で、最初に理解すべき設定値がこれです。
Denoising Strengthは「元画像をどれだけ変えるか」を0〜1の数値で決めるパラメータです。
| 数値 | 挙動 | 使いどころ |
|---|---|---|
| 0.1〜0.3 | 元画像にほぼ忠実。微妙なタッチ調整 | 色味・質感だけ変えたいとき |
| 0.4〜0.65 | バランス型。構図は残しつつ雰囲気が変わる | 最も汎用的な範囲 |
| 0.7〜0.85 | 大きく変化。プロンプトの影響が強くなる | スタイル変換・大幅な改造 |
| 0.9〜1.0 | ほぼtxt2imgと同等。元画像の面影は薄い | 構図のヒントだけ借りたいとき |
筆者の実感として、0.5〜0.65あたりが「元画像を活かしつつ、いい感じに変化する」スイートスポットです。RTX 5070環境であれば、数値を変えながら複数枚同時生成して比較するのがおすすめです。
Resize Mode(リサイズモード)
アップロードした画像のサイズがForgeの出力サイズと異なる場合に、どう調整するかを選ぶ設定です。
- Just resize(そのまま引き伸ばす)
元画像をそのまま指定サイズに引き伸ばします。縦横比が変わるため、正方形の画像を横長にすると人物が横に伸びます。元画像と出力サイズが同じ場合はこれで問題ありません。 - Crop and resize(切り抜いてリサイズ)
縦横比を維持したままリサイズし、はみ出た部分を切り抜きます。構図の一部が切れても良い場合に使います。 - Resize and fill(余白を生成)
縦横比を維持しつつ、足りない部分をAIが自動補完します。余白を自然に埋めてほしいときに便利ですが、補完部分の品質はプロンプト次第です。 - Just resize (latent upscale)(潜在空間でリサイズ)
潜在空間上で処理するため高品質ですが、処理が重くなります。上質な変換が必要なときに試してみてください。
CFG ScaleとSteps
基本的な考え方はtxt2imgと同じですが、img2imgでは少し意識が変わります。
CFG ScaleはDenoising Strengthと連動して考えるのがポイントです。Denoisingを高め(0.7以上)にする場合、CFG Scaleも少し高め(7〜9)にするとプロンプトへの追従性が上がります。逆にDenoisingが低め(0.4以下)のときはCFG Scaleを下げ気味(5〜6)にすると元画像の自然さが保たれます。
Stepsはtxt2imgと同じ20〜30で十分です。Denoising Strengthが低い場合は少なめのステップ数でも十分な品質が出ます。
Inpaintで顔を固定・背景や服装を自在に修正する
Inpaintとは何か
img2imgの通常モードが「画像全体を変換する」のに対して、Inpaintは「塗った部分だけを再生成する」機能です。
たとえばこんな場面で活躍します。
- 顔はパーフェクトなのに、手だけ崩れている
- 背景だけ別の場所に変えたい
- 服装だけ変えて、同じキャラクターの別バージョンを作りたい
Forgeのimg2imgタブで「Inpaint」を選ぶと、画像にブラシで直接マスク(白い塗り)を描けるようになります。白く塗った部分だけがAIに再生成され、塗っていない部分は保護されます。
Inpaintの主要設定値
Mask Blur(マスクのぼかし)
マスクの境界線をどれだけぼかすかを決める設定です。
| 数値 | 挙動 |
|---|---|
| 0〜2 | 境界がシャープ。修正部分が浮きやすい |
| 4〜8 | 自然になじむ。初心者はここから始めるのがおすすめ |
| 10以上 | 境界が広くぼける。周辺への影響が大きくなる |
境界が不自然に浮いて見える場合は、まずMask Blurを上げてみてください。
Mask mode(マスクモード)
| 選択肢 | 挙動 | 使いどころ |
|---|---|---|
| Inpaint masked | マスク部分を再生成 | 通常はこちら |
| Inpaint not masked | マスク以外を再生成 | 人物を固定して背景を変えるときに有効 |
「顔を固定して背景だけ変えたい」場合は、人物全体にマスクを塗って「Inpaint not masked」を選ぶと、塗った部分(人物)が保護され、背景だけが再生成されます。
Masked content(マスク内の初期コンテンツ)
再生成を始める前に、マスクされた部分をどんな状態にしてからAIに渡すかを決める設定です。同じプロンプト・同じDenoising Strengthでも、ここの選択で結果が大きく変わります。
| 選択肢 | 挙動 | 使いどころ |
|---|---|---|
| fill | 周囲の色で塗りつぶして生成 | 背景を完全に別物にしたいときなど |
| original | 元画像を保持して生成 | 迷ったらoriginal一択 |
| latent noise | ランダムノイズから生成 | 上級者向け。予測不能な結果になりやすい |
| latent nothing | 無の状態から生成 | 実験的。ほぼlatent noiseと同用途 |
Inpaint Area(再生成の範囲)
| 選択肢 | 挙動 | 使いどころ |
|---|---|---|
| Whole picture | 画像全体を参照して再生成 | 背景など広い範囲を修正するとき |
| Only masked | マスク部分を拡大して再生成 | 顔・手など細かい部分の修正に最適 |
顔の修正には「Only masked」を強くおすすめします。 マスク部分を拡大処理するため、細部の品質が格段に上がります。
Only masked padding(余白ピクセル数)
Only maskedを選んだときに、マスク周辺の何ピクセルを参照するかを決めます。デフォルトの32ピクセルで大半の場合は問題ありません。 修正部分が周囲となじまない場合は、64程度に上げてみてください。
Denoising Strength(Inpaint時)
Inpaintでも同じDenoising Strengthが効きますが、通常のimg2imgより低めに設定するのが基本です。
| 数値 | 挙動 |
|---|---|
| 0.3〜0.5 | 元の雰囲気を残しつつ修正。違和感が出にくい。 |
| 0.6〜0.75 | 大きく変えたいとき。服装変更などに。 |
| 0.8以上 | ほぼ別物になる。背景を全く変えるときなど。 |
顔の修正なら0.4前後から試すのがおすすめです。変化が強すぎると別人になります。
実践①:顔を固定して背景だけ変える手順



(例:Japanese garden, cherry blossom trees in full bloom, falling cherry petals, dramatic sunset)
- Resize mode:
Crop and resize - Mask Blur:
6 - Mask mode:
Inpaint not masked - Masked content:
original - Inpaint Area:
Whole picture - Denoising Strength:
0.75

txt2imgの画像

Inpaintした画像

実践②:服装だけ変える手順



(例:wearing an elegant off-the-shoulder blouse,matching lavender high-waisted midi skirt)
- Resize mode:
Crop and resize - Mask Blur:
4 - Mask mode:
Inpaint masked - Masked content:
original - Inpaint Area:
Only masked - Denoising Strength:
0.65

txt2imgの画像

Inpaintした画像

全設定値リファレンス表(img2img / Inpaint)
太字が初心者向け推奨値です。
【img2img】通常モード
| 設定値 | 選択肢/値 | 役割 | 備考 |
|---|---|---|---|
| Resize mode | Just resize | 元画像をそのまま引き伸ばす | 出力サイズを元画像に合わせるならこれでOK |
| Crop and resize | 縦横比を維持して切り抜く | 構図の一部が切れても良い場合に | |
| Resize and fill | 余白をAIで補完する | 縦横比を変えたいときに有効 | |
| Just resize (latent upscale) | 潜在空間で高品質にリサイズ | 高品質だが処理が重い | |
| Soft inpainting | ON / OFF | 境界を自動的に柔らかくする | ONにすると境界がなじむが処理が重くなる |
| Sampling Method | DPM++ 2M など | 生成アルゴリズム | txt2imgと同じ設定でOK |
| Schedule Type | Karras | サンプリングスケジュール | アニメ調の画像生成に最適 |
| Sampling Steps | 20〜30 | 生成の反復回数 | Denoisingが低い場合は少なめでも十分 |
| Width / Height | 元画像に合わせる | 出力解像度 | RTX 5070なら高解像度も余裕 |
| Batch Count | 1〜4 | 連続生成回数 | RTX 5070なら4枚同時比較がおすすめ |
| Batch Size | 1 | 同時生成枚数 | VRAMと相談 |
| CFG Scale | 5〜9 | プロンプト追従度 | Denoising Strengthと連動して調整 |
| Denoising Strength | 0.5〜0.65 | 元画像からの変化量 | 最重要。まずここだけ覚えればOK |
| Seed | -1(ランダム) | 生成の乱数 | 再現したい場合は固定 |
【Inpaint】専用設定値
| 設定値 | 選択肢/値 | 役割 | 備考 |
|---|---|---|---|
| Mask blur | 4〜8 | マスク境界のぼかし量 | 低すぎると境界が浮く。まず6から試す |
| Mask mode | Inpaint masked | マスク部分を再生成 | 通常はこちら |
| Inpaint not masked | マスク以外を再生成 | 人物を固定して背景を変えるときに有効 | |
| Masked content | original | 元画像を保持して生成 | 迷ったらoriginal一択 |
| fill | 周囲の色で塗りつぶして生成 | 修正部分を完全に別物にしたいとき | |
| latent noise | ランダムノイズから生成 | 上級者向け。予測不能な結果になりやすい | |
| latent nothing | 無の状態から生成 | 実験的。ほぼlatent noiseと同用途 | |
| Inpaint area | Whole picture | 画像全体を参照して再生成 | 背景など広い範囲の修正に |
| Only masked | マスク部分を拡大して再生成 | 顔・手など細部の修正に最適 | |
| Only masked padding | 32px | マスク周辺の参照範囲 | なじまない場合は64に上げる |
| Soft inpainting | ON / OFF | 境界を自動的に柔らかくする | ONにすると自然になじむが処理が重くなる |
| Denoising Strength | 0.4〜0.5(顔・手) | マスク内の変化量 | 顔修正は低めから試す |
| 0.6〜0.75(服・背景) | 背景変更は高めに設定 |
まとめ:img2imgで画像を「育てる」感覚を身につけましょう
txt2imgが「ゼロから画像を生み出す」工程だとすれば、img2imgは「生み出した画像を自分好みに仕上げていく」工程です。
最初は設定値の多さに戸惑うかもしれませんが、実際に触ってみると意外とシンプルです。まず覚えるべきはたったひとつ、Denoising Strengthだけです。この数値を上げ下げするだけで、img2imgの感覚は一気につかめてきます。
Inpaintも同様で、最初は「背景だけ塗って再生成する」という一番シンプルな使い方から始めてみてください。「顔はそのままに、背景だけ別世界に変わった」という体験を一度でもすると、使い方のイメージが一気に広がるはずです。
設定値の全体像は、上記のリファレンス表をブックマークしておいてください。慣れてきたら少しずつ触れる項目を増やしていくのがおすすめです。
このシリーズの関連記事もあわせてどうぞ。
UruruAILab RTX 5070 / 50シリーズ対応!Stable Diffusion導入・設定完全ガイド|Blackwell世代を100%活かすStability … RTX 5070(Blackwell)対応!Stability Matrixを使ったStable Diffusionの導入・設定ガイド。Forge – Neoなら手動インストール不要で最新環境が整います 。RTX 3070 Tiとの…UruruAILab Stable Diffusion Forge「txt2img」の使い方|RTX 5070「最高画質」の最短ルート | UruruAILab RTX 5070(Blackwell)のパワーをフルに回す!Stable Diffusion Forgeの「txt2img」最適設定を徹底解説。DPM++ SDE Karrasを常用し、SDXLで10秒を切る爆速&高画質を両立す…UruruAILab Stable Diffusion 高画質化の最適解|Hires. fixとADetailerで理想の顔と質感を出す最短ルート | UruruAILa… RTX 5070でStable Diffusion Forgeを「最高画質」で使いこなす最短ルートを解説。Hires.fixとADetailerの推奨設定値を具体的に公開します。旧世代GPUで発生していた「仕上…




