AI-VTuber-System - ツール詳細

初心者向け GUI アプリ

AI-VTuber-System

「誰でも無料で自分の AI VTuber を作れる」をコンセプトにした GUI 専用アプリ。コマンドライン不要で直感的に操作でき、Whisper 音声認識と Gemini 無料枠を組み合わせて低コストで本格的な AI VTuber 配信を実現できます。

★ 112

Python / GUI 技術構成

Windows 専用 対応OS

MIT ライセンス

GitHub で見る YouTube チュートリアル

概要

AI-VTuber-System は「誰でも無料で自分の AI VTuber を作れる」をコンセプトに開発された、 GUI ベースの AI VTuber 構築ツールです。コマンドラインの操作が一切不要で、ダウンロードして設定するだけで配信を始められます。

Whisper による高精度な音声認識、Gemini の無料枠を活用したコスト0円のAI応答、 VTube Studio との連携によるアバター制御を組み合わせ、 NVIDIA GPU を持っているユーザーが手軽に始められる構成になっています。 YouTube で丁寧なチュートリアル動画も公開されており、初心者でも安心です。

GUI アプリ Gemini 無料枠対応 Whisper 音声認識 VTube Studio 連携 NVIDIA GPU 必須 Windows 専用

主な特徴

🖥️

GUI アプリ（コマンドライン不要）

すべての設定をウィンドウ上で操作。ターミナルを触らなくても「ボタン一つ」で配信開始できる。

🎭

VTube Studio 連携

VTube Studio と API 連携し、音声に合わせてアバターの口パクや表情を自動制御できる。

🎤

Whisper 音声認識

OpenAI Whisper をローカルで実行。視聴者の音声コメントや自分の発声をテキストに変換できる。

💡

Gemini 無料枠対応

Google Gemini の無料枠を活用すれば、LLM 費用を0円に抑えた運営が可能。

📹

YouTube 配信対応

YouTube Live のチャット読み取りと自動応答に対応。配信者として AI VTuber を運営できる。

🎬

YouTube チュートリアルあり

開発者が丁寧なセットアップ動画を YouTube で公開。詰まった際の参考にしやすい。

メリット・デメリット

メリット

GUI 操作で初心者でも始めやすい
Gemini 無料枠で月0円運営が実現可能
YouTube チュートリアルで詰まりにくい
Whisper でリアルな音声認識が可能
VTube Studio と手軽に連携できる

デメリット

NVIDIA GPU が必須（Mac・GPU 非搭載 PC は使用不可）
Windows 専用（Linux / macOS では動作しない）
コミュニティが小規模でサポートが限定的
PNGtuber 非対応（Live2D / VTubeStudio 形式のみ）
TikTok・Twitch など他プラットフォームは非対応

システム要件

OS	Windows 10/11 専用（Linux・macOS は非対応）
GPU	NVIDIA GPU 必須（CUDA 12.1 対応。推奨：RTX 3060 以上）
CPU	Core i5 / Ryzen 5 以上推奨
RAM	16GB 以上推奨（Whisper medium 使用時は 24GB 以上が快適）
ストレージ	SSD 推奨。Whisper モデルで 1〜10GB 消費（モデルサイズによる）
VTube Studio	Steam 版（無料）または iOS/Android 版。PC 上で起動が必要
OBS	OBS Studio（任意。配信には必要）
Python	事前インストール不要（同梱 or インストーラーで自動導入）

Whisper モデル別 GPU VRAM 目安

モデル	VRAM 目安	精度	速度	推奨用途
tiny	約 1GB	低	最速	低スペックPC での試用
small	約 2GB	中	速い	GTX 1060 など旧世代でも動作
medium	約 5GB	高	普通	RTX 3060 / 3070 推奨（バランス型）
large	約 10GB	最高	遅い	RTX 3080 / 4080 以上向け

料金・コスト目安

最安構成

Gemini 無料枠 + ローカル Whisper

余裕を持った構成

$5〜20

Gemini 有料プラン（超過時）

Gemini 無料枠について： Gemini 1.5 Flash は1分あたり15リクエスト・1日1,500リクエストが無料です。通常の配信であれば無料枠内に収まるケースが多く、実質0円での運営が可能です。本ツール自体はオープンソース・無料で利用でき、商用利用制限もありません。

導入手順

NVIDIA ドライバーと CUDA の確認

NVIDIA GPU のドライバーを最新版に更新し、CUDA 12.1 がインストールされていることを確認します。 nvidia-smi コマンドで CUDA バージョンを確認できます。

PyTorch（CUDA 対応版）のインストール

Whisper を GPU で動かすために、CUDA 対応の PyTorch をインストールします。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

GitHub Releases からアプリをダウンロード

GitHub の Releases ページから最新の ZIP ファイルをダウンロードし、任意のフォルダに展開します。インストーラー形式のため、追加の Python 環境構築は不要です。

VTube Studio の準備

Steam または PC 版の VTube Studio を起動し、設定から API（プラグイン）を有効化します。ポート番号をメモしておきます（デフォルト：8001）。

GUI アプリを起動して設定

アプリを起動すると設定画面が表示されます。Gemini API キー・YouTube チャンネル ID・ Whisper モデルサイズ・VTube Studio の接続情報を入力します。

「配信開始」ボタンを押す

設定完了後、GUI の「配信開始」ボタンを押すだけで AI VTuber が起動します。 OBS でキャプチャすれば YouTube Live への配信が開始されます。

運営イメージ

GUI で設定を完了したら、ボタン一つで配信が始まります。 Whisper がリアルタイムで音声認識し、Gemini が自然な応答を生成、 VTube Studio のアバターが口パクで反応する流れが完全自動で動作します。

💬

チャット入力

視聴者が YouTube Live にコメントを送信

🤖

Gemini で応答

無料枠の Gemini がキャラクターとして返答を生成

🔊

TTS で音声化

テキストを音声に変換してスピーカーから出力

🎭

VTubeStudio

音声に連動してアバターの口・表情が動く

こんな人におすすめ