モデル管理

LLM サーバ・モデル・GPU を管理画面から一元管理します。

対象:管理者必要権限:管理者ロールエディション:Ollama / vLLM

できること

区分	モデルの供給
Ollama 版	ローカルにダウンロードしたモデル
vLLM 版	GPU サーバで提供するモデル（既定: チャット `Qwen/Qwen3-4B`、埋め込み `intfloat/multilingual-e5-large-instruct`。初回起動時に自動ダウンロード）
クラウド LLM 併用	OpenAI / Anthropic / Gemini（API キー）

vLLM 版では、用途別に 3 つの推論サーバー を個別に管理できます。

管理画面から、サーバーごとに次の操作を行えます。

vLLM サーバーに対して、スループット・レイテンシなどの推論性能を計測できます。GPU 構成やモデル選定の判断に使います。

サーバ側でモデルを取得すると、チャットの一覧に表示されます。

ollama pull gemma3:4b
ollama pull nomic-embed-text   # RAG 用 埋め込み

補足

チャットに表示されるモデル一覧は、サーバ側の対応に従います。ツール呼び出しの可否もサーバ側の対応次第です（vLLM 版では .env の VLLM_EXTRA_ARGS_CHAT でツール呼び出しを有効化します）。環境変数による自動起動と、管理画面からの管理を併用できます。