ChatGPTやClaudeのようなクラウドAIは、とても便利です。一方で、社内資料や個人的なメモなど、外部サービスに送る前に少し慎重になりたい情報もあります。そこで注目されるのが、自分のパソコン上でAIモデルを動かす「ローカルLLM」です。
今回、Obsidianに残していた作業メモをもとに、Windows PCでLM Studioを使い、GoogleのGemmaとQwenを組み合わせる実験を整理しました。単にAIとチャットするだけではなく、Gemmaに文章を書かせ、Qwenに批評させ、もう一度Gemmaで直すという「Writer / Critic」構成まで試しています。
ローカルLLMとは何か
ローカルLLMとは、インターネット上のAIサービスだけに頼らず、自分のパソコンや社内サーバー上で動かす大規模言語モデルのことです。すべての用途でクラウドAIの代わりになるわけではありませんが、入力した内容を手元の環境で処理しやすい、通信環境に左右されにくい、モデルや設定を試しやすいという良さがあります。
特に、社内FAQ、議事録の下書き、定型文の作成、資料の分類、簡単なコード補助のような用途では、最先端モデルでなくても十分役立つ場面があります。重要なのは「何でも最高性能AIに任せる」のではなく、用途に合わせてクラウドAIとローカルLLMを使い分けることです。
今回使った環境
今回のメモでは、Windows PCにLM Studioを入れて試しています。GPUはNVIDIA GeForce RTX 3080 Ti、VRAMは12GB、RAMは16GBです。高価なAI専用サーバーではなく、少し強めのゲーミングPCに近い環境です。
LM Studioは、ローカルAIモデルを探してダウンロードし、チャットしたり、ローカルサーバーとして呼び出したりできるアプリです。公式サイトでも、Gemma、Qwen、DeepSeekなどのモデルを手元のハードウェアで動かせることが紹介されています。
最初にGemmaをダウンロードする
最初のモデルとして、LM Studio上で google/gemma-4-e4b を選びました。いきなり大きなモデルを入れるより、まずは軽めのモデルで「ローカルでちゃんと動く」ことを確認するのが安心です。
ローカルLLMを初めて試すときは、モデル名やサイズに圧倒されがちです。迷ったら、まずはLM Studioの画面上で扱いやすいサイズのモデルを選び、チャットが動くところまで進めるのがよいと思います。
初期設定はシンプルにする
次にAdvanced Settingsを確認しました。最初はDeveloper Modeをオフにし、Start local LLM service on loginをオンにしています。最初から細かい開発者向け設定を触りすぎるより、まずは普段使いのチャットとして動かすことを優先しました。
ローカルLLMは、難しい設定をしないと使えないものと思われがちです。しかしLM Studioのようなアプリを使うと、まずは普通のチャットアプリに近い感覚で始められます。この入り口の低さは、これから社内でAIを試したい人にとって大きな利点です。
日本語で応答するかを確認する
モデルを入れたら、New Chatから日本語で短く話しかけます。ここでは「こんにちは。日本語で短く自己紹介して。」のような簡単なプロンプトで十分です。目的は性能評価ではなく、まず日本語で自然に返ってくるかを確認することです。
この段階で大事なのは、「AIが自分のPCの中で動いている」という感覚をつかむことです。クラウドAIのように外部のサービスへ質問を送るのではなく、ダウンロードしたモデルを手元で動かしている点が大きく違います。
Gemma 12Bも追加してみる
次に、より大きめの google/gemma-4-12b-qat も追加しました。12Bクラスになると、文章作成や推論の安定感が上がる可能性があります。ただし、モデルが大きくなるほど必要なメモリも増えるため、パソコンの性能に合わせて選ぶ必要があります。
ここでの考え方は、スマホのアプリ選びに少し似ています。軽いモデルは速くて扱いやすく、大きなモデルは賢い可能性があります。その代わり、動かすための負荷も上がります。まずは軽いモデルで慣れ、必要に応じて大きなモデルを試すのが現実的です。
Local Serverを起動する
ローカルLLMを「チャット相手」から「自動処理の部品」に変えるには、LM StudioのLocal Server機能を使います。Developer画面からLocal Serverを起動すると、手元のPC上にAPIの窓口ができます。
LM Studioの公式ドキュメントでは、ローカルサーバーを localhost で動かし、OpenAI互換の形式で呼び出せることが説明されています。これにより、既存のPythonやJavaScriptのコードから、クラウドAPIに近い書き方でローカルモデルを呼び出せます。
GemmaをWriter、QwenをCriticにする
今回の実験で一番面白かったのは、複数のモデルに別々の役割を持たせることでした。GemmaをWriter、つまり下書き担当にします。そしてQwenをCritic、つまり批評担当にします。
流れはとてもシンプルです。まずGemmaが文章を書く。次にQwenが「日時が曖昧ではないか」「読者が迷わないか」「必要な情報が抜けていないか」をチェックする。最後にGemmaが、その批評をもとに文章を直す。人間の編集作業でいう「書く、見る、直す」を、ローカルPC上だけで回すイメージです。
題材として使ったのは、町内会の公園清掃のお知らせ文です。Gemmaは自然な文章を作れましたが、「来週土曜」が具体的に何日なのか、場所はどこなのか、雨天時はどうするのか、といった実用面には不足がありました。Qwenに批評させると、そうした抜けが見えやすくなりました。
ローカルLLMだけで記事を書くときの注意点
Obsidianのフォルダには、Qwen単体で書かせた記事や、Writer/Critic構成で作った記事の比較メモも残っていました。そこから分かったのは、ローカルLLMは下書き作成にはかなり使える一方で、そのまま公開するには人間の確認が必要だということです。
特に注意したいのは、実際には試していない例が混ざることです。文章としては自然でも、作業記録としては事実と違う内容になる場合があります。今回も、公開用としては「実際の手順とスクリーンショットに合っている版」を土台にし、生成AIが作った別稿は、発見や注意点を補う材料として扱うのがよいと判断しました。
小さな会社ほど試す価値がある
ローカルLLMは、大企業だけのものではありません。中小企業でも、社内の定型文作成、議事録の整形、FAQのたたき台、資料の分類、ちょっとしたコード補助など、クラウドに出しにくい作業の一部を手元で試せます。
もちろん、すべてをローカルLLMに置き換える必要はありません。最新情報の調査や高度な判断が必要な場面では、クラウドAIの方が向いていることも多いです。逆に、社内データを扱う下準備や、何度も繰り返す小さな作業には、ローカルLLMが合うことがあります。
まとめ:ローカルLLMは自分のPCに置く小さなAIチーム
今回の実験では、LM Studioを使ってGemmaを動かし、日本語応答を確認し、Local Serverを起動し、Qwenを批評役として組み合わせました。到達点は、1つのAIに全部任せるのではなく、複数モデルに役割を与えて文章制作の流れを作ることです。
ローカルLLMは、クラウドAIの代替というより、手元に置けるもう一つの選択肢です。外部に出したくない情報を扱うとき、同じ処理を何度も試したいとき、自分だけのAI作業環境を育てたいときに、かなり面白い道具になります。GemmaとQwenを使ったWriter/Critic構成は、その最初の一歩としてちょうどよい実験でした。

コメント