メインコンテンツまでスキップ

Google ColabをOllamaサーバーとして使えるノートブック「Ollama Colab Free Server」をリリースしました

· 約3分
hiroaki
Individual Developer
当サイトがお役に立ったら ⭐️ の応援お願いします🙏
Star on GitHub

本日、Google Colabの無料GPU上でOllamaを動かし、Claude CodeやContinueのバックエンドとして即座に利用できるオープンソースノートブック Ollama Colab Free Server を公開しました。セルを上から実行するだけで、数分以内に外部公開LLMサーバーが立ち上がります。

背景

Claude CodeやContinueなどのコーディングアシスタントは便利ですが、APIコストが積み上がる点と、コードを外部サービスに送ることへのプライバシー面の懸念が気になる場面があります。かといって、手元のGPUが非力だとローカルOllamaの推論は実用速度に届きません。

このノートブックはそのギャップを埋めます。Google Colabの無料T4 GPUでOllamaを動かし、ngrokでエンドポイントを公開することで、セットアップ不要・完全無料・外部へのデータ送信なしのLLMサーバーをブラウザだけで立てられます。

主な機能

コードを書かずに完結する設計になっています。最初のセル(Model Registry)でモデル名をカンマ区切りで入力・編集し、表示されるラジオボタンから使いたいモデルを選ぶだけです。

次のセル(Server)にngrokのトークンを貼り付けて実行すると、Ollamaのインストール、サーバー起動、ngrokトンネルの確立、モデルのpullが順番に自動実行されます。完了後は接続に必要なエンドポイントURLと、ContinueおよびClaude Code向けの設定スニペットがそのままターミナルに出力されます。

OpenAI互換クライアント(Codex CLI等)への対応も考慮しており、ベースURLの末尾に /v1 を追加するだけで利用できます。

接続できるツール

  • Continue(VS Code / JetBrains 拡張): apiBase にエンドポイントURLを指定するだけ
  • Claude Code: ANTHROPIC_BASE_URL にエンドポイントを設定して利用(Ollama v0.14.0以降はAnthropicプロトコルにネイティブ対応)
  • OpenAI互換クライアント: エンドポイントURL + /v1 で接続

T4環境でのモデル選定の目安

Google ColabのT4 GPUで実用的に動作するのは8Bから14Bのモデルです。20B以上は生成速度が大幅に落ちるため、用途に合わせたサイズ選定をおすすめします。どのモデルが自分のユースケースに合うかを事前に確認したい場合は、Ollama Multi-Model Benchmarkerも活用してみてください。

使い始める

環境構築は不要です。ngrokの無料アカウントと認証トークンだけ用意してください。

フィードバックやPull Requestはいずれも歓迎します。

技術的な詳細

アーキテクチャや実装の詳細については、以下のドキュメントにまとめています。

当サイトがお役に立ったら ⭐️ の応援お願いします🙏
Star on GitHub