VLM Token Optimization Toolkit

💰 トークンコスト削減実績

手法	画像サイズ	トークン数（GPT-4V）	月間コスト（100回/日）
フルスクリーン（1920×1080）	2.07MB	~1,700 tokens	$500+
24分割（1タイル）	~90KB	~170 tokens	$50
差分検知後（平均3タイル）	~270KB	~510 tokens	$150

削減率: 約70-90%（状況により変動）

このツールキットで解決できること

画像トークンコストの圧倒的削減: フルスクリーン送信から必要部分のみに絞り込み
VLM応答速度の向上: 処理する画像サイズを最小化することで応答時間を短縮
画面操作自動化の実用化: コスト削減により、VLMベースの自動操作が実用レベルに

🚀 構成ツール

1. Screen Capture 24Grid

目的: 画面を24分割し、必要なタイルのみを送信

主な機能:

画面を6×4の24タイルに分割
タイル番号での指定（左上=1、右下=24）
個別タイル or 複数タイル指定可能

# タイル7, 8, 13, 14（画面中央4枚）のみ取得
python screen_capture_24grid.py --tiles 7,8,13,14

2. Screen Diff Detector

目的: 前回との差分を検知し、変化があったタイルのみを送信

主な機能:

前回スクリーンショットとの差分を24分割単位で検知
変化があったタイルのみを抽出
差分閾値の調整可能

# 前回との差分を検知し、変化部分のみ送信
python screen_diff_detector.py --threshold 0.05

3. OCR Text Locator

目的: テキストの座標を取得し、該当タイルを特定

主な機能:

OCRでテキスト検出
テキストの画面上座標を取得
座標から該当タイルを逆算

# "送信"ボタンの座標を検出し、該当タイルを特定
python ocr_text_locator.py --text "送信"

🧠 設計思想：なぜ24分割なのか？

認知科学的根拠

人間の視覚認知: 人間が画面を見る際、一度に認知できる範囲は限定的
視線追跡研究: Webページやアプリ操作時、注目領域は全体の10-20%程度
Fの法則: 左上→右→左下の視線移動パターン

技術的最適化

6×4グリッド: 1タイル=320×270px（1920×1080の場合）
Claude Desktop統合: 既存のスクリーンショット機能と組み合わせ可能
柔軟性: 単一タイルから全24タイルまで自由に指定

差分検知アルゴリズム

1. タイル単位でのハッシュ比較

各タイルのピクセルデータをハッシュ化し、前回との差異を高速検出。

2. 変化閾値の調整

# 5%以上の変化があったタイルのみ送信
--threshold 0.05

3. 変化パターンの最適化

静的UI: ボタン・メニューなどの不変部分は送信不要
動的コンテンツ: テキスト入力欄、スクロール領域などのみ送信
アニメーション: 微小な変化は無視（閾値で調整）

📖 VLAプロジェクトの経緯

VLAとは

Claude（Vision Language Model）に画面を見せながら、PC操作を自動化するシステム。従来のRPA（画像認識ベース）と異なり、VLMが画面内容を「理解」して操作します。

課題：トークンコストの爆発

フルHD画面（1920×1080）を毎回送信すると、1回あたり1,700トークン
1日100回操作で17万トークン（月額$500超）
実用化には コスト削減が絶対条件

解決策：24分割+差分検知

Phase 1: 画面を24分割し、必要なタイルのみ送信（90%削減）
Phase 2: 差分検知で変化部分のみ送信（さらに削減）
Phase 3: OCRで特定テキスト周辺のみ送信（ピンポイント）

実装結果

トークン削減率: 70-90%
月額コスト: $500 → $50-150
VLM応答速度: 30-50%向上（画像処理時間の短縮）

量産体制との統合

このツールキットは、SPQR（Semi-autonomous Prototyping and Quality Refinement）システムの一部として開発されました。質先行量産手法により、実装→テスト→改良を高速サイクルで回し、3週間で実用レベルに到達しました。

🛠️ 使用例（実践）

ケース1: Webフォーム自動入力

# 1. 画面全体を24分割で確認
python screen_capture_24grid.py --tiles all

# 2. Claude: 「フォームは画面中央（タイル13, 14）にあります」

# 3. 該当タイルのみ送信
python screen_capture_24grid.py --tiles 13,14

# 4. Claude: 「氏名欄に入力してください」→ 入力実行

# 5. 差分検知で変化部分のみ確認
python screen_diff_detector.py --threshold 0.05

トークン削減: 1,700 tokens → 340 tokens（80%削減）

ケース2: 動的コンテンツの監視

# 1. 初回は全体を取得
python screen_capture_24grid.py --tiles all

# 2. 以降は差分のみ
while true; do
    python screen_diff_detector.py --threshold 0.05
    sleep 5
done

効果: 変化がない場合はトークン消費ゼロ

📦 インストール

必須環境

Python 3.8+
macOS（Claude Desktop統合の場合）
Linux/Windows（スタンドアロン使用可）

依存パッケージ

pip install pillow numpy opencv-python pytesseract

Tesseract OCRのインストール（OCR使用時）

# macOS
brew install tesseract

# Ubuntu/Debian
sudo apt-get install tesseract-ocr

🚀 今すぐ始める

GitHubリポジトリから最新版をダウンロードして、VLM自動化のトークンコストを90%削減しましょう。

GitHubで見るダウンロード