AIにブラウザを操作させる方法｜Claude・ChatGPT・Geminiを「3つの型」で整理する【2026年6月版】

業務をしていると、ブラウザ操作はけっこうな頻度で出てきます。管理画面にログインして数字を拾う、フォームに入力する、スクショを撮る、複数サイトを横断して調べる──地味なのに時間を食う作業です。最近は、この「ブラウザ操作そのもの」をAIに任せられるようになってきました。ただ、その方法が2026年に入って一気に増え、しかも種類がバラバラです。「Googleのやつ」「Claudeのやつ」「ChatGPTのブラウザ」、どれも“AIがブラウザを操作する”点では同じに見えるのに、中身も向く用途もリスクも違います。この記事は、その違いを各社の公式情報で裏取りしながら整理する見取り図です。結論から言うと、「何に乗せて動かすか」で3つの型に分けて考えると、一気に見通しが良くなります。

なお、ここで挙げる提供状況・料金・モデル名は変化が速い領域です。本記事は2026年6月時点のスナップショットとして読んでください。型の枠組み自体は、しばらく使えるはずです。

まず、用語を3つだけ整理する

ごちゃつきやすい言葉を、先に整理しておきます。厳密な定義というより「だいたいこういう使い分け」という整理です。

AIブラウザ：AI機能（自然言語での検索・要約・自動化）を最初から組み込んだ「ブラウザ本体」。例：ChatGPT Atlas、Perplexity Comet。
ブラウザエージェント（agentic browsing）：ユーザーの代わりにクリック・入力・遷移・複数ステップ作業を自律実行する「機能」。AIブラウザにも拡張にも載りうる。
ブラウザ拡張アシスタント：いま使っているブラウザに後付けする操作レイヤー。例：Claude in Chrome（Chrome拡張）。

つまり「AIブラウザ」は“箱（ブラウザ）”の話、「ブラウザエージェント」は“中身（自律操作する能力）”の話で、レイヤーが違います。この区分は業界の比較記事で使われる整理であって、各社が公式に定義しているわけではありません。あくまで傾向として捉えてください。

全体像：ブラウザ操作には「3つの型」がある

細かいプロダクトに入る前に、まず地図を1枚。AIにブラウザを操作させる手段は、「何に乗せて動かすか」で次の3つに分けられます。

型①：既存ブラウザに“乗せる”型（拡張・組み込み） いま使っているブラウザにそのまま追加して使う。ログイン済みの画面をそのまま操作できるので、導入のハードルが低い。例：Claude in Chrome（拡張）、Gemini in Chrome / auto browse（Chrome組み込み）、Edge の Copilot。
型②：AIブラウザ型（ブラウザ自体がAI中心） ブラウザごと乗り換えるタイプ。AI前提のUIで、タブをまたいだ文脈を使った調べ物や日常作業に強い。例：ChatGPT Atlas、Perplexity Comet、Dia。
型③：プログラム制御型（開発者・自動化向け） コードやエージェントからブラウザを操作する。反復作業の自動化・再現性が高く、ツール化に向く。私たちカラフルボックスが社内でやっているブラウザ操作（Claude Code から Chrome を動かすやり方）は、ここに当たります。例：Chrome DevTools（CDP）、Anthropic の Computer use、Playwright / Puppeteer。

ざっくり言うと、左（①）に行くほど手軽、右（③）に行くほど作り込み・自動化に強い、というグラデーションです。

型①：既存ブラウザに“乗せる”型

Claude in Chrome（Anthropic）

Anthropic（Claudeを作っている会社）のChrome拡張です。サイドパネルで動いて、画面の読み取り・クリック・サイト遷移・フォーム入力・複数タブの同時操作・複数ステップ作業ができます。

Claude for Chrome can navigate, click, and fill forms in your browser. （Claude for Chrome は、ブラウザ上でのナビゲーション・クリック・フォーム入力ができる）

— Anthropic 製品ページ「Claude for Chrome」

提供の経緯を時系列で並べると、こうなります（すべて公式情報）。

2025年8月25日：リサーチプレビューとして発表。当初は Maxプランの1,000名 にウェイトリスト経由で限定提供。
2025年11月24日：約3か月のテストを経て、Maxプラン加入者全員 にベータ提供。
2025年12月18日：Pro / Team / Enterprise にも拡大。
2026年4月時点（公式サポート記事）：全有料プラン（Pro / Max / Team / Enterprise）向けにベータ提供中。無料プランは対象外で、一般提供（GA）ではなくまだベータ段階。

使えるモデルはプランで変わります（2026年6月時点・公式サポート記事）。Pro は Haiku 4.5 のみ、Max / Team / Enterprise は Opus 4.7・Sonnet 4.6・Haiku 4.5 から選択できます。SlackやGmail、Googleカレンダー、GitHubなど主要サイト向けの操作知識をあらかじめ持っていたり、よく使う手順を記録して使い回せたり、定期タスクのスケジュール実行ができたりします。Claude Code / Claude Desktop と連携して、「ターミナルでビルド → ブラウザで動作確認」のような流れにも使えます。

Gemini in Chrome / auto browse（Google）

Googleは、Chromeそのものにエージェント機能を組み込む方向で動いています。その自律ブラウズ機能の正式名称が「auto browse」です。

基盤は Gemini 3。Web上の複数ステップ作業（サイト遷移・フォーム入力・自動ログイン・比較・予約・カート追加など）を自律実行する。
2026年初頭（報道では1月下旬） に、米国のデスクトップ版Chrome（Windows / macOS / Chromebook Plus）でプレビュー提供を開始。
利用には 有料の Google AI Pro または AI Ultra 加入が必須（無料版は対象外）。さらに 米国在住・英語（English-US）・18歳以上・個人Googleアカウント が条件。
利用上限は AI Ultra が1日200リクエスト、AI Pro が1日20リクエスト。
2026年5月にAndroid版（Gemini 3.1ベース、6月下旬から展開）も発表。

安全面では、実行前にGeminiが使う「計画（plan）」を確認させたり、機微なステップは都度承認させたり、サイト認証時のパスワード利用を許可制にしたりという仕組みが入っています。一方で公式は、タスク中のGeminiの動作（誤りを含む）の責任はユーザーにあるとしています。

なお、この流れの前身が Project Mariner（2024年12月発表の研究プロトタイプ）です。Mariner は2025年5月のGoogle I/Oで強化版（最大10タスク同時実行、米国 AI Ultra 限定）になり、その「コンピュータ操作能力」は公式に Gemini API へ統合 されました。Mariner 自体は2026年5月4日に静かに終了しています──ただしこれはGoogleの正式発表ではなく、ランディングページに残された一文と報道によるもので、現在 Mariner の公式ページはたどっても製品提供は終わり、終了の告知（Gemini側への案内）に置き換わっています。「Chromeの auto browse は Mariner の直系の後継」と言いたくなりますが、Google が公式に明言しているのは「Mariner → Gemini API」までで、auto browse との直接の系譜までは公式には書かれていない点は、正確を期すなら押さえておきたいところです。

なお Microsoft Edge にも Copilot が標準で組み込まれていて、これも型①の仲間です（本記事では深追いしません）。

型②：AIブラウザ型

ChatGPT Atlas（OpenAI）

OpenAIが、ChatGPTを中核に据えて作ったブラウザです。

2025年10月21日に発表・提供開始。エンジンは Chromium（Blink） ベースで、OpenAI独自の「OWL（OpenAI's Web Layer）」という統合層を使っている。
2026年6月時点でも提供は macOS のみ。Windows / iOS / Android は「coming soon（近日提供）」のまま。
利用自体は Free / Plus / Pro / Go で可能（Businessはベータ）。ただし後述の「エージェントモード」は Plus / Pro / Business 向けにプレビュー提供。

主な機能は3つ。どのページからでも呼べる「Ask ChatGPT」サイドバー、訪問したサイトの文脈を覚えておく「Browser memories」、そしてChatGPTが代わりに操作する「エージェントモード（agent mode）」です。

エージェントモードには安全策があり、ブラウザ内でのコード実行・ファイルダウンロード・拡張機能インストールはできず、他のアプリやファイルシステムにもアクセスできません。金融機関などセンシティブなサイトでは操作を一時停止します。パスワードを渡さず認証済みセッションに触らせない「logged out mode」が用意されているほか、送信・支払いなど重要な操作の前には確認を求める仕組みもあります。

ちなみに2026年3月、OpenAIは Atlas・ChatGPTデスクトップアプリ・Codex を単一のデスクトップアプリに統合する方針を発表しています。Atlasの基盤となる具体的なGPTモデル名は、公式には明示されていません。

Perplexity Comet

検索AIのPerplexityが出したエージェント型ブラウザです。こちらもChromiumベース。

2025年7月9日に提供開始。当初は 月額200ドルの最上位プラン「Max」加入者を最優先＋待機リストの招待枠 という段階的な出し方だった。
2025年10月2日に 待機リストを廃止して全世界・全ユーザーに無料開放（その後、上位の有料ティアも追加されている）。
中核は「Comet Assistant」。タブ横断の要約・検索、メールやカレンダーの要約、フォーム入力や買い物などをユーザーに代わって自律実行する。

Dia（The Browser Company）

Arcを作った The Browser Company の新しいAIブラウザです。2025年10月8日にmacOS（macOS 14以上・M1チップ以降）で一般提供になりました。優先事項の提示や次の行動の提案、GSuite / Slack / Notion などツール横断の情報集約が特徴です。

業界の動きとして、2025年9月4日に Atlassian が The Browser Company を6.1億ドル（全額現金）で買収すると発表し、2025年10月に買収を完了 しています。AtlassianはDiaを「SaaS業務に最適化した仕事用ブラウザ」へ育てる方針で、ここは“業務用AIブラウザ”として今後の注目どころです（Arcは実質的にメンテナンス中心になっています）。

型③：プログラム制御型（社内の現行手法はここ）

ここが、いまカラフルボックスで実際にやっているやり方に直結する型です。「AIに画面をポチポチさせる」というより、コードやエージェントからブラウザを“プログラムとして”動かす世界です。再現性が高く、決まった作業の反復・自動化・ツール化に向きます。

Chrome DevTools Protocol（CDP）と chrome-devtools MCP ← 社内の現行手法

Chrome DevTools Protocol（CDP） は、Chromeを外部からプログラムで制御・検査・デバッグするためのプロトコルです。これ自体は昔からある“土台”の技術で、Puppeteer・Playwright などの自動化フレームワークもこの上に立っています。

その上で、chrome-devtools MCP という、Googleの Chrome DevTools チームが出している 公式のMCPサーバー があります（2025年9月23日にパブリックプレビューとして発表）。公式リポジトリの説明では Puppeteer を使ってChromeを自動化するとされており（Puppeteer は内部でCDPを利用しています）、ライブのChromeを制御・検査して、Claude Code などのコーディングエージェントにつなぎます。

Chrome DevTools for agents (chrome-devtools-mcp) lets your coding agent (such as Antigravity, Claude, Cursor or Copilot) control and inspect a live Chrome browser. （chrome-devtools-mcp は、コーディングエージェント（Antigravity、Claude、Cursor、Copilot など）が稼働中のChromeブラウザを制御・検査できるようにする）

— Chrome DevTools チーム公式リポジトリ（GitHub）

カラフルボックスの社内では、これを使って専用のChromeプロファイル（ログイン済み）に接続し、STUDIO・Notion・Gmail などの画面をClaude Codeから操作しています。ログイン状態をそのまま使えるうえ、手順を決めて自動化できるのが強みです。

Computer use（Anthropic）

Anthropic が API で提供している機能で、Claudeがスクリーンショットで画面を“見て”、カーソル移動・クリック・テキスト入力を行う、人間と同じやり方のGUI操作です。

Claude can interact with computer environments through the computer use tool, which provides screenshot capabilities and mouse/keyboard control for autonomous desktop interaction. （Claudeは computer use ツールを通じてコンピュータ環境とやり取りできる。これはスクリーンショット取得とマウス/キーボード制御を提供し、自律的なデスクトップ操作を可能にする）

— Anthropic 公式ドキュメント「Computer use」

2024年10月22日に Claude 3.5 Sonnet とともに初公開され、いまもベータ（利用にはベータヘッダーが必要）です。Anthropic API のほか Amazon Bedrock / Google Cloud Vertex AI でも使えます。ブラウザ専用のChrome拡張「Claude in Chrome」とは別物で、computer use は 画面さえ見られればブラウザ以外のデスクトップアプリも操作できる のが特徴です。CDP系の“ブラウザ専用”との対比はあくまで本記事の整理で、Anthropicが公式にそう定義しているわけではない点だけ補足しておきます。

Playwright / Puppeteer

従来からあるブラウザ自動化ライブラリです。Playwright はMicrosoft、Puppeteer はGoogleのChromeチームが保守しています。コードで「ここをクリック、ここに入力」と手順を書いて決定論的に動かすもので、E2Eテストやスクレイピングの定番です。

型③の中でもここは性格が違って、「AIが状況を見て判断する」のではなく「人が書いた手順どおりに正確に動く」タイプです。だから自律度は低いけれど、再現性は抜群です。

横断で見る：比較表

主要プロダクトを表で並べておきます（2026年6月時点・各社公式情報ベース）。頭の中の地図としては、横軸が「手軽さ↔作り込み」、縦軸が「自律度（どこまで任せられるか）」の2軸で置くと整理しやすくなります。型①は手軽さ寄り、型③は作り込み寄り。Playwright / Puppeteer は自律度が低く再現性が高いので“右下”、AIブラウザのエージェントモードは“自律度が高い”ゾーンに入ります。

製品	型	提供元	入手方法	料金・対象	自律操作	現状（2026/6）
Claude in Chrome	①	Anthropic	Chrome拡張	全有料プラン（無料は対象外）	あり（サイドパネル）	全有料プランにベータ
Gemini in Chrome / auto browse	①	Google	Chrome組み込み	AI Pro/Ultra・米国・英語のみ	あり（auto browse）	米国デスクトップでプレビュー
Edge の Copilot	①	Microsoft	Edge組み込み	Edge標準	一部あり	提供中
ChatGPT Atlas	②	OpenAI	専用ブラウザ	macOSのみ・無料利用可（エージェントはPlus等）	あり（agent mode）	macOS版のみ
Perplexity Comet	②	Perplexity	専用ブラウザ	無料で利用可（有料ティアもあり）	あり（Comet Assistant）	提供中
Dia	②	The Browser Company	専用ブラウザ	macOSのみ	あり（補助寄り）	提供中（Atlassian傘下）
Chrome DevTools / CDP	③	Google（公式MCP）	コード/エージェント	無料（要セットアップ）	エージェント次第	社内の現行手法
Computer use	③	Anthropic	API	従量課金	あり（画面を見て操作）	ベータ
Playwright / Puppeteer	③	Microsoft / Google	コード	無料（OSS）	なし（手順を書く）	安定提供

共通の落とし穴：プロンプトインジェクション

型が違っても、ブラウザを自律操作させるAI全部に共通する最大級のリスクがあります。プロンプトインジェクションです。

これは、Webページの中に仕込まれた“AI向けの悪意ある指示”に、AIが従ってしまう攻撃です。OWASP は2025年版のLLMリスクで、これを 第1位（LLM01） に挙げています。特に、Webページやファイル経由で外部から指示が入り込む「間接プロンプトインジェクション」が厄介で、ログイン済みのセッションをまたいで、送信・購入・情報漏洩といった実害につながりえます。

各社もここは正直に認めています。Anthropic は、Claude for Chrome の発表時に具体的な数字を出しました。

Browser use without our safety mitigations showed a 23.6% attack success rate when deliberately targeted by malicious actors. When we added safety mitigations to autonomous mode, we reduced the attack success rate of 23.6% to 11.2%. （安全緩和策なしのブラウザ利用は、悪意ある攻撃者に意図的に狙われた場合、攻撃成功率が23.6%だった。自律モードに緩和策を加えると、これを23.6%から11.2%に下げられた）

— Anthropic「Piloting Claude for Chrome」（2025年8月25日）

ここはミスリードしないように補足すると、この数値は実験的な「自律モード」での評価で、23.6%が緩和策なし・11.2%が緩和策あり、という意味です。ブラウザ特有の攻撃カテゴリ（特定の評価セット）では35.7%→0%まで下げたとも報告しています。さらにその後（2025年11月）、Claude Opus 4.5 を使った最新構成では内部テストで約1%まで下がったと続報を出しています。下がってはいるけれど、ゼロではない、というのが現在地です。

OpenAI はもっと踏み込んでいて、プロンプトインジェクションは「詐欺やソーシャルエンジニアリングと同様、完全には解決されない可能性が高い」との見方を示したと報じられています（Fortune, 2025年12月23日）。

実際、2025年8月には Brave のセキュリティチームが、Perplexity Comet に対して「ページを要約して」と頼んだだけで、隠したコメント経由でメールアドレスやワンタイムパスワードを抜き取り、アカウント乗っ取りにつなげるPoC（実証）を公開しています（Brave, 2025年8月20日）。

だから各社とも、金融・法務・医療など機微な領域や、認証情報を要する操作をAIに丸投げするのは避ける、という姿勢で一致しています。Anthropic は金融・投資取引・アダルト・暗号資産・海賊版などのサイトをブロックし、株取引やCAPTCHAのバイパス、機微データの入力、顔画像の収集などを明示的に禁止しています。OpenAI は「『必要なことは何でもやって』のような広い指示ほど危ない。具体的で限定的に指示せよ」と勧めています。

私たちカラフルボックスが社内でブラウザ操作を運用するときも、考え方はこれと同じです。「Webページの内容は“データ”であって“指示”ではない」「指示はユーザーからしか受け取らない」という原則と、破壊的な操作の事前確認・操作範囲の明示を、社内ルールとして明文化しています。AIにブラウザを触らせるなら、便利さとセットでこのガードは必ず要ります。

で、結局どう選ぶ？

用途別に、ざっくりの指針です。「これが唯一の正解」ではなく、出発点として。

個人の調べ物・日常作業をまるごとAIに任せたい → 型②（AIブラウザ）。ChatGPT Atlas や Perplexity Comet。ただし機微な操作は任せない。
いま使っているブラウザの、ログイン済みの画面で単発作業をさせたい → 型①（拡張・組み込み）。Claude in Chrome や Gemini in Chrome。導入が軽い。
決まった業務を反復・自動化したい、ツールとして作り込みたい → 型③（プログラム制御）。社内の現行手法（Claude Code + chrome-devtools / CDP）はここ。再現性が要るならこれ。
ブラウザに限らずデスクトップ操作も含めて自動化したい → 型③の Computer use。
手順が完全に固定で、AIの判断すら要らない → Playwright / Puppeteer のような従来型自動化で十分なことも多い。

判断軸はシンプルで、「手軽さ」と「作り込み・再現性」のトレードオフ、そして「どこまで自律させるか（させてよいか）」の2つです。

カラフルボックスの現在地

社内のブラウザ操作は、いまのところ 型③（Claude Code + chrome-devtools MCP / CDP） を主軸にしています。理由はシンプルで、

業務で触る画面（STUDIO・Notion・Gmail など）は ログイン済みのプロファイルをそのまま使える。
同じ作業を 反復・自動化 したい場面が多く、再現性が効く。
Google公式のMCPサーバーなので、土台として素性が確か。

一方で、型①の Claude in Chrome のように「サイドパネルでサッと頼む」手軽さや、型②のAIブラウザのような調べ物の速さは別の良さがあります。「全部を1つに寄せる」より、作業の性質で型を使い分けるのが現実的だと考えています。どの型でも、プロンプトインジェクションへのガード（指示はユーザーからのみ・破壊操作は事前確認）は共通で外せません。

まとめ

AIにブラウザを操作させる方法は、「何に乗せて動かすか」で3つの型に分けると見通しが良い。
- 型①：既存ブラウザに乗せる（拡張・組み込み）── Claude in Chrome、Gemini in Chrome / auto browse。
- 型②：AIブラウザ（ブラウザ自体がAI中心）── ChatGPT Atlas、Perplexity Comet、Dia。
- 型③：プログラム制御（開発・自動化）── CDP/chrome-devtools（社内現行）、Computer use、Playwright。
左（①）ほど手軽、右（③）ほど作り込み・再現性。縦軸の「自律度」とあわせて選ぶ。
2026年は Google が auto browse をChromeに組み込み、Anthropic が Claude in Chrome を全有料プランへ拡大、OpenAIがAtlasを出すなど、各型で動きが激しい。
型を問わず共通の最大級のリスクは プロンプトインジェクション。各社も「完全には解決しない」前提で、機微な操作は任せない方針。ガードは必須。
カラフルボックスは型③を主軸にしつつ、作業の性質で使い分けるのが現実的。

新しいものが毎月のように出てくる領域なので、この記事も「2026年6月時点のスナップショット」として読んでください。型の枠組み自体は、しばらく使えると思います。

カラフルボックスの Scale Works では、Claude / Claude Code を使った業務自動化の伴走支援に加え、基本操作から業務への適用までを学べる研修（基礎編・応用編）も提供しています。ブラウザ操作を含めて「どの作業を、どの型のAIに、どこまで任せるか」を一緒に設計したい方は、お気軽にご相談ください。

参考リンク（一次情報中心・公開日つき）

Piloting Claude for Chrome — Anthropic公式。Claude in Chrome の発表・機能・プロンプトインジェクション数値（2025年8月25日、以降更新）
Get started with Claude in Chrome — Anthropic公式サポート。提供プラン・選択モデルの最新
Using Claude in Chrome safely — Anthropic公式。避けるべき用途・禁止事項
Mitigating the risk of prompt injections in browser use — Anthropic公式。緩和策と約1%への低減（2025年11月24日）
Computer use（Anthropic 公式ドキュメント） — 機能・対応モデル・ベータヘッダー
The new era of browsing: Putting Gemini to work in Chrome — Google公式。auto browse の名称・基盤（Gemini 3）・対象
Chrome の auto browse ヘルプ — Google公式。利用条件・上限・安全策
A universal AI assistant（Google I/O 2025） — Mariner強化版とGemini APIへの統合（2025年5月20日）
Introducing ChatGPT Atlas — OpenAI公式。発表・機能・対象（2025年10月21日）
Chrome DevTools (MCP) for your AI agent — Google公式MCPサーバーの発表（2025年9月23日）。リポジトリは GitHub: ChromeDevTools/chrome-devtools-mcp
Chrome DevTools Protocol — CDPの公式仕様
OWASP Top 10 for LLM Applications — LLM01 Prompt Injection — プロンプトインジェクションの定義と分類
Comet is now available to everyone worldwide — Perplexity公式。無料開放（2025年10月2日）
Atlassian acquires The Browser Company — Dia買収の発表（2025年9月4日、買収完了は2025年10月）