alibaba/page-agent
JavaScript in-page GUI agent. Control web interfaces with natural language.
openai/codex-plugin-cc(已於 2026-07-04 推過),故改推第 3 名。這是什麼
Page Agent 是一個住在網頁裡的 JavaScript GUI Agent:它的目標不是開一個外部瀏覽器機器人,而是讓既有 Web 介面可以直接用自然語言被操作。README 對它的定位很清楚:The GUI Agent Living in Your Webpage,開發者把腳本或套件整合進頁面後,就能讓使用者下達像「點擊登入按鈕」這類指令,由 agent 讀取並操作頁面介面。
它的核心取向是 in-page JavaScript。README 特別強調不需要 browser extension、Python 或 headless browser;主要流程都發生在你的網頁內。另一個關鍵設計是 text-based DOM manipulation:它不依賴截圖,也不要求多模態 LLM 或額外特殊權限,而是以文字化的 DOM 資訊來理解與操作頁面。這讓它更像是一個可嵌入產品內的 AI Copilot 基礎元件,而不是傳統自動化測試或爬蟲工具。
為什麼上榜
這類專案會爆紅,反映的是大家正在尋找「把 AI agent 放進既有產品」的低摩擦方法。Page Agent 今天已有 23,087 stars,本期新增 742 stars,而且主打「幾行程式就能把 Web UI 變成自然語言可控」,非常切中 SaaS、後台系統、CRM/ERP 等複雜表單介面的痛點。
它與常見 browser automation 工具的差異,在於不把重點放在遠端控制一個瀏覽器,而是強調 client-side web enhancement。README 最後也明確說明,PageAgent 是為客戶端網頁增強而設計,不是 server-side automation。這個邊界很重要:它降低了導入門檻,也讓產品內 Copilot、智慧填表、無障礙操作等場景更直覺;但如果你要的是後端批次爬網或大規模無頭瀏覽器任務,它就不是 README 所描述的主要方向。
適合誰,可以拿來做什麼
最適合的使用者,是想在現有 Web 產品中加入 自然語言操作介面 的前端或全端團隊。README 列出的情境包括 SaaS AI Copilot、Smart Form Filling、Accessibility、Multi-page Agent 與 MCP:例如把原本需要 20 次點擊的企業後台流程,濃縮成一句自然語言指令;或讓使用者透過語音、螢幕閱讀器等方式降低操作門檻。
對開發者來說,上手門檻看起來偏前端:專案以 TypeScript 撰寫,提供 CDN 一行整合,也提供 npm 安裝與 PageAgent 類別。README 也強調 Bring your own LLMs,範例使用相容 OpenAI 介面的 DashScope endpoint;因此真正落地時,除了前端整合,也需要處理模型供應商、API key、語言設定與使用者資料邊界。
上手
README 提供兩種最直接的 Quick Start。最快是用 demo CDN 腳本做技術評估;但 README 也提醒,這個 demo CDN 使用免費 testing LLM API,僅供 technical evaluation,並附有條款。
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.11.0/dist/iife/page-agent.demo.js" crossorigin="true"></script>
若要以套件方式整合,可用 npm 安裝,並在程式裡建立 PageAgent:
npm install page-agent
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
language: 'en-US',
})
await agent.execute('Click the login button')
README 重點摘要
- Page Agent 主打 in-page JavaScript,不需要 browser extension、Python 或 headless browser 即可在頁面內運作。
- 它使用 text-based DOM manipulation,README 明確說明不依賴截圖、多模態 LLM 或特殊權限。
- 支援 Bring your own LLMs,範例展示以相容模式 endpoint、模型名稱與 API key 建立 agent。
- README 列出 SaaS AI Copilot、智慧填表、無障礙、多頁 agent 與 MCP Server(Beta) 等用途;多頁任務可搭配選用的 Chrome extension。
- 專案採 MIT License,並說明其 DOM processing components 與 prompt 來自 browser-use;同時提醒完全由 bot 或 AI 生成、缺乏人類實質參與的貢獻不會被接受。