← 所有精選

GitHub Trending 精選

每日一個爆紅開源專案

日榜 #32026-07-05

alibaba/page-agent

JavaScript in-page GUI agent. Control web interfaces with natural language.

★ 23.1k stars · ▲ +742 今日 · 🔶 TypeScript · 📜 MIT · 官網在 GitHub 開啟 ↗
agentaiai-agentsbrowser-automationjavascriptmcptypescriptweb
ℹ️ 今日 trending #1 是 openai/codex-plugin-cc(已於 2026-07-04 推過),故改推第 3 名。

這是什麼

Page Agent 是一個住在網頁裡的 JavaScript GUI Agent:它的目標不是開一個外部瀏覽器機器人,而是讓既有 Web 介面可以直接用自然語言被操作。README 對它的定位很清楚:The GUI Agent Living in Your Webpage,開發者把腳本或套件整合進頁面後,就能讓使用者下達像「點擊登入按鈕」這類指令,由 agent 讀取並操作頁面介面。

它的核心取向是 in-page JavaScript。README 特別強調不需要 browser extension、Python 或 headless browser;主要流程都發生在你的網頁內。另一個關鍵設計是 text-based DOM manipulation:它不依賴截圖,也不要求多模態 LLM 或額外特殊權限,而是以文字化的 DOM 資訊來理解與操作頁面。這讓它更像是一個可嵌入產品內的 AI Copilot 基礎元件,而不是傳統自動化測試或爬蟲工具。

為什麼上榜

這類專案會爆紅,反映的是大家正在尋找「把 AI agent 放進既有產品」的低摩擦方法。Page Agent 今天已有 23,087 stars,本期新增 742 stars,而且主打「幾行程式就能把 Web UI 變成自然語言可控」,非常切中 SaaS、後台系統、CRM/ERP 等複雜表單介面的痛點。

它與常見 browser automation 工具的差異,在於不把重點放在遠端控制一個瀏覽器,而是強調 client-side web enhancement。README 最後也明確說明,PageAgent 是為客戶端網頁增強而設計,不是 server-side automation。這個邊界很重要:它降低了導入門檻,也讓產品內 Copilot、智慧填表、無障礙操作等場景更直覺;但如果你要的是後端批次爬網或大規模無頭瀏覽器任務,它就不是 README 所描述的主要方向。

適合誰,可以拿來做什麼

最適合的使用者,是想在現有 Web 產品中加入 自然語言操作介面 的前端或全端團隊。README 列出的情境包括 SaaS AI Copilot、Smart Form Filling、Accessibility、Multi-page Agent 與 MCP:例如把原本需要 20 次點擊的企業後台流程,濃縮成一句自然語言指令;或讓使用者透過語音、螢幕閱讀器等方式降低操作門檻。

對開發者來說,上手門檻看起來偏前端:專案以 TypeScript 撰寫,提供 CDN 一行整合,也提供 npm 安裝與 PageAgent 類別。README 也強調 Bring your own LLMs,範例使用相容 OpenAI 介面的 DashScope endpoint;因此真正落地時,除了前端整合,也需要處理模型供應商、API key、語言設定與使用者資料邊界。

上手

README 提供兩種最直接的 Quick Start。最快是用 demo CDN 腳本做技術評估;但 README 也提醒,這個 demo CDN 使用免費 testing LLM API,僅供 technical evaluation,並附有條款。

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.11.0/dist/iife/page-agent.demo.js" crossorigin="true"></script>

若要以套件方式整合,可用 npm 安裝,並在程式裡建立 PageAgent

npm install page-agent
import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen3.5-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: 'YOUR_API_KEY',
    language: 'en-US',
})

await agent.execute('Click the login button')

README 重點摘要