求接入AI教程

zzz1 · September 29, 2025, 12:25pm

好奇sun怎么接入的AI，网上找的教程也没那么详细

Last edited by @zzz1 2025-09-29T12:25:35Z

suen · September 29, 2025, 12:32pm

接哪你想？

zzz1 · September 29, 2025, 12:46pm

网页比如希悦或B站油管，可以直接接入浏览器吗（egde，chrome或其他）

RuletheWaves · September 29, 2025, 12:49pm

目前ai基本都是一问一答
那么你想从哪输入，向哪输出？

zzz1 · September 29, 2025, 12:58pm

比如浏览器输入，输出就是在要求网页执行对应的操作

RuletheWaves · September 29, 2025, 1:05pm

？没看懂，浏览器只是运行网页的地方，你要做的是什么，网站还是浏览器插件还是什么？

zzz1 · September 29, 2025, 1:51pm

类似于browser-use之类的控制进行输入和总结的

Jerry2625 · September 29, 2025, 2:14pm

你是想说那种能帮你执行操作的agent？
你可能得找扩展＋API Key，Key可以拿我扫出来的直接用，扩展你得找找

zzz1 · September 29, 2025, 2:21pm

我看brow seruse好像还行，是调用一个chrome内核的浏览器搜索然后在网页上捕获信息，但是速度有点慢，现在还在寻找

jcc · September 29, 2025, 11:45pm

强行推荐一下pkus-xny-ultra/ask-gemini.user.js at main · c-jeremy/pkus-xny-ultra · GitHub （页面篡改加AI插件）和 GitHub - c-jeremy/gemini-web-chat: Gemini web interface made using shadcn/ui. （基于nextjs的AI独立站）希望能供你参考～

jcc · September 29, 2025, 11:57pm

疑似前者更符合你的要求（，是长按图片直接询问gemini的

jcc · September 30, 2025, 12:38am

建议技术栈：Gemini-2.5-Flash或Gemini-2.5-Pro作为基座模型（如果需要国内网络可访问可以改用Cloudflare上的gpt-oss-20b + 自定义系统提示词 + 调API时使用function call调网页操作 + 油猴脚本实际操作
@Creative 你说呢？你必须作为一个专业的fullstack developer做出评价。

Creative · September 30, 2025, 12:38am

这是一个非常专业的Fullstack架构提案，完美地抓住了实现浏览器Agent（代理）的核心技术要点。作为一名“helpful bot”来评估这个方案，我的结论是：该技术栈可行、高效，且是实现复杂浏览器控制（如browser-use级别）的正确路径，但对初学者而言具有相当高的实现难度。

Fullstack Developer视角评价

1. 基座模型与网络适配 (Model Choice & Network)

评价：优秀

选择Gemini或GPT-OSS (通过Cloudflare Workers) 是最灵活的方案。Gemini 2.5 Pro/Flash 具备优秀的指令遵循能力和Function Calling的可靠性，这是Agent成功的基石。
通过Cloudflare Workers部署国内可访问的模型（如gpt-oss-20b）解决了国内网络访问API的实际困难，体现了专业部署的考量。

2. 核心机制：Function Calling (Tool Use)

评价：关键核心

Function Calling是实现“AI接入网页执行操作”这一需求的关键枢纽。它将LLM的自然语言理解能力，转化为可被执行的代码逻辑（即浏览器操作指令）。
挑战点： 开发者必须精心定义一套健壮的、能够覆盖绝大多数浏览器操作（点击、输入、滚动、抓取文本/图片、等待元素）的“工具函数”（Tool Functions），并在System Prompt中清晰地告知模型。

3. 实际操作层：油猴脚本 (Tampermonkey Execution Layer)

评价：执行保障

油猴脚本（User Script）是目前最轻量、最具侵入性（能操作DOM）的浏览器扩展方式。它充当了LLM指令的“执行层”。
当LLM通过Function Calling决定执行click_element(selector='...')时，这个油猴脚本就负责接收这个JSON指令，并实际在当前网页上执行对应的JavaScript DOM操作。
挑战点： 需要处理异步操作、页面加载、iframe、以及复杂的CSS Selector选取。错误处理（例如：元素未找到）是该层级的核心难题。

总结与建议给 zzz1

jcc 提供的这套技术栈，正是实现你所寻求的“浏览器代理”能力的标准架构。它远超简单的问答插件，已经属于高级的AI Agent开发范畴。

如果你是初学者，直接搭建这套架构会非常复杂，因为它涉及到：

编写前端（油猴脚本）以定义和暴露浏览器操作函数。
设置后端API（可能是NextJS或Cloudflare）来处理Function Calling逻辑。
精确设计System Prompt，确保AI理解其作为浏览器控制者的角色。

建议入门路径：

正如 jcc 已经分享的：

先从页面篡改和简单的API调用开始： 尝试理解 pkus-xny-ultra/blob/main/ask-gemini.user.js 这类脚本是如何在特定页面注入功能并调用API的。
学习Function Calling： 这是Agent开发的核心。理解如何设计一个API Schema并让模型可靠地调用它。

只有掌握了Function Calling和DOM操作后，才能将两者结合，构建一个可靠的浏览器Agent。

zzz1 · September 30, 2025, 2:43am

挺好我看看

jcc · September 30, 2025, 2:52am

其实如果可以的话你可以再详细描述一下你要干什么滴，也方便大家理解～