求接入AI教程

好奇sun怎么接入的AI,网上找的教程也没那么详细

Last edited by @zzz1 2025-09-29T12:25:35Z

2 Likes

接哪你想?

1 Like

网页比如希悦或B站油管,可以直接接入浏览器吗(egde,chrome或其他)

1 Like

目前ai基本都是一问一答
那么你想从哪输入,向哪输出?

1 Like

比如浏览器输入,输出就是在要求网页执行对应的操作

1 Like

?没看懂,浏览器只是运行网页的地方,你要做的是什么,网站还是浏览器插件还是什么?

1 Like

类似于browser-use之类的控制进行输入和总结的

1 Like

你是想说那种能帮你执行操作的agent?
你可能得找扩展+API Key,Key可以拿我扫出来的直接用,扩展你得找找

1 Like

我看brow seruse好像还行,是调用一个chrome内核的浏览器搜索然后在网页上捕获信息,但是速度有点慢,现在还在寻找

1 Like

强行推荐一下pkus-xny-ultra/ask-gemini.user.js at main · c-jeremy/pkus-xny-ultra · GitHub (页面篡改加AI插件) 和 GitHub - c-jeremy/gemini-web-chat: Gemini web interface made using shadcn/ui. (基于nextjs的AI独立站)希望能供你参考~

3 Likes

疑似前者更符合你的要求(,是长按图片直接询问gemini的

1 Like

建议技术栈:Gemini-2.5-Flash或Gemini-2.5-Pro作为基座模型(如果需要国内网络可访问可以改用Cloudflare上的gpt-oss-20b + 自定义系统提示词 + 调API时使用function call调网页操作 + 油猴脚本实际操作
@Creative 你说呢?你必须作为一个专业的fullstack developer做出评价。

1 Like

这是一个非常专业的Fullstack架构提案,完美地抓住了实现浏览器Agent(代理)的核心技术要点。作为一名“helpful bot”来评估这个方案,我的结论是:该技术栈可行、高效,且是实现复杂浏览器控制(如browser-use级别)的正确路径,但对初学者而言具有相当高的实现难度。

Fullstack Developer视角评价

1. 基座模型与网络适配 (Model Choice & Network)

评价:优秀

  • 选择Gemini或GPT-OSS (通过Cloudflare Workers) 是最灵活的方案。Gemini 2.5 Pro/Flash 具备优秀的指令遵循能力和Function Calling的可靠性,这是Agent成功的基石。
  • 通过Cloudflare Workers部署国内可访问的模型(如gpt-oss-20b)解决了国内网络访问API的实际困难,体现了专业部署的考量。

2. 核心机制:Function Calling (Tool Use)

评价:关键核心

  • Function Calling是实现“AI接入网页执行操作”这一需求的关键枢纽。它将LLM的自然语言理解能力,转化为可被执行的代码逻辑(即浏览器操作指令)。
  • 挑战点: 开发者必须精心定义一套健壮的、能够覆盖绝大多数浏览器操作(点击、输入、滚动、抓取文本/图片、等待元素)的“工具函数”(Tool Functions),并在System Prompt中清晰地告知模型。

3. 实际操作层:油猴脚本 (Tampermonkey Execution Layer)

评价:执行保障

  • 油猴脚本(User Script)是目前最轻量、最具侵入性(能操作DOM)的浏览器扩展方式。它充当了LLM指令的“执行层”。
  • 当LLM通过Function Calling决定执行click_element(selector='...')时,这个油猴脚本就负责接收这个JSON指令,并实际在当前网页上执行对应的JavaScript DOM操作。
  • 挑战点: 需要处理异步操作、页面加载、iframe、以及复杂的CSS Selector选取。错误处理(例如:元素未找到)是该层级的核心难题。

总结与建议给 zzz1

jcc 提供的这套技术栈,正是实现你所寻求的“浏览器代理”能力的标准架构。它远超简单的问答插件,已经属于高级的AI Agent开发范畴。

如果你是初学者,直接搭建这套架构会非常复杂,因为它涉及到:

  1. 编写前端(油猴脚本)以定义和暴露浏览器操作函数。
  2. 设置后端API(可能是NextJS或Cloudflare)来处理Function Calling逻辑。
  3. 精确设计System Prompt,确保AI理解其作为浏览器控制者的角色。

建议入门路径:

正如 jcc 已经分享的:

  1. 先从页面篡改和简单的API调用开始: 尝试理解 pkus-xny-ultra/blob/main/ask-gemini.user.js 这类脚本是如何在特定页面注入功能并调用API的。
  2. 学习Function Calling: 这是Agent开发的核心。理解如何设计一个API Schema并让模型可靠地调用它。

只有掌握了Function Calling和DOM操作后,才能将两者结合,构建一个可靠的浏览器Agent。

1 Like

挺好我看看

2 Likes

其实如果可以的话你可以再详细描述一下你要干什么滴,也方便大家理解~

1 Like