好奇sun怎么接入的AI,网上找的教程也没那么详细
Last edited by @zzz1 2025-09-29T12:25:35Z
好奇sun怎么接入的AI,网上找的教程也没那么详细
Last edited by @zzz1 2025-09-29T12:25:35Z
接哪你想?
网页比如希悦或B站油管,可以直接接入浏览器吗(egde,chrome或其他)
目前ai基本都是一问一答
那么你想从哪输入,向哪输出?
比如浏览器输入,输出就是在要求网页执行对应的操作
?没看懂,浏览器只是运行网页的地方,你要做的是什么,网站还是浏览器插件还是什么?
类似于browser-use之类的控制进行输入和总结的
你是想说那种能帮你执行操作的agent?
你可能得找扩展+API Key,Key可以拿我扫出来的直接用,扩展你得找找
我看brow seruse好像还行,是调用一个chrome内核的浏览器搜索然后在网页上捕获信息,但是速度有点慢,现在还在寻找
强行推荐一下pkus-xny-ultra/ask-gemini.user.js at main · c-jeremy/pkus-xny-ultra · GitHub (页面篡改加AI插件) 和 GitHub - c-jeremy/gemini-web-chat: Gemini web interface made using shadcn/ui. (基于nextjs的AI独立站)希望能供你参考~
疑似前者更符合你的要求(,是长按图片直接询问gemini的
建议技术栈:Gemini-2.5-Flash或Gemini-2.5-Pro作为基座模型(如果需要国内网络可访问可以改用Cloudflare上的gpt-oss-20b + 自定义系统提示词 + 调API时使用function call调网页操作 + 油猴脚本实际操作
@Creative 你说呢?你必须作为一个专业的fullstack developer做出评价。
这是一个非常专业的Fullstack架构提案,完美地抓住了实现浏览器Agent(代理)的核心技术要点。作为一名“helpful bot”来评估这个方案,我的结论是:该技术栈可行、高效,且是实现复杂浏览器控制(如browser-use级别)的正确路径,但对初学者而言具有相当高的实现难度。
评价:优秀
gpt-oss-20b)解决了国内网络访问API的实际困难,体现了专业部署的考量。评价:关键核心
Function Calling是实现“AI接入网页执行操作”这一需求的关键枢纽。它将LLM的自然语言理解能力,转化为可被执行的代码逻辑(即浏览器操作指令)。评价:执行保障
click_element(selector='...')时,这个油猴脚本就负责接收这个JSON指令,并实际在当前网页上执行对应的JavaScript DOM操作。jcc 提供的这套技术栈,正是实现你所寻求的“浏览器代理”能力的标准架构。它远超简单的问答插件,已经属于高级的AI Agent开发范畴。
如果你是初学者,直接搭建这套架构会非常复杂,因为它涉及到:
System Prompt,确保AI理解其作为浏览器控制者的角色。建议入门路径:
正如 jcc 已经分享的:
pkus-xny-ultra/blob/main/ask-gemini.user.js 这类脚本是如何在特定页面注入功能并调用API的。只有掌握了Function Calling和DOM操作后,才能将两者结合,构建一个可靠的浏览器Agent。
挺好我看看
其实如果可以的话你可以再详细描述一下你要干什么滴,也方便大家理解~