-
Notifications
You must be signed in to change notification settings - Fork 335
feat(wip): 浏览器插件扩展 #305
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: main
Are you sure you want to change the base?
feat(wip): 浏览器插件扩展 #305
Conversation
|
@qin-ctx @pandaCure please review thanks, its up to minimal mvp version |
get |
|
我的理解是抓屏的好处是试图能和我们肉眼看到的信息对齐,所以即使网页的dom有很多信息,但是应该只关注我们看到的网页最终渲染结果。如果抓dom的话,会不会最终embedding后的无用信息反而更多了呢?这个和MineContext的初衷是不是背离了? 我个人常用的一个场景是网页上有个长文或博客,我感兴趣但是又不想花太多时间读取,就会用一个自己写的chrome插件调用@mozilla/readability来获取文章主体,然后用大模型分析总结或提问。这里用browser-use的话,是不是可以让用户通过某种方式,比如点击页面的某个范围(比如鼠标移动上去会红框显示之类的)或自动优选主体但用户可以改选,然后dom的这块信息就会加入到MineContext里面去,并且当我们这样操作的时候,后台的录屏会自动停止来减少重复。当然也有可能我没有完全理解你的方案, 毕竟网页上的智能抓取方案总是受欢迎的。 |
|
我的初衷是为了降低 token 消耗,如果只是通过 dom 结构提取信息内容, 那么对于这种纯文本的信息内容提取, 使用开源模型就可以做了. vlm 进行图片识别本身就昂贵,而且我个人理解,视觉编码的 token 效率低于纯文本,即使网页中只包含文字,vlm 也需要需要先“看懂”再提取. "如果抓dom的话,会不会最终embedding后的无用信息反而更多了呢". 这个我没有论证过, 但是确实可能会有类似的 case, 就是网页重看不见的元素噪声太大, 导致模型识别有误. 但是我觉得这一块可以尝试,以下我做的一个测试: 输入这里我以你的个人 github 首页的 html 作为测试: 以下是使用 grok v4 的内容输出: 另一份测试(csdn 的某份博文),即使只看总结输出,我们也能大致理解到这篇网页讲述的内容: 至于你说的使用 browser-use 的方式, 随手将内容划入 MineContext 里, 我认为也有必要. 例如在一些 spa 网页里, html 没有什么内容, 如果用手动的方式,将内容块存到 minecontext 里,我觉得是一个 ok 的思路. |
Description
参考 #297 (comment) 进行开发, 目前是 draft 阶段
设计思考如下:
大体流程为:
2025-12-07134207.mp4
Closes: #(issue)
🎯 PRs Should Target Issues
Before your create a PR, please check to see if there is an existing issue
for this change. If not, please create an issue before you create this PR, unless the fix is very small.
Not adhering to this guideline will result in the PR being closed.