# AI工具

AI
AIMidscene.js 让 AI 帮你操作网页、验证内容,提取数据
Midscene.js 让 AI 成为你的浏览器操作员,你可以通过自然语言描述来操作网页、验证内容和提取数据,Midscene.js能简化自动化过程。 自然语言交互 你只需描述你的目标和步骤,Midscene.js 就会为你规划和操作用户界面,你不需要编写代码就能实现工作自动化。 Chrome扩展 你可以通过Chrome扩展立即体验Midscene.js,不需要编写代码。 Puppeteer/Playwright集成 Midscene.js 支持与Puppeteer和Playwright集成,你可以结合
AI
优惠折扣
优惠折扣薅xAI羊毛:Grok 3 最新模型首充 $5 后可每月获 $150 美元额度
除了网页版,在 ChatWise、Cherry Studio 等客户端,或者通过编写代码都能使用 Grok 3 API 了。xAI 开发者平台还推出一项很实惠的活动,绑定信用卡并充值 5 美元后,账号之后每月就能获得 150 美元信用额度,可以尽情使用。 个人体验下来,Grok 3 确实厉害,在开启深度思考功能后,它的输出速度依然很快,在翻译、对速度有要求的工作中非常实用。 各种模型性能测试和评测数据显示,xAI 实力和 Meta LLAMA 相比优势明显。Grok 3 虽不用宣称要超越谁,但确实有能力
AI
AI使用AI工具联网搜索时的prompt小技巧汇总
借助AI工具问答问题能够帮助我们提升效率、弥补知识短板。 我们对AI工具“深度联网搜索”模式的依赖日益加深,有时会忘了搜索引擎的存在。 在利用这些功能时,AI通常借助一个思考机制,对用户的问题进行改写或转换,然后分别使用搜索引擎进行检索,最后把收集到的文档汇总并输出结果。一些互联网搜索(如Google Search)的常用技巧,在和AI工具交互时也可以使用。 在通过prompt问答时结合这些技巧,能让AI给出的答案更符合我们的需求。 一、指定网站的检索:site语法 site语法可以帮助我们在检索时,让
AI
AIEasyControl_Ghibli 轻松创作吉卜力风格图像
EasyControl_Ghibli是一款生成吉卜力风格图像的AI模型,已登上Hugging Face平台,用户能在网页直接使用,非会员也能使用,没有隐藏条件,不用下载,无需编程知识,真正做到轻松创作。 EasyControl_Ghibli特点 免费:能够免费生成吉卜力风格的图像。 操作简便:打破传统AI图像生成的限制,不需要你有丰富的背景知识,使用复杂的提示词,普通用户非常容易就能进行艺术创作,打开网页就能用。 吉卜力风格:虽为替代方案,但生成的吉卜力风格图像不比GPT - 4o差,能抓住吉卜力作品标
AI
AILocal-NotebookLM将PDF转换为博客的AI工具,支持多种LLM与TTS模型
Local-NotebookLM是一款本地AI工具,能够将PDF文档转换为播客,它利用本地大型语言模型(LLM)和文本转语音(TTS)技术,无需依赖云服务,直接在本地运行。 PDF处理 从PDF中提取文本,进行清洗与格式化,确保内容准确无误。 播客生成 支持生成多种风格的播客,包括休闲、正式、技术和学术类型,用户可根据需求选择不同长度(短、中、长、很长)和格式(播客、文章、总结、采访)。 LLM支持 兼容多种LLM提供商,如OpenAI、Groq、LMStudio、Ollama、Azure等,用户可选择
AI
AIOpenChat全栈聊天应用,AI驱动,支持Web、移动和桌面端
OpenChat 是一个现代化的 AI 聊天应用,它使用 React 和多后端架构(Cloudflare Workers/Node.js/Golang)构建,提供 Web、移动 App 和桌面端全平台客户端。 全栈 TypeScript:前后端类型安全,提高开发效率。 极速部署:基于 Cloudflare Workers,实现一键全球部署。 全平台无缝同步:网页、手机、电脑三端数据实时同步,随时随地无缝切换,继续您的对话。 完整包装:开箱即用的完整功能,无需额外配置。 高度可扩展:易于添加新模型和功能的
AI
AI
AIAI写作助手,一个基于Next.js的工具,支持多种LLM,可定制写作风格并生成高质量内容
AI写作助手是一个基于Next.js构建的工具,通过AI技术提升写作效率和质量。 AI写作助手允许用户通过详细的提示词风格编辑器定制写作风格,支持多种大型语言模型(LLM)API,如OpenAI、Anthropic Claude、Google Gemini、Groq、Ollama和Grok。 AI写作助手提供实时内容编辑、Markdown导出、详细调试信息和主题切换等功能。通过API设置选择模型和配置密钥后,用户可以设定文章主题、关键词和字数,定制风格,然后生成内容、编辑和导出。 丰富的写作风格定制:详
AI
AICherry Studio 一站式AI工具客户端,支持多平台与本地知识库搭建
日常使用AI工具时,往往需要打开多个网页,操作繁琐。Cherry Studio 是一款功能强大的客户端工具,支持 Windows、Mac 和 Linux 系统,集成了多种大模型和实用功能,简化了AI工具的使用流程。 支持多种大模型与功能 Cherry Studio 支持 OpenAI、DeepSeek、Kimi 等国内外十几种大模型平台。例如,当 DeepSeek 网页服务器繁忙时,可通过第三方 API 轻松解决问题。Cherry Studio还支持文生图、翻译功能,以及本地知识库的搭建。 配置大模型
软件应用
软件应用CogVideo 支持文本生成视频、视频延续和图像生成视频
CogVideoX是由清影团队开发的视频生成开源项目,包含CogVideoX-2B、CogVideoX-5B及CogVideoX-5B-I2V三个版本。支持文本生成视频、视频延续和图像生成视频三种功能。基础模型基于Transformer架构,采用3D位置编码技术处理时序数据。 核心版本参数 CogVideoX-2B:基础版,FP16训练,支持FP8量化,单卡最低需18GB显存 CogVideoX-5B:增强版,BF16训练,视频质量提升,单卡最低需26GB显存 I2V版本:支持图像输入生成视频,需配合特
AI
AIControl Plane For Your AI Agents (基于 mahilo 框架) :一个用于构建和管理多智能体系统的框架
Mahilo是腾讯开源的创新型多智能体协作框架,支持创建具备人机协同能力的智能体团队。Mahilo框架允许不同来源的智能体(包括其他框架创建的智能体)在统一平台中实现信息共享与协作,并始终保持人类监督者的控制权。 创建或注册多种智能体 可以基于框架自带的BaseAgent创建新的智能体,也可以集成其他框架(如LangGraph)中的智能体。 构建智能体团队 将这些智能体组合成一个团队,让他们可以相互交流、共享信息。 实现人机协作 (Human-in-the-Loop) 通过客户端连接到每个智能体,进行实
AI
AIAgent Leaderboard:评估AI在真实商业场景中利用工具的能力,使用TSQ指标衡量模型表现并提供排行榜
聚焦真实商业场景的Agent Leaderboard通过系统性评估,揭示大语言模型在复杂工具调用场景中的实战能力,最新排名可通过 https://huggingface.co/spaces/galileo-ai/agent-leaderboard 实时查看。 评估体系四重奏 1、模型筛选 覆盖12个闭源模型+5个开源模型,构建多元化评估矩阵 2、标准化配置 统一系统提示词 工具调用权限标准化 零温度设置确保评估一致性 3、数据精选策略 从四大标杆数据集中战略采样: BFCL(教育/学术场景) τ-ben
AI
AI阿里巴巴通义实验室AI人像视频生成技术 EMO2
EMO是由阿里巴巴通义实验室开发的音频驱动高表现力人像AI视频生成技术,最新升级版EMO2通过一张人物肖像图片和任意长度的音频,能够驱动人物进行说话、唱歌或手势舞,生成的表情和动作具有高度的感染力和专业水准。 在AI技术领域,通过音频驱动人物面部表情已实现,但在虚拟主播和数字人交互等新兴领域,如何通过音频自动生成自然流畅的动作和表情仍是技术焦点,以往的方法在手部动作生成上存在肢体错乱或动作幅度不足的问题,主要因为人类身体作为多关节复杂系统,难以实现复杂动作的驱动。 EMO2受机器人控制系统启发,将手视为
1