部落志 >> AI

AI

这是一个关于 OpenClaw 的完整教程，手把手带你从零开始掌握这个强大的命令行AI助理。无论你是想快速上手 OpenClaw，用它提升工作效率，还是想深入原理，动手搭建一个自己的AI助理。教程分两大块：领养 Claw（使用篇）：教你配置、使用和扩展 OpenClaw，快速上手。构建 Claw（开发篇）：带你从零实现一个简化版 AI Agent，彻底搞懂它怎么工作的。适合谁看？ • 想要一个随时待命的AI命令行助手的开发者 • 希望通过 Telegram/飞书远程使唤AI的效率达人 • 对

AI OCRBench v2 2025 年 9 月最新榜单

华中科技大学白翔团队联合华南理工大学、阿德莱德大学和字节跳动联合推出新一代OCR评测基准OCRBench v2，并发布最新私有数据榜单（2025年9月）。 Seed1.6-vision、Qwen3-Omni-30B-A3B-Instruct和Gemini-2.5-Pro包揽了中英榜单前三名，即便是这些最先进的模型，其平均分也仅勉强达到“60分”的及格线，它们仍难以完全满足复杂多样的真实应用需求。 OCRBench v2榜单测试范围广泛，囊括了从2023年至2025年间的全球58个主流LMMs，有来自谷歌

AI B站开源IndexTTS2，一键生成带情感的影视级配音，精准控制语速时长

Bilibili Index团队正式宣布IndexTTS-2.0开源，这款自回归零样本文本转语音系统，通过情感丰富、时长可控的核心优势，为语音生成技术带来重要突破，推动零样本TTS技术向实用化迈进。目前，项目论文、完整代码、模型权重及在线体验页面已全部开放，开发者、研究者和内容创作者都能前往体验并提出建议，团队未来还会持续优化模型性能，逐步开放更多资源与工具。 IndexTTS2作为一款自回归、零样本TTS系统，在技术层面实现多项创新，解决传统语音生成中的诸多痛点。两种语音生成模式 • 精准控制语音时

AI 仅需一行代码，轻松替代现有激活函数

All-optical nonlinear activation function based on stimulated Brillouin scattering 方法：论文展示了一种基于受激布里渊散射的全光激活函数，可调节为多种常见形状，具有频率选择性和自动增益补偿，适用于光学神经网络。实验和模拟结果表明，这种激活函数在性能上与传统数字激活函数相当。创新点：实现了基于受激布里渊散射的全光非线性激活函数，无需光电转换，保留了光子学的优势。激活函数形状可连续调节为LEAKYRELU、SIGMOID

AI 中国人工智能学会主办的2025第十四届中国智能产业大会与吴文俊人工智能创新大会将在江苏常州举办

2025年8月29日至31日，第十四届中国智能产业大会与吴文俊人工智能创新大会将在江苏常州举办，这场由中国人工智能学会主办的行业盛会，同期设置15场专题会议。专题会议邀请机器学习、影像学、医学、脑机接口、智能决策等领域专家学者，分享多模态融合技术相关研究与应用成果。会议组织架构阵容强大，荣誉主席由中国科学院数学与系统科学研究院研究员、中国科学院院士陆汝钤担任；主席包括南京医科大学第三附属医院（常州市第二人民医院）副院长/教授倪昕晔，以及南京航空航天大学人工智能学院院长/教授、脑机智能技术教育部重点实验

AI 李沐团队Higgs Audio V2用1000万小时数据淬炼的语音大模型

消失许久的AI领域专家李沐近期重返B站，亲自演示了团队研发的Higgs Audio V2语音大模型，这个模型不仅能理解文本，还能生成逼真语音，实现国际化对话、语音与背景音乐同步生成等功能。在演示的三人对话案例中——暴躁的怪物、喋喋不休的驴子和冷静的公主，每个角色的声音都带有独特情感纹理。这背后是模型的多说话人对话生成能力：它能模拟多人互动场景，自动匹配说话者的情绪和能量水平，让生成的对话像真人交流一样自然流畅。长文本朗读时，模型能自动调整语速、停顿和语调，不用人工干预，让旁白更有生命力。这种能力在生

AI 无 Tokenizer 时代将至？H-Net 用动态分块挑战 Transformer

Tokenization一直是实现真正端到端语言模型的最后一道障碍。我们能摆脱它吗？可能性正在变得无限大。最近，Mamba作者之一的Albert Gu参与发表了一篇名为《Dynamic Chunking for End-to-End Hierarchical Sequence Modeling》的论文，提出了分层网络H-Net。这种模型用内部的动态分块过程取代了tokenization，能自动发现并操作有意义的数据单元。X平台知名博主Rohan Paul评价道：“这一研究预示着Tokenizers正在

AI GPT-4.1 Prompting 提示词官方指南

GPT-4.1 Prompting 提示词官方指南汇集了 OpenAI 内部大量测试后总结的 prompt 技巧，目的是帮助开发者充分利用 GPT-4.1 模型家族的强大功能，特别是在编码、指令遵循和处理长上下文方面。指令的迁移和精确性： GPT-4.1 更严格地遵循指令，需要更明确和精确的 prompt。以往的模型可能会更自由地推断意图，但 GPT-4.1 需要更直接的指示。如果模型行为不符合预期，只需用一句话明确说明所需行为，通常就能纠正。 Agentic 工作流：持久性 (Persisten

AI Midscene.js 让 AI 帮你操作网页、验证内容，提取数据

Midscene.js 让 AI 成为你的浏览器操作员，你可以通过自然语言描述来操作网页、验证内容和提取数据，Midscene.js能简化自动化过程。自然语言交互你只需描述你的目标和步骤，Midscene.js 就会为你规划和操作用户界面，你不需要编写代码就能实现工作自动化。 Chrome扩展你可以通过Chrome扩展立即体验Midscene.js，不需要编写代码。 Puppeteer/Playwright集成 Midscene.js 支持与Puppeteer和Playwright集成，你可以结合

AI BrowseComp AI 基准测试

BrowseComp 是一项基准测试，用于衡量 AI 代理在寻找难以获取信息方面的表现。 BrowseComp 基准测试涵盖了 1266 个复杂的问题，每个问题的答案都简短，每个问题理论上只有一个正确答案。设计这些问题时，考虑到了它们的难以从网上找到但易于核实的特性，为了保证挑战性，在创建问题时会检验现有模型是否能解决，答案是否不在搜索引擎首页，人类是否难以在短时间内找到。 BrowseComp 测试针对 AI 代理执行有益浏览操作的能力展开评估，涵盖互联网内容事实推理、浏览的持久性与深度，以及搜索时的