Dify:开源大语言模型(LLM)应用开发平台
Dify 是一个开源的大语言模型(LLM)应用开发平台,为开发者提供低代码 AI 应用开发服务,通过简化开发流程,Dify 帮助开发者快速构建和部署 AI 应用,降低技术门槛。 Dify 提供直观的可视化操作界面,开发者无需深入编写底层代码。通过简单的拖拽和配置操作,即可定义应用的提示词(Prompt)、上下文逻辑以及插件功能。 Dify 支持多种 AI 应用场景,包括: 智能客服与对话助手:利用自然语言处理技术,快速响应用户咨询,支持上下文记忆和多轮对话设计。 内容生成与文档处理:自动生成文章、摘要、
Watermark-Removal 基于机器学习的图像修复
Watermark-Removal 基于机器学习的图像修复(Image Inpainting),通过深度学习技术自动去除图片中的水印,使修复后的图片与原图难以区分。 1、技术原理 基于生成对抗网络(GAN)和上下文注意力机制(Contextual Attention),通过图像修复技术填补水印区域的像素。 引用两篇论文方法: 《Generative Image Inpainting with Contextual Attention》(上下文注意力生成修复) 《Free-Form Image Inpai
全网最全的白嫖 DeepSeek-R1 满血版的方法
2025 年初,DeepSeek-R1 凭借其强大的推理能力和开源精神席卷网络,被誉为"国产 AI 之光"。由于官方服务器不堪重负,加上 API 充值暂停,许多用户开始寻找替代方案。 下面介绍全网可用的免费无限访问 DeepSeek-R1 满血版的方法,涵盖特点、使用链接和详细步骤。 官方渠道蹲守 特点: 权威性:直接来自 DeepSeek 官方,体验最原汁原味 完全免费:无需付费,注册后即可使用 功能齐全:支持深度思考、长上下文对话等核心功能 不稳定:经常出现服务中断或排队 使用方法: 打开官网 ht
Minima 开源的本地RAG容器,可与ChatGPT和Claude集成
Minima是一个开源的RAG(Retrieval-Augmented Generation,检索增强生成)本地部署容器,能够与ChatGPT和MCP(Model Configuration Protocol)集成,可以作为完全本地的RAG使用。 Minima目前支持三种模式 隔离安装:完全在本地运行,不依赖外部服务如ChatGPT或Claude,所有神经网络(LLM、重排序模型、嵌入模型)都在本地云或PC上运行,确保数据安全。 自定义GPT:使用ChatGPT应用或网页查询本地文档,索引器在本地云或P
GitHub Copilot 代码补全功能现已支持 GPT-4o-mini 模型
GitHub Copilot 代码补全功能现已支持 GPT-4o-mini 模型。GPT-4o-mini 模型是基于 GPT-4o 模型的一个子集,专门针对代码补全任务进行了训练。GPT-4o-mini 模型在超过 275,000 个高质量公共代码库上进行了训练,支持超过 30 种流行编程语言,知识库更新成最新的了。 如果你是 Copilot Free 或 Copilot Pro 订阅用户,Copilot 代码补全的模型切换器会自动启用。如果你是 Copilot Business 订阅用户,则所属的组织
SkyReels SkyReels V1 开源人性化视频生成模型,支持文本与图像到视频的转换
SkyReels V1是一款以用户需求为核心的开源视频生成模型,支持文本到视频(Text-to-Video)和图像到视频(Image-to-Video)的转换。 SkyReels V1模型基于约1000万条高质量影视片段进行深度优化。 开源技术领先:在开源视频生成领域,SkyReels V1的文本到视频生成能力表现优异,部分性能甚至可与商业模型相媲美。 精准面部动画:模型支持33种面部表情和400多种自然动作组合,能够精准捕捉并呈现人类情感。 电影级视觉效果:生成的每一帧画面都具备专业电影制作水准,包括
【DeepSeek本地部署指南】如何在自己的电脑上部署 DeepSeek-R1 模型,无限免费使用 DeepSeek
DeepSeek 是一款开源的大型语言模型,完全在本地机器上运行,无需互联网连接。本指南将详细介绍如何在 Mac 上安装 DeepSeek,从终端版本到用户友好的聊天应用程序。 为什么选择 DeepSeek? 与 ChatGPT 等云端 AI 模型不同,DeepSeek 在 Mac 本地运行,既经济实惠又能保护隐私。无论是研究、编程还是日常查询,DeepSeek 都提供了一种便捷的方式,让你无需依赖互联网即可随时使用 AI 模型。 第一步:下载和安装 Ollama 要运行 DeepSeek,首先需要安装
DeepSeek-RAG-Chatbot 本地部署的高效文档检索与智能问答工具
DeepSeek-RAG-Chatbot是一个开源项目,通过本地部署方式提供高效、准确且私密的文档检索与智能问答服务。DeepSeek-RAG-Chatbot结合了多种先进技术,在文档检索和自然语言处理领域有非常高的性能表现。 1、文档上传与处理 用户可上传多种格式的文档(如PDF、DOCX、TXT等),系统会自动拆分文档并生成向量嵌入,便于后续检索与处理。 2、混合检索机制 结合BM25(基于关键词的检索)和FAISS(基于向量的语义检索)技术,能从文档中快速、准确地找到相关内容。 3、知识图谱支持(
Composio:为AI代理和大型语言模型(LLMs)提供高质量集成的工具集
Composio是一个为AI代理和大型语言模型(LLMs)提供高质量集成的工具集,通过函数调用,Composio支持超过100种集成,帮助开发者更高效地构建和部署AI应用。 Composio的核心功能 Composio提供了一系列生产就绪的工具,包括: • 支持250多种工具,涵盖多个类别:如GitHub、Notion、Linear、Gmail、Slack、Hubspot、Salesforce等软件工具。 • 操作系统操作工具:包括文件工具、Shell工具、代码分析工具等。 • 搜索功能:支持Googl
DeepSeek + 飞书多维表格:批量生成文案
飞书多维表格擅长批量生成内容,能够显著提升工作效率。 无论是文案、视频脚本还是热门文章,都可以通过飞书多维表格快速生成。 飞书结合DeepSeek快速生成多维表格具体操作步骤如下: 1,新建一个多维表格,添加一个字段,命名为【xx主题】。 2,继续添加另一个字段,命名为【DeepSeek 指令】,并设置相关参数,对象选择【DeepSeek R1】。 3,在配置中,选择第一个创建的字段,同时勾选R1的思考和输出结果选项。完成后,表格中会自动生成两个新字段。 4,如果需要更精准的主题内容,可以在【自定义请求
阿里巴巴通义实验室AI人像视频生成技术 EMO2
EMO是由阿里巴巴通义实验室开发的音频驱动高表现力人像AI视频生成技术,最新升级版EMO2通过一张人物肖像图片和任意长度的音频,能够驱动人物进行说话、唱歌或手势舞,生成的表情和动作具有高度的感染力和专业水准。 在AI技术领域,通过音频驱动人物面部表情已实现,但在虚拟主播和数字人交互等新兴领域,如何通过音频自动生成自然流畅的动作和表情仍是技术焦点,以往的方法在手部动作生成上存在肢体错乱或动作幅度不足的问题,主要因为人类身体作为多关节复杂系统,难以实现复杂动作的驱动。 EMO2受机器人控制系统启发,将手视为
AI越来越强大,用多了人会变蠢吗?
微软研究院与剑桥大学合作,研究了AI对批判性思维的影响,发现过度依赖生成式工具会减少人们使用自己的批判性思维。 研究聚焦于生成式AI和知识工作者,即经常使用大模型工具进行案头工作的人群,共有319名知识工作者参与,他们每周至少使用一次AI工具,如ChatGPT、微软的Copilot和Google的Gemini,总用例达到936个。 当前的GenAI工具特别擅长处理文书类任务,研究人员将这些任务分为三大类和九小类,基本覆盖了大多数场景,如润色邮件、总结内容、提取要点和精准查询等。 使用AI的目的是提高效率
首个基于百川大模型打造的 AI 儿科医生:北儿AI儿科医生
2 月 13 日,国家儿童医学中心首都医科大学附属北京儿童医院成功举办了国内首次「AI 儿科医生 + 多学科专家」双医并行多学科会诊。这一创新模式标志着人工智能技术在儿科医疗领域的深度应用迈出了重要一步。 此次会诊汇聚了来自耳鼻咽喉头颈外科、肿瘤外科、肿瘤内科、神经外科等科室的 13 位知名专家,包括倪鑫院长。同时,会诊中还引入了一位特殊成员 —— 由北京儿童医院与百川智能、小儿方健康科技联合研发的「AI 儿科医生」。该 AI 系统基于百川智能的 Baichuan M1 大模型,于 1 月 18 日正式
Cherry Studio:支持多模型服务的Windows和macOS GPT客户端
Cherry Studio是一款支持多模型服务的Windows和macOS GPT客户端,Cherry Studio集成了多种大型语言模型云服务,包括OpenAI、Gemini、Anthropic等,并支持Claude、Peplexity、Poe等AI网络服务,它还支持本地模型,通过Ollama实现。 Cherry Studio提供了300多个预配置的AI助手,用户还可以创建自定义助手,并支持多模型同时对话。在文档与数据处理方面,它支持文本、图像、办公文件、PDF等格式,具备WebDAV文件管理与备份、
DeepSeek-R1 大规模强化学习推理模型
DeepSeek-R1是一款基于大规模强化学习的推理模型,在数学、代码和推理任务上表现优异。 DeepSeek-R1模型概述 DeepSeek-R1 是由深度求索公司开发的第一代推理模型系列,包括 DeepSeek-R1-Zero 和 DeepSeek-R1 两个主要模型。 DeepSeek-R1-Zero模型是通过大规模强化学习(RL)训练,无需预先进行监督微调(SFT),展现出强大的推理能力,并自然涌现出多种推理行为,例如自我验证、反思和生成长链推理(CoT)。这是第一个公开的研究,验证了大型语言模
Hugging Face 开源深度学习资源库
Hugging Face 不是一个深度学习框架,它提供了最重要的开源深度学习资源库。 Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成,让最先进的 NLP 技术人人易用。 Transformers 的API让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。每个定义的 Python 模块均完全独立,方便修改和快速研究实验。 Transformers 支持三个最热门的深度学习库:Jax,
AutoMouser 自动化测试浏览器扩展
AutoMouser是一个Chrome 扩展程序,能够智能地跟踪用户的交互操作,利用 OpenAI 的 GPT 模型自动生成 Selenium 测试代码,简化了创建自动化测试的过程。 AutoMouser能够实时追踪用户的交互操作,包括点击、输入和滚动等,能够智能地整合输入操作并检测窗口大小变化,输出的代码结构清晰,易于维护。 安装后,在 Chrome 工具栏点击 AutoMouser 图标开始录制操作,完成录制后再次点击图标即可生成代码,生成的代码包括交互数据的 JSON 文件和生成的 Seleniu
PDF to Podcast将PDF转换为音频
PDF to Podcast 是一个由 NVIDIA 提供的 AI 蓝图,能帮助开发者构建可以将 PDF 文档转换为生动音频内容。 PDF to Podcast基于 NVIDIA NIM 微服务架构,能够在私有网络中安全运行,能在不共享敏感数据的情况进行转换。 用户上传目标 PDF 文档,系统会生成音频内容,可以选择性地添加上下文 PDF 文档作为参考。 PDF to Podcast地址:https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
VLC 使用本地 AI 为视频生成实时字幕,并翻译为 100 多种语言
VLC是知名的跨平台开源视频播放器,全球下载量超60亿次。在CES 2025上,VLC展示了新版本,具备AI字幕和翻译功能,可在本地电脑离线实时生成。 VLC播放器最早可追溯至1996年,历史悠久且深受欢迎,起初叫VideoLAN Client,主要用于校园网络视频传输,2001年,VLC开源发布,逐渐发展成强大的跨平台多媒体播放器。 VLC的Logo是一个橙色交通锥,最早的开发者是一群巴黎中央理工学院学生,收集了这个交通锥。 VLC发布的视频中,使用开源AI模型,能根据视频自动生成字幕,能自动翻译成多
VITA-1.5 开源交互式多模态大语言模型
VITA-1.5是一款强大的开源交互式多模态大语言模型,支持实时视觉与语音交互。 VITA-1.5 接近GPT-4o级别的性能,与之前的版本VITA-1.0相比,VITA-1.5在多个方面进行了改进,主要包括: 1,交互延迟显著降低:语音交互的端到端延迟从约4秒减少到1.5秒,提升用户体验。 2,多模态性能增强:在多个基准测试(如MME、MMBench和MathVista)上的平均性能从59.8提高到70.8。 3,语音处理能力改善:ASR(自动语音识别)错误率从18.4降至7.5,同时替换了独立的TT