AI

AI
AI阿里巴巴通义实验室AI人像视频生成技术 EMO2
EMO是由阿里巴巴通义实验室开发的音频驱动高表现力人像AI视频生成技术,最新升级版EMO2通过一张人物肖像图片和任意长度的音频,能够驱动人物进行说话、唱歌或手势舞,生成的表情和动作具有高度的感染力和专业水准。 在AI技术领域,通过音频驱动人物面部表情已实现,但在虚拟主播和数字人交互等新兴领域,如何通过音频自动生成自然流畅的动作和表情仍是技术焦点,以往的方法在手部动作生成上存在肢体错乱或动作幅度不足的问题,主要因为人类身体作为多关节复杂系统,难以实现复杂动作的驱动。 EMO2受机器人控制系统启发,将手视为
AI
AI
AIAI越来越强大,用多了人会变蠢吗?
微软研究院与剑桥大学合作,研究了AI对批判性思维的影响,发现过度依赖生成式工具会减少人们使用自己的批判性思维。 研究聚焦于生成式AI和知识工作者,即经常使用大模型工具进行案头工作的人群,共有319名知识工作者参与,他们每周至少使用一次AI工具,如ChatGPT、微软的Copilot和Google的Gemini,总用例达到936个。 当前的GenAI工具特别擅长处理文书类任务,研究人员将这些任务分为三大类和九小类,基本覆盖了大多数场景,如润色邮件、总结内容、提取要点和精准查询等。 使用AI的目的是提高效率
AI
AI首个基于百川大模型打造的 AI 儿科医生:北儿AI儿科医生
2 月 13 日,国家儿童医学中心首都医科大学附属北京儿童医院成功举办了国内首次「AI 儿科医生 + 多学科专家」双医并行多学科会诊。这一创新模式标志着人工智能技术在儿科医疗领域的深度应用迈出了重要一步。 此次会诊汇聚了来自耳鼻咽喉头颈外科、肿瘤外科、肿瘤内科、神经外科等科室的 13 位知名专家,包括倪鑫院长。同时,会诊中还引入了一位特殊成员 —— 由北京儿童医院与百川智能、小儿方健康科技联合研发的「AI 儿科医生」。该 AI 系统基于百川智能的 Baichuan M1 大模型,于 1 月 18 日正式
AI
AICherry Studio:支持多模型服务的Windows和macOS GPT客户端
Cherry Studio是一款支持多模型服务的Windows和macOS GPT客户端,Cherry Studio集成了多种大型语言模型云服务,包括OpenAI、Gemini、Anthropic等,并支持Claude、Peplexity、Poe等AI网络服务,它还支持本地模型,通过Ollama实现。 Cherry Studio提供了300多个预配置的AI助手,用户还可以创建自定义助手,并支持多模型同时对话。在文档与数据处理方面,它支持文本、图像、办公文件、PDF等格式,具备WebDAV文件管理与备份、
AI
AIDeepSeek-R1 大规模强化学习推理模型
DeepSeek-R1是一款基于大规模强化学习的推理模型,在数学、代码和推理任务上表现优异。 DeepSeek-R1模型概述 DeepSeek-R1 是由深度求索公司开发的第一代推理模型系列,包括 DeepSeek-R1-Zero 和 DeepSeek-R1 两个主要模型。 DeepSeek-R1-Zero模型是通过大规模强化学习(RL)训练,无需预先进行监督微调(SFT),展现出强大的推理能力,并自然涌现出多种推理行为,例如自我验证、反思和生成长链推理(CoT)。这是第一个公开的研究,验证了大型语言模
AI
AIHugging Face 开源深度学习资源库
Hugging Face 不是一个深度学习框架,它提供了最重要的开源深度学习资源库。 Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成,让最先进的 NLP 技术人人易用。 Transformers 的API让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。每个定义的 Python 模块均完全独立,方便修改和快速研究实验。 Transformers 支持三个最热门的深度学习库:Jax,
AI
AI
AIAutoMouser 自动化测试浏览器扩展
AutoMouser是一个Chrome 扩展程序,能够智能地跟踪用户的交互操作,利用 OpenAI 的 GPT 模型自动生成 Selenium 测试代码,简化了创建自动化测试的过程。 AutoMouser能够实时追踪用户的交互操作,包括点击、输入和滚动等,能够智能地整合输入操作并检测窗口大小变化,输出的代码结构清晰,易于维护。 安装后,在 Chrome 工具栏点击 AutoMouser 图标开始录制操作,完成录制后再次点击图标即可生成代码,生成的代码包括交互数据的 JSON 文件和生成的 Seleniu
AI
AIPDF to Podcast将PDF转换为音频
PDF to Podcast 是一个由 NVIDIA 提供的 AI 蓝图,能帮助开发者构建可以将 PDF 文档转换为生动音频内容。 PDF to Podcast基于 NVIDIA NIM 微服务架构,能够在私有网络中安全运行,能在不共享敏感数据的情况进行转换。 用户上传目标 PDF 文档,系统会生成音频内容,可以选择性地添加上下文 PDF 文档作为参考。 PDF to Podcast地址:https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast
AI
AIVLC 使用本地 AI 为视频生成实时字幕,并翻译为 100 多种语言
VLC是知名的跨平台开源视频播放器,全球下载量超60亿次。在CES 2025上,VLC展示了新版本,具备AI字幕和翻译功能,可在本地电脑离线实时生成。 VLC播放器最早可追溯至1996年,历史悠久且深受欢迎,起初叫VideoLAN Client,主要用于校园网络视频传输,2001年,VLC开源发布,逐渐发展成强大的跨平台多媒体播放器。 VLC的Logo是一个橙色交通锥,最早的开发者是一群巴黎中央理工学院学生,收集了这个交通锥。 VLC发布的视频中,使用开源AI模型,能根据视频自动生成字幕,能自动翻译成多
AI
AIVITA-1.5 开源交互式多模态大语言模型
VITA-1.5是一款强大的开源交互式多模态大语言模型,支持实时视觉与语音交互。 VITA-1.5 接近GPT-4o级别的性能,与之前的版本VITA-1.0相比,VITA-1.5在多个方面进行了改进,主要包括: 1,交互延迟显著降低:语音交互的端到端延迟从约4秒减少到1.5秒,提升用户体验。 2,多模态性能增强:在多个基准测试(如MME、MMBench和MathVista)上的平均性能从59.8提高到70.8。 3,语音处理能力改善:ASR(自动语音识别)错误率从18.4降至7.5,同时替换了独立的TT