部落志 >> AI >> VITA-1.5 开源交互式多模态大语言模型

VITA-1.5 开源交互式多模态大语言模型

1月8日发布在AI

VITA-1.5是一款强大的开源交互式多模态大语言模型，支持实时视觉与语音交互。

VITA-1.5 接近GPT-4o级别的性能，与之前的版本VITA-1.0相比，VITA-1.5在多个方面进行了改进，主要包括：

1，交互延迟显著降低：语音交互的端到端延迟从约4秒减少到1.5秒，提升用户体验。

2，多模态性能增强：在多个基准测试（如MME、MMBench和MathVista）上的平均性能从59.8提高到70.8。

3，语音处理能力改善：ASR（自动语音识别）错误率从18.4降至7.5，同时替换了独立的TTS（文本到语音）模块为端到端的TTS模块，提高了语音合成质量。

4，渐进式训练策略：语音能力的增加对其他多模态性能影响较小，图像理解性能的平均值轻微下降。

地址：https://github.com/VITA-MLLM/VITA

你可能感兴趣的

GPT-4.1 Prompting 提示词官方指南 AI提示词

Midscene.js 让 AI 帮你操作网页、验证内容，提取数据 AI工具浏览器工具

BrowseComp AI 基准测试

GitHub Copilot新手操作手册编程开发

使用AI工具联网搜索时的prompt小技巧汇总 AI工具

EasyControl_Ghibli 轻松创作吉卜力风格图像 AI工具

AI 编程神器 Cursor 使用技巧编程开发

阿里巴巴Qwen2.5-Omni全模态大模型阿里巴巴

DeepSeek V3-0324代码生成模型：6850亿参数超Claude 3.7，API价格成本低至1/27 DeepSeek

微软面向初学者的生成式人工智能教程在线学习

大家在看的

休闲手游《梦幻庄园》攻略游戏攻略

横版国风4V4轻竞技手游《闹闹天宫》攻略游戏攻略

RTX 5070游戏本华硕天选6 Pro锐龙版首发6999元起

RTX 5080游戏本实测DLSS

软件应用

Excel二级下拉菜单智能扩展教程 Excel教程

软件应用

Excel位置查找函数：FIND函数使用指南

夏天上高速，这些准备工作你做了吗？

闯红灯后停在路中间，会不会被扣分

想买混动车，到底应该怎么选

贷款买车，有哪些事需要注意

大家在看的

软件应用

二次元

优惠折扣

策略游戏《异星工厂/Factorio》攻略软件应用

软件应用

Excel 2021绘制堆积条形对比图的技巧

烹调含硫蔬菜可以促进反式脂肪酸的形成

什么情况下企业可以申请延期缴纳税款？

快连加速器苹果MacOS版本的详细安装教程二次元

二次元

魔法禁书目录外传《某暗部的少女共栖》宣布改编动画

点点加速器基础功能和高级功能使用手册

适度独处有益健康

现代技术如何影响人类思维

SkyReels SkyReels V1 开源人性化视频生成模型，支持文本与图像到视频的转换

沙盒类生存开放世界游戏《方舟：生存进化》玩法攻略

猎豹加速器最新下载地址

Copyright © 加速部落