多模态AI技术再突破:OpenVision 2极简框架效率提升2倍,10亿参数模型开源赋能行业
2025-09-15

多
多模态AI
正面
查看报告
加州大学圣克鲁兹分校、苹果公司及加州大学伯克利分校合作研发的OpenVision 2实现多模态AI技术突破:通过移除对比学习与文本编码器,仅保留「图像→描述」生成目标,简化训练框架;在TextVQA、OCR等多模态基准任务上性能媲美CLIP/SigLIP,部分细粒度任务更优;训练效率显著提升(时间缩短1.5-2倍、显存占用减少近半),成功扩展至10亿参数规模,并开源25+预训练模型及完整代码数据,为多模态AI社区提供高效、可扩展的技术方案。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
