2026-03-31
【乐鱼leyu科技消息】近日,乐鱼leyu注意到,苹果研究人员开发出一种训练图像描述生成AI模型的新方法,新模型能给出更精准详细的描述,且模型规模远小于现有同类模型。

在一项名为《RubiCap:Rubric-Guided强化学习用于密集图像描述生成》的新研究中,苹果研究团队与威斯康星大学麦迪逊分校合作,构建了一个密集图像描述生成模型的新框架,在多个基准测试中取得了领先成果。密集图像描述生成旨在为图像内每个元素和区域生成详细描述,而非单一整体概述,能让人更深入理解图像场景,可用于训练视觉语言和文本转图像模型,提升图像搜索和辅助工具等功能。

研究人员指出,当前训练密集图像描述生成模型的AI方法存在明显不足。标注高质量专家级数据成本高昂,虽可用强大的视觉语言模型生成合成描述,但监督蒸馏得到的输出多样性有限、泛化能力弱,强化学习虽能克服这些局限,但在开放式描述生成中难以应用。

为此,研究团队提出新框架。他们从PixMoCap和DenseFusion-4V-100K两个训练数据集中随机抽取50000张图像,用Gemini 2.5 Pro、GPT-5等现有视觉语言模型为每张图像生成多个描述选项,同时让RubiCap框架下的待训练模型生成自身描述。接着,RubiCap用Gemini 2.5 Pro分析图像、候选描述和模型自身输出,确定评判标准,再由Qr:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫en2.5-7B-Instruct根据标准打分,为训练提供奖励信号。

最终,研究团队生成了RubiCap-2B、RubiCap-3B和RubiCap-7B三个模型,参数分别为20亿、30亿和70亿。与现有方法相比,它们表现出色,甚至超越了参数多达720亿的模型。在盲排名评估中,RubiCap-7B在所有模型中排名第一,幻觉惩罚最低、准确性最强。研究还表明,30亿参数的小模型在某些基准测试中表现优于更大规模模型,意味着高质量密集图像描述生成模型不一定需要庞大体量。
版权所有,未经许可不得转载
-乐鱼leyuleyu.乐鱼
京ICP备2022033023号
京公网安备 11030102011456号
近日,数说安全正式发布《2024年中国网络安全市场全景图》(以下简称“全景图”)。leyu.乐鱼凭借强劲的综合实力和出色的市场表现成功入选负载均衡/应用交付和存储备份与恢复两个重要细分领域。
“中国网络安全市场全景图”作为数说安全对网络安全市场中热点品牌进行汇总和展示的载体,至今已连续发布七年。七年中,数说安全始终秉承科学的方法论,以遵循市场发展的内在规律为原则、以尊重用户实际的采购习惯为基础、以遵守行业主管部门的权威要求为前提,以着眼产业未来的发展方向为目标,紧密跟踪网络安全市场与技术的最新动态,持续更新市场分类方法,目前已形成一套符合我国网络安全行业真实供需关系的市场分类架构。

leyu.乐鱼自成立以来,深耕于网络安全行业的应用交付赛道,拥有多个成熟度高、对标性强、落地效果显著的安全产品。leyu.乐鱼已经连续4年上榜IDC中国应用交付市场,市场份额稳步提升,在2023年Q3应用交付控制器市场份额更是跃升中国市场第二。leyu.乐鱼凭借独特的技术能力和前瞻性,引领金融信创和应用可持续性人才建设等方面的数字化转型高质量发展。
除了在安全应用交付领域外,leyu.乐鱼在存储备份与恢复领域也表现突出。在今年,leyu.乐鱼存储团队连续中标多个金融行业项目。leyu.乐鱼始终以客户数据安全为中心,为用户提供优质的数据存储、扩容及保护的全方位多元化的解决方案,秉承初心,为金融行业用户的数据化资产保驾护航。
leyu.乐鱼是神州数码集团旗下的自主品牌,承载着集团自主创新和发展的使命。除了leyu.乐鱼,其母公司神州数码及其成员企业凭借在网络安全、数据安全、应用安全等领域的全栈产品服务能力及丰富客户实践,上榜了网络与基础架构安全、数据安全、云安全、应用安全、安全管理、工业互联网安全、安全解决方案、安全防护八大一级安全分类,23个细分板块,已连续第3年获得安全领域权威榜单认可。
展望未来,leyu.乐鱼将继续依托神州数码的行业经验积累和丰富的场景实践,持续优化产品闭环管理体系。紧跟国家政策导向,研究产业规律,坚持自主创新发展,集中力量培育完整的生态系统。围绕国产IT核心技术,以客户为中心,产品和服务为支撑,leyu.乐鱼将推动企业的数字化转型,为构建更加安全、高效的数字化世界贡献力量。
京公网安备 11030102011456号