训练时间减少71.4%,厦大指令调优新方案MMA让羊驼模型实现多模态|全球百事通
机器之心报道编辑:陈萍、小舟本文提出了一种新颖且经济实惠的解决方案,用于有效地将LLMs适应到VL(视觉语
2023-05-30机器之心报道
编辑:陈萍、小舟
本文提出了一种新颖且经济实惠的解决方案,用于有效地将 LLMs 适应到 VL(视觉语言)任务中,称为 MMA。MMA 不使用大型神经网络来连接图像编码器和 LLM,而是采用轻量级模块,即适配器,来弥合 LLMs 和 VL 任务之间的差距,同时也实现了图像模型和语言模型的联合优化。同时,MMA 还配备了一种路由算法,可以帮助 LLM 在不损害其自然语言理解能力的情况下,在单模态和多模态指令之间实现自动切换。
(资料图片)
最近几个月,ChatGPT 等一系列大型语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。
在快速发展的人工智能领域,以高效和有效的方式使用大型语言模型正变得越来越重要。
此前,Meta 开源了羊驼(LLaMA)系列模型,之后在此基础上,研究者纷纷二创推出自己的羊驼模型。近日,来自厦门大学的研究者提出了一种新颖且有效的视觉 - 语言指令调优解决方案:MMA(Mixture-of-Modality Adaptation),并将其应用于 LLaMA 系列模型上,得到 LaVIN 模型。LaVIN 只有 3~5M 的训练参数, 仅需 小时即可在 ScienceQA 数据集上进行微调。
下面我们来看看论文的具体内容。
近年来,大型语言模型(LLM)不断推动着自然语言理解的上限,其参数规模和预训练数据规模也在不断增加。指令调优(instruction tuning)技术的引入使得 LLM 能够进行类似人类的对话交流,完成各种自然语言处理(NLP)任务,从而使人工智能逐渐接近通用人工智能,如 。
AI 发展的下一个里程碑式进展通常被认为是将这些 LLM 扩展到多模态,例如视觉 - 语言(VL)学习,这样一来 LLM 可以适用于更多真实世界场景,而这一目标 GPT-4 已经实现了,其采用大规模的视觉 - 语言语料库来直接训练多模态 GPT。
然而,GPT-4 的训练机制非常昂贵,近期的研究方向仍然致力于高效的 LLM VL 多模态适应。如图 1 所示,现有的 LLM 多模态解决方案大致分为两个类别,即专家系统和模块化训练。
在专家系统解决方案中,LLM 通常充当管理者的角色,解释不同的自然语言指令,然后调用相应的视觉模型来处理输入图像,例如图像字幕生成、视觉问答或文本到图像生成。这种解决方案的优点在于它不需要重新训练 LLM,并且可以充分利用现有的视觉模型。然而,LLM 和各种视觉模型在计算和参数方面仍然存在显著冗余,导致内存占用过大。同时,LLM 和视觉模型的联合优化仍然是一个具有挑战性的问题。
在这种情况下,对 LLM 的模块化训练引起了越来越多的关注。如图 1 为模块化训练范式,这时需要 LLM 部署一个额外的「neck branch」来连接视觉编码器,然后在对大量的图像 - 文本对进行跨模态对齐的预训练。之后,通过视觉 - 语言指令对「neck branch」和 LLM 进行联合微调。
尽管这种方法有效,但所需的视觉 - 语言预训练对于 LLM 的快速适应仍然代价高昂。比如,BLIP2 的预训练需要耗费超过 100 个 GPU 小时来处理 亿个图像 - 文本对。又比如,LLaVA-13B 在视觉 - 语言指令调优期间需要微调整个 LLM,从而导致训练时间和中间存储开销显著增加。
本文提出了一种新颖且有效的视觉 - 语言指令调优解决方案,称为混合模态适应 (Mixture-of-Modality Adaptation,MMA)。与现有的模块化训练方案不同,MMA 是一种端到端的优化机制。通过使用轻量级适配器(adapter)连接图像编码器和 LLM,MMA 可以通过少量参数联合优化整个多模态 LLM。与现有解决方案相比,MMA 节省了数千倍的存储开销。
论文地址:/pdf/
项目地址:/luogen1996/LaVIN
为了在纯文本指令和图像文本指令之间快速切换,MMA 为插入的适配器配备了路由方案,可以为不同模态的输入动态选择合适的适配路径,从而很好地保留 LLM 的 NLP 能力。为了验证 MMA,该研究将其应用于 Meta 最近提出的 LLaMA 系列模型上,并将二者结合之后的大型视觉 - 语言指令模型称为 LaVIN。在 MMA 的帮助下,LaVIN 可以在 VL 任务上实现低成本且快速的适应,而无需额外的大规模预训练。
为了验证 LaVIN 的性能,该研究首先在 ScienceQA 数据集上进行了定量实验。实验结果表明,LaVIN 可实现与先进多模态 LLM(例如 LLaVA )相当的性能,同时减少高达 % 的训练时间和 % 的存储成本。特别地,使用 8 个 A100 GPU 在 ScienceQA 上微调 LaVIN 仅需 小时,并且仅需更新 参数。
此外,该研究还通过调整 52k 纯文本指令和 152k 文本 - 图像对,将 LaVIN 扩展为多模态聊天机器人。定性实验表明,LaVIN 可以准确地执行各种人类指令(例如编码、解数学题等等),同时产生比现有多模态聊天机器人更好的视觉 - 语言理解。
方法
MMA 架构如图 2 所示,其包括两个新设计,即 Mixture-of-Modality Adapter (MM-Adapter)和 Mixture-of-Modality Training (MMT)。具体而言,MM-Adapter 通过轻量级适配器将 LLM 扩展为具有多模态的能力,同时还能实现单模态和多模态指令之间的自动切换。之后,通过 MMT 对整个多模态 LLM 进行联合优化,该优化过程在训练时间和存储方面都更加高效。
接下来我们从理论角度介绍 MMA 的两个新设计。
MM-Adapter
首先,该研究引入了一个模态 token 来表示输入模态,其定义为:
其中
为模态嵌入。MM-Adapter 定义为:
如图 3 所示,实现动态自适应的关键在于路由函数的设计,其公式为:
根据公式 2 和 3,MM-Adapter 可以根据输入指令的模态选择最佳的适应路径。更重要的是,MM-Adapter 过程只引入了一小部分额外参数,因此仍然是高效的。同时,MM-Adapter 还可以作为单模态适配器来改善适应能力,因此该研究还将其应用于图像编码器。
MMT
基于 MM-Adapter,MMT 的目标是冻结大型图像编码器和 LLM,只微调嵌入的适配器。在这种情况下,整个多模态 LLM 可以以端到端的方式进行联合优化。具体而言,端到端的优化目标可以通过以下方式进行建模:
总的训练目标可以定义为:
在此训练方案中,优化的参数数量仍然保持在非常小的规模,例如 3∼5M,这大大减少了训练时间和存储成本。与现有的模块化训练范式相比,MMA 不需要额外的视觉 - 语言预训练,并且可以端到端地优化整个模型,进一步提高了训练效率。
实验
在实验方面,该研究首先在 ScienceQA 数据集上将 LaVIN 与现有 SOTA 方法进行了比较,结果如下表 1 所示。与其他方法相比,LaVIN 在性能和训练效率之间实现了更好的权衡。
然后,该研究将 LaVIN 与不含 VL 预训练的现有方法进行了实验比较,结果如下表 3 所示。在 MMA 的帮助下,LaVIN 明显优于其他方法。这表明 MMA 在 VL 适应方面的高效性。
此外,该研究还进行了消融实验,结果如下表 2 所示。实验结果表明,通过图像编码器和 LLM 的联合优化,LaVIN 的性能从 进一步提升到了 ,这说明联合优化对于多模态 LLM 是非常重要的。在混合模态训练(mixture-of-modality training,MMT)的帮助下,LaVIN 已经超越了现有的参数高效方法(LLaMA-Adapter)。
下图 4 是该研究将 LaVIN 对于纯文本和文本 - 图像指令输入的相应路由权重可视化的结果。我们可以发现 MM-Adapter 有效地将不同模态的推理解耦到两组适配器中。
表 4 比较了 LaVIN、LLaVA 和 BLIP2 训练支出:
图 5 比较了 LaVIN 与现有方法在单模态和多模态的指令跟随任务上的表现,例如数学、编码和图像字幕。与 LLaVA 和 LLaMA-Adapter 相比,LaVIN 在多个任务上实现了整体更好的回答。
图 6 比较了 LaVIN 与现有的多模态 LLM 在多轮对话中的表现,并使用 GPT-4 评估它们回答的质量。结果表明,LaVIN 得分最高,这说明了 LaVIN 在多模态对话方面具有更优秀的能力。
标签:
机器之心报道编辑:陈萍、小舟本文提出了一种新颖且经济实惠的解决方案,用于有效地将LLMs适应到VL(视觉语
2023-05-30智通财经APP讯喜临门603008603008SH公告公司将于2023年6月6日发放2022年年度现金红利每股派008元含税此次权
2023-05-30目前京东售价2599元,可参加(618优惠活动),到手价1299元,属于近期好价。这款电动车采用了高亮尾灯,即
2023-05-30一、不锈钢防盗窗清洗妙招有哪些先准备好抹布和不锈钢油,接着将不锈钢油倒少许在抹布上,将抹布放在不锈钢
2023-05-302023年5月30日,联翔股份(603272 SH)股东减持股份计划公告,公司持股7 6%的股东上海森隆投资管理中心(有限
2023-05-30今天小编岚岚来为大家解答以上的问题。强奸5年后可以告吗,强奸5相信很多小伙伴还不知道,现在让我们一起来
2023-05-30智通财经APP讯,华海药业(600521)(600521 SH)发布公告,近日,公司收到美国食品药品监督管理局(以下简称“
2023-05-30参考消息网5月29日报道 据埃菲社5月21日报道,人工智能所构成的威胁还远没有达到像科幻电影中那样,在
2023-05-30贵州茅台董事长丁雄军昨日表示,将以29元、39元、49元、59元、66元价格带为基础持续深耕现有6款产品(经典
2023-05-30近日,中国建筑金属结构协会公布第十五届第二批“中国钢结构金奖”获奖名单,由中建一局北京公司承建的...
2023-05-30最近,一家老牌食品商店有了新动态,宣布将于6月底闭店,开展为期两个月的“再造升级”工程。它,就是...
2023-05-30来为大家解答以下的问题,要管理员权限才能删除此文件是什么意思,怎么解决ldquo需要管理员权限才能移动此
2023-05-305月30日电,北京利尔公告,公司于近日收到中国证券监督管理委员会出具的《关于同意北京利尔高温材料股份有
2023-05-30每日小编都会为大家带来一些知识类的文章,那么为大家带来的是2012欧洲冠军联赛方面的消息知识,那么如果各
2023-05-301、梭织面料是织机以投梭的形式,将纱线通过经、纬向的交错而组成,其组织一般有平纹、斜纹和缎纹三大类以
2023-05-305月28日,安徽宁国。杭州一批60余人旅行团前往安徽旅游,在爬山过程中遭到雷击。据游客反映,因雷击受伤有1
2023-05-30在Computex2023大展上,华硕推出了ROGMatrixGeForceRTX4090显卡,这也标志着Matrix品牌的回归。华硕将ROGMa
2023-05-30永春一老师发现教科书配图错误,并发出纠错邮件编辑部送新版书籍图说是“可燃冰”,可配图却是冰山。泉...
2023-05-301、客家萝卜丸是一道广东省的特色传统名菜,属于粤菜系客家菜。2、将白萝卜去皮洗净切成丝,胡萝卜洗净切丝
2023-05-305月29日,万科公告称,公司董事会决议提名胡国斌、黄力平、雷江松、辛杰、郁亮和祝九胜(按姓氏拼音顺序)
2023-05-301、名称等级位置掉落率%卢安荒野蜥蜴0刀锋山50格里施纳蜥蜴67刀锋山33 3湿鳞吞噬者64
2023-05-305月29日,麒麟信安(688152)融资买入411 78万元,融资偿还296 77万元,融资净买入115 0万元,融资余额9331 51万元。
2023-05-305月29日,昊海生科(688366)融资买入243 91万元,融资偿还222 66万元,融资净买入21 24万元,融资余额1 04亿元。
2023-05-30阿根廷官方:征召布莱顿18岁边锋布纳诺特参加亚洲行,亚洲行,布纳诺特,阿根廷队,英国足球,足球竞赛,阿根廷官
2023-05-30近日,河北省邢台市内丘县第二中学开展“2023年全国科技活动周”活动,通过航模制作、机器人训练、人工...
2023-05-30据韩联社釜山、首尔5月29日报道,日本海上自卫队“滨雾”号导弹护卫舰于当地时间29日上午驶入釜山港,将...
2023-05-30高中生物号称只要把那几本课本给“吃”下去,拿个七八十分也不成问题。我先说:这真的不是骗人的!高中...
2023-05-301、市场上矿泉水不多,只是很多消费者一看见桶装水瓶装水就自以为是那是矿泉水,其实,你看见的只有极少一
2023-05-30解答:1、这种情况可能是稳定器有问题。检查一下。希望通过这篇文章能帮到你,在和好朋友分享的时候,也欢
2023-05-301、目前航空公司规定,婴儿出生14天后,身体健康就可以乘坐飞机。2、宝宝年龄小,对环境的抵抗力差,容易被
2023-05-301、下载好安装包直接down就行了。本文到此分享完毕,希望对大家有所帮助。
2023-05-30北京城市副中心报|记者陈强如果从高空俯瞰,你会发现,在京津冀三地之间有一条蓝绿色的绸带诗意蜿蜒。这条
2023-05-301、主要内容:为民、务实、清廉主要任务:着力解决人民群众反映强烈的突出问题。2、提高做好新形势下群众工
2023-05-30光伏玻璃行业:听证项目处理意见首次公布风险预警有望减缓供给增长
2023-05-30扬子晚报网5月29日讯(通讯员秦公轩陈雨柔记者陈勇)近日,南京市公安局秦淮分局光华路派出所综合窗口大厅
2023-05-30日本首相岸田文雄日前声称,北约计划在日本设立联络处。消息引起国际社会特别是亚太地区国家持续关注。
2023-05-30中新网湖南南县5月29日电 2023中国舟钓路亚公开赛揭幕战近日在湖南南县收官,共有来自全国10多个
2023-05-30据Hoopshype名记MichaelScotto报道,来自维拉诺瓦大学的小前锋惠特摩尔的体格和投篮能力给NBA高管们留下了
2023-05-29当前大家对于西关文化都是颇为感兴趣的,大家都想要了解一下西关文化,那么小美也是在网络上收集了一些关于
2023-05-29fzlz是什么意思,fzl是什么意思这个很多人还不知道,现在让我们一起来看看吧!1、女生对男生说这话,意思就
2023-05-29优胜劣汰,适者生存,汽车行业正在进入新一轮调整期。
2023-05-29想必现在有很多小伙伴对于高考英语高频词汇800和3500的区别方面的知识都比较想要了解,那么今天小好小编就
2023-05-29【手机之家新闻】5月24日OPPO发布了全新的OPPOReno10系列产品,其在设计上保持了轻薄的理念,带来了全新的
2023-05-29有投资者在投资者互动平台提问:上半年一直没有看到公司发布订单情况,公司上半年订单生产是否饱和?是否需
2023-05-29抖音生活服务发布的《五一消费数据报告》显示,今年五一,全国餐饮订单量同比增长超212%,充分验证了五一黄
2023-05-291、《守护者》是一部由瑞安·怀特执导的纪录片。文章到此就分享结束,希望对大家有所帮助。
2023-05-29原标题:让它们在博物馆安家我就放心了(主题)——访捐赠3000多台收音机的“张无线电”(副题)5月27日...
2023-05-29欢迎观看本篇文章,小升来为大家解答以上问题。欢度国庆节手抄报文字,欢度国庆节手抄报文字内容很多人还不
2023-05-291、广东省电子工业技术学院,正确是广东省工业贸易职业技术学校创办于一九五八年的广东省工业贸易学校是省
2023-05-29球天下5月29日讯,西甲第37轮,巴塞罗那坐镇主场3-0战胜马洛卡,赛后,巴塞罗那主教练哈维表示非常喜欢球队
2023-05-29分时图快速拉升意味此时存在大单买入,在大单的推动下,股价快速地上涨。截止发稿,山东高速(600350)涨幅
2023-05-29中国载人航天工程办公室副主任林西强表示,近期,我国载人月球探测工程登月阶段任务已启动实施,计划在2030
2023-05-295月27日,雨后初霁的休宁县齐云山景区云雾缭绕,建造在悬崖上的徽派民居在云雾中若隐若现,宛若人间仙境。
2023-05-291 端午来到兴致高。五花大绑把你套,挟持住你速度跑,跑到咱家小灰窑,先叫哥哥歇歇脚,再把你的衣服撩,白
2023-05-29受益于政府政策支持,我国城市轨道交通行业整体快速发展,运营路线长度和数量快速增长。据资料显示,截至20
2023-05-29近期,部分地区出现了新冠病毒感染的情况。在此提醒大家要做好科学防护,继续保持良好卫生习惯。
2023-05-29对话力拓铁矿CEO:将通过必要的投资为中国提供稳定可持续的铁矿石供应原创中国冶金报社中国冶金报社2023-05
2023-05-291、本公司已于2021年7月19日起暂停了本基金的大额申购、大额转换转入及大额定期定额投资业务,限制金额为不
2023-05-291、70年代,PUNK(朋克)这一词汇被创造,就象50年代ROCK’N’ROLL被创造一样。2、PUNK(朋克)
2023-05-29原标题:蓝色牧场孕育致富“黄金鱼”5月27日,在湛江市徐闻县西连镇,渔业工人从徐闻国桥深海养殖有限公...
2023-05-29今天来聊聊关于找合伙人的软件,找合伙人一起创业的平台的文章,现在就为大家来简单介绍下找合伙人的软件,
2023-05-291、1 烫伤疤痕经常发生在较为明显的部位,如脸部、手部、腿部等,这就对患者的日常生活造成了较大的影响,
2023-05-29新华网重庆5月28日电第十二届“蚩尤九黎杯”中国摩托艇重庆彭水大奖赛暨2023绿水青山中国休闲运动挑战赛...
2023-05-295月29日上市公司重要公告集锦:爱尔眼科拟3亿元至5亿元回购股份
2023-05-28在金龙湖之窗,江苏泛在智能科技研究院有限公司首席专家张一鸣显得十分惊喜,他告诉记者,此次观摩活动他
2023-05-28想必现在有很多小伙伴对于请谈一下:000807这只股票方面的知识都比较想要了解,那么今天小好小编就为大家收
2023-05-28黄昏之恋阿柒摄影作品对竹子的喜爱由来已久,欣赏它的形,源自它的意。因为喜爱,前年整修老宅时,便在东墙
2023-05-28曼城晒海报预热收官战:小蜘蛛&B席挑选本赛季过往比赛的海报,曼城,小蜘蛛,英超联赛,布伦特福德
2023-05-28哈兰德和德布劳内有望在这一场比赛中创造两项英超联赛纪录。
2023-05-28据全国标准信息公共服务平台信息,日前,国家标准《区块链和分布式记账技术参考架构》正式发布,将于2023年
2023-05-28想必现在有很多小伙伴对于政治家方面的知识都比较想要了解,那么今天小好小编就为大家收集了一些关于政治家
2023-05-28为加快培育高水平数字技术工程师,支持战略性新兴产业发展,助力数字经济和实体经济深度融合,近日,重庆市
2023-05-285月28日消息,今天中午12:31,东航全球首架交付的国产大飞机C919编程客栈,执行MU9191航班顺利抵达北京首都
2023-05-28“raptor是福特猛禽系列中的一款车型。福特猛禽,是指福特F全系,全部共7个级别,分别是F150、F250、F350、
2023-05-28今天,国产大飞机C919全球首次商业载客飞行!据了解,由旅客投票选出的主题餐食将会在航班上亮相。其中,经
2023-05-281、控制性详细规划计算机辅助设计系统是由武汉市城市规划设计研究院完成的科技成果。2、登记于2001年1月1日
2023-05-28收到网购零食后打开包装放入异物向商家索赔?近日,武汉市公安局东西湖区分局金银湖派出所破获一桩敲诈勒索
2023-05-28文:互联网江湖作者:志刚在手机逐渐替代电脑,PC走向“非刚需”品的时代地位后,中年联想也被迫踏上了...
2023-05-28成立于1941年,隶属于中央广播电视总台,是中国面向全球广播的国家级广播电台,也是在世界范围内使用多种语
2023-05-28今天小编肥嘟来为大家解答以上的问题。谷姐搜索谷姐搜索,谷姐搜索相信很多小伙伴还不知道,现在让我们一起
2023-05-28晋级十六强!阿根廷国青5-0新西兰国青,小组赛三连胜头名出线,十六强,新西兰,阿根廷国青
2023-05-281、没有的,由多种动植之荷尔蒙提取而成。2、喷洒后,性--欲倍增,兴奋至极,有种无法阻挡的冲动,可使您整
2023-05-28一间间核酸采样小屋披上了五颜六色的“外衣”,被赋予新的使命。医护人员利用窗口为进出小屋不便的老人...
2023-05-28对于香菜怎么做好吃这个问题感兴趣的朋友应该很多,这个也是目前大家比较关注的问题,那么下面小好小编就收
2023-05-28相信不少朋友,应该都和我一样都看了《护心》这部电视剧了吧,有没有人在看过之后觉得从第十五集开始,前后
2023-05-27青平台基金会董事长郑丽君被视为民进党“总统”参选人赖清德的副手搭档热门人选。郑丽君今表示,目前没...
2023-05-27想必现在有很多小伙伴对于志同道合是什么意思方面的知识都比较想要了解,那么今天小好小编就为大家收集了一
2023-05-27一起上市公司推迟分红派息的事件,或间接扰动了ETF市场。5月26日,平安基金公司公告,旗下沪深300ETF因申购
2023-05-27今夏,球队将对队内重要位置进行针对性补强,首当其冲的便是左边后卫位置,在马塞洛离队、门迪转会绯闻不断
2023-05-27大家好,本期AI前沿速报为大家带来了多个热门话题。G7AI会议即将召开、Nvidia市值暴涨、OpenAI资助等都是本
2023-05-27北京市16区疾控局正在陆续挂牌成立
2023-05-27新海南客户端、南海网、南国都市报5月26日消息(记者张野)随着一株株荒草的倒下,一块块新土被翻起,空气
2023-05-271、宝宝咳嗽多久可以自愈?其实孩子的咳嗽一般不会自愈,只是咳嗽是某种疾病的表现,或者是一些诱因导致的
2023-05-275月25日,由中国医院协会信息专业委员会主办的第27届学术年会——中国医院信息网络大会(CHIMA2023)在...
2023-05-27苹果高级运营副总裁JeffWilliams曾表示,汽车是移动设备的终极形态。进入新能源时代后,汽车行业竞争更加激
2023-05-27祢豆子和炭治郎都来到了地下室,以躲避鬼舞辻的下一波攻击。随后,祢豆子握住了炭治郎的手,将心意传达给了
2023-05-27现代快报网是由凤凰出版传媒集团旗下的现代快报倾力打造的江苏新闻门户网站,目前在南京、苏州、无锡、常州
2023-05-27据悉,该论坛在过往成功举办八届,如今已经演变成眼科白皮书发布和解读、各类眼科疾病新进展研讨、国际眼科
2023-05-27今年退休人员基本养老金上调3 8%。一mo惹事,众mo担当:“momo大军”反网暴头像兴起。11 英国电信巨头BT将裁员5 5万
2023-05-27当地时间5月26日,正在南非德班举行的2023年世乒赛结束了一场女单1 4决赛争夺,中国队奥运冠军陈梦以4:0击
2023-05-27Copyright © 2015-2032 华西水产网版权所有 备案号:京ICP备2022016840号-35 联系邮箱: 920 891 263@qq.com