你的LoRA须要降级了!科大讯飞等提出MiLoRA 陈腐且高效的LoRA变体

你的LoRA须要降级了!科大讯飞等提出MiLoRA 陈腐且高效的LoRA变体

论文链接,https,arxiv.org,pdf,2410.18035低秩顺应,LoRA,及其专家混合,MOE,变体是十分有效的参数高效微调,PEFT,方法,但是,由于在Transformer层中增加了LoRA模块和MOErouters,这......
萌子哥 11-14
321 423 480
多粒度战略笑傲生成 编辑 修复 条件生成和了解 着色 一致多模态大模型!PUMA

多粒度战略笑傲生成 编辑 修复 条件生成和了解 着色 一致多模态大模型!PUMA

文章链接,https,arxiv.org,pdf,2410.13861名目链接,https,github.com,rongyaofang,PUMA总结速览处置的疑问,现有的多模态大模型,MLLMs,在视觉内容生成方面没有充沛处置不同图像生成......
萌子哥 11-14
256 192 694
图像编辑多义务一扫而空!PromptFix 微软 罗切斯特大学&amp 大规模视觉指令数据集 新型分散模型&amp

图像编辑多义务一扫而空!PromptFix 微软 罗切斯特大学&amp 大规模视觉指令数据集 新型分散模型&amp

文章链接,https,arxiv.org,pdf,2405.16785名目链接,https,www.yongshengyu.com,PromptFix,Page总结速览处置的疑问,现有分散模型在处置自定义用户指令时缺乏多样化数据,尤其是在低......
萌子哥 11-14
497 572 533
AI颁布TIPS Mistral 具有空间看法的文本 谷歌&amp

AI颁布TIPS Mistral 具有空间看法的文本 谷歌&amp

文章链接,https,arxiv.org,pdf,2410.16512亮点直击具有空间看法的文本图像预训练,TIPS是一种通用的图像,文本编码器模型,可无成效于密集和全局了解,用于纯视觉或视觉言语义务,全体运行流程见下图,总结速览处置的疑问......
萌子哥 11-14
828 239 296
一致多模态了解和生成 仅1.3B!Janus

一致多模态了解和生成 仅1.3B!Janus

Janus是一个一致的多模态了解和生成的大型言语模型,MLLM,,它将多模态了解和生成的视觉编码解耦,Janus基于DeepSeek,LLM,1.3b,base构建,该模型训练时经常使用了大概5000亿个文本token的语料库,在多模态了解......
萌子哥 11-14
709 614 675
RAG全景图 从RAG启蒙到初级RAG之36技 RAG! 再到终章Agentic

RAG全景图 从RAG启蒙到初级RAG之36技 RAG! 再到终章Agentic

检索增强生成,RAG,Retrieval,AugmentedGeneration,技术可追溯到2020年Facebook宣布的一篇论文,Retrieval,AugmentedGenerationforKnowledge,IntensiveN......
萌子哥 11-14
265 220 250
逾越CLIP 视觉大模型训练新范式

逾越CLIP 视觉大模型训练新范式

​​https,github.com,OpenGVLab,LCL​​视觉backbone的数据瓶颈CLIP是第一个衔接图像和文本的基础模型,但在大模型时代,仅凭对比学习的监视,曾经无余够让下游视觉,言语模型,VLM,取得足够好的功能,尤其是......
萌子哥 11-14
952 694 774
一文彻底搞懂多模态

一文彻底搞懂多模态

MultiModal在人工智能的始终开展中,多模态学习逐渐锋芒毕露,成为了一个关键的钻研方向,它不再局限于繁多类型的数据解决,而是将图像、文本、音频等多种消息源联合起来,为机器提供了愈加丰盛和多元的了解视角,接上去分四部分,传统机器学习、深......
萌子哥 11-14
605 270 679
YOLO11问世!从新定义AI的或者性!

YOLO11问世!从新定义AI的或者性!

YOLO11标记着YOLO家族的新篇章,提供了更弱小,更多性能的模型,将计算机视觉带到新的高度,仰仗其完善的架构和增强的性能,该模型支持计算机视觉义务,如姿态预计和实例宰割,视觉AI社区曾经爱上了UltralyticsYOLOv8,但具备更......
萌子哥 11-14
448 481 457
一致多模态输入与生成 Emu3

一致多模态输入与生成 Emu3

Emu3在生成和感知义务中逾越了多个义务的公用模型,体现优于干流开源模型如SDXL、LLaVA,1.6和OpenSora,1.2,同时不须要基于Diffison或组合多种不同架构,Emu3能够依据文本输入生成高品质的图像,经过便捷地预测下一......
萌子哥 11-14
937 652 667