网站开发项目报告网站设计步骤图

张小明 2026/1/12 21:42:21
网站开发项目报告,网站设计步骤图,wordpress空俩格,做网站排名的公司简介 本文提出了一种新的多模态大语言模型评估方法#xff0c;构建了M3STR基准测试#xff0c;专门评估模型对结构化知识的抽象视觉理解能力。通过设计计数、检测和补全三类任务#xff0c;对26个主流MLLMs进行全面评估#xff0c;研究发现当前模型在抽象视觉理解方面存在…简介本文提出了一种新的多模态大语言模型评估方法构建了M3STR基准测试专门评估模型对结构化知识的抽象视觉理解能力。通过设计计数、检测和补全三类任务对26个主流MLLMs进行全面评估研究发现当前模型在抽象视觉理解方面存在显著局限尤其在处理复杂结构化知识时表现不佳。这一研究为未来MLLM发展指明了方向强调了提升模型对抽象内容理解能力的重要性。论文题目Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation本文作者张溢弛浙江大学、陈卓浙江大学、郭凌冰浙江大学、徐雅静浙江大学、张民哈尔滨工业大学深圳校区、张文浙江大学、陈华钧浙江大学发表会议ACM MM 2025论文链接https://arxiv.org/abs/2506.01293代码链接https://github.com/zjukg/M3STR欢迎转载转载请注明出处****一、摘要多模态大语言模型MLLM代表了超越传统大语言模型LLM的进化飞跃具备多模态内容理解和生成能力现已成为多媒体领域的研究前沿。通过使用连接器桥接异构多模态表示空间的差距诸如Qwen2.5-VL、LLaVA等MLLMs能够处理不同模态的信息并解决多样的多模态任务。如上图所示目前已涌现出许多基准来评估MLLMs的多维能力这些基准涵盖了关于自然场景、肖像、各种生物及现实世界物体的图像。其他一些MLLM基准则建立在包含数学、代码和图表等内容的合成图像上。然而现有的基准范式明显忽视了一个关键的MLLM能力维度对包含高度抽象结构化知识的视觉内容的理解与解释。这类结构化表示——以思维导图和知识图谱KG为例——在日常生活中无处不在。与传统图像不同这些结构同时编码了具体的视觉实体和复杂的关系语义。MLLMs不仅需要识别实体还需解读其间的关联拓扑结构和抽象连接这本身是抽象且困难的任务。这种能力对MLLMs至关重要因为它从根本上反映了模型通过视觉模态内化结构化世界知识的能力这是开发能够模拟人类概念理解能力的人工通用智能的基础要求为应对当前研究的不足我们提出了一个评估MLLMs的新视角结构化知识的抽象视觉理解。我们构建了一个名为M3STR意为“怪物”的新基准即用于结构化理解的多模态思维导图。M3STR以多模态知识图谱MMKG为数据源将多样化的结构化人类知识封装在图像输入中。上图展示了一个图像样本的简单示意本文中称之为多模态思维导图。我们在M3STR基准中设计了三种任务类型计数、检测和补全用以从不同层面评估MLLMs对多模态思维导图的理解能力。这些任务进一步细分为多个子任务专门针对实体和关系的理解。我们提出了一套流程来合成多模态思维导图整合了结构化知识和多模态内容。首先我们从大规模MMKG中采样子图实例然后对这些子图进行特定任务的修改最后使用可视化API将包含多模态信息的子图转换为图像。此外我们还设计了特定任务的提示模板来引导MLLMs。我们的数据与现有基准的核心区别在于图像包含更抽象的实体信息及其关系拓扑。我们对26个主流MLLMs进行了全面评估。除评估排行榜外我们还进行了一系列探索性实验以检验多模态思维导图中实体特定的多模态信息是否影响最终预测。基于实验结果我们得出若干关键见解表明当前MLLMs仍难以理解视觉模态中的高级抽象。这些发现揭示了MLLMs存在显著的能力缺陷并指明了未来改进的潜力与方向。总之本文的贡献主要包括三方面我们提出了一个全新视角用于评估MLLMs对结构化知识的抽象视觉理解能力该领域此前尚未被探索。我们构建了一个名为M3STR的新基准并提供了新的构建流程包含多样化的任务类型和数据分布。我们在M3STR上对26个主流MLLMs进行了全面评估。我们有趣的发现表明当前MLLMs在抽象内容理解方面仍面临困难。二、方法本文旨在设计一个新基准从一个新角度衡量当前MLLMs的能力即理解包含高度抽象的结构化知识的能力。MMKGs被选为数据源因为它们不仅包含大量知识而且以半结构化形式组织。要视觉化解读KG中的信息MLLMs不仅需理解每个具体实体还需掌握其间的关系拓扑。与自然场景中物体通常遵循物理和空间规律不同KGs的视觉表示形成了更抽象、更复杂的图结构包含多模态实体信息和关系边。下文将描述如何构建此基准并报告实验结果。M3STR基准数据集概述上图展示了我们为MLLMs结构化理解所构建的多模态思维导图基准M3STR的组成结构。我们设计了三种任务类型从不同层面评估MLLMs的抽象视觉理解能力任务1计数要求MLLMs计算图中实体和关系的数量。此任务属于粗粒度对象识别评估MLLM对MMKGs的表层识别能力。任务2检测要求MLLMs判断给定的MMKG子图中是否存在事实异常并回答“是”或“否”。要正确回答MLLM必须对嵌入MMKG中的常识信息做出更高级别的判断。任务3补全要求模型在给定局部上下文的情况下预测MMKG中缺失的实体或关系。此任务类似于知识图谱补全KGC成功预测能体现MLLM的理解和简单推理能力。同时上图展示了各任务的基本形式和预期输出格式。每种任务还包含若干侧重于实体或关系的子任务共计7个子任务。所有任务均以从MMKG采样的子图作为输入该子图被可视化为图像I并配以特定任务的问题提示Q引导MLLM产生答案A。M3STR构建过程M3STR基准的构建流程主要包括三个步骤子图采样、数据实例构建和视觉翻译。我们使用经典的FB15K-237 MMKG作为原始数据源。整体流程如上图所示。子图采样从MMKG KG中随机采样一个子图 G’ (E’, R’, T’)其中E’和R’是原始集合的子集T’包含这些实体和关系间的所有三元组。采样从起始实体e开始通过随机采样器如深度优先或广度优先搜索直至获得包含K个实体的子图。数据实例构建根据特定任务对采样的子图G’进行修改得到修改后的子图G’和黄金答案A。 对于计数任务不修改子图直接计算实体或关系数量作为答案。 对于检测任务以一定概率修改子图中的某个实体或关系引入错误生成含异常正样本答案为“是”和不含异常负样本答案为“否”的实例比例控制在1:1。 对于补全任务随机掩码子图中的一个实体或关系并提供四个干扰选项要求模型预测被掩码部分。视觉翻译使用GraphViz等可视化API将修改后的子图G’转换为图像I。在此过程中实体的图像和实体/关系的文本描述均被整合到最终的可视化结果中生成包含图结构、实体视觉信息和文本描述的多模态图像。同时为每个子任务准备特定的提示模板作为问题Q。对于补全任务提示中还包含选项信息。最终得到数据实例 (I, Q, A)。评估方案每个数据实例格式统一为 (I, Q, A)。评估时向MLLM提供图像I和问题提示Q获得输出A*。对于特定子任务tMLLM的得分S是生成答案与黄金答案的准确率。MLLM的总体得分S是7个子任务得分的平均值用以衡量其在抽象视觉推理任务上的综合能力。三、实验实验本节展示M3STR基准在多种MLLMs上的详细实验与评估结果。我们的分析旨在回答以下三个研究问题RQRQ1主流MLLMs在M3STR的三个任务上表现如何哪个模型在抽象视觉推理任务上达到了最优RQ2MLLMs能否充分理解视觉上下文中的多模态思维导图哪种模态对最终输出贡献最大RQ3MLLMs输出的答案分布如何是否存在特定偏差或缺陷实验设置采用的MLLMs我们评估了23个主流开源MLLMs包括InstructBLIP、LLaVA系列、Chameleon、MiniCPM-V系列、Deepseek-VL系列、InternVL-2.5系列、Phi-vision系列、Qwen2-VL系列和Qwen2.5-VL系列模型参数规模从1B到72B不等。同时还评估了3个著名的支持多模态输入的API模型GPT-4V-turbo、GPT-4o-mini和Gemini-2.5-pro。评估细节模型权重从HuggingFace Model Hub和ModelScope获取使用transformers和vLLM库进行推理。温度为0.0以确保结果可重现。对于vLLM支持的模型使用引导解码约束输出范围。所有实验在配备NVIDIA A800 GPU的Linux服务器上进行。主要实验结果下表总结了26个主流MLLMs的主要评估结果展示了各任务准确率、总体得分及排名。视角一开源MLLMs在M3STR上表现领先Qwen2.5-VL-72B取得了最优的总体成绩。Qwen系列模型表现突出其他开源模型如InternVL、Phi和DeepSeek-VL也具竞争力。而著名的闭源API模型如GPT-4V/GPT-4o和Gemini排名相对靠后。Qwen模型包揽前五名中的四席显示出在该基准上的明显优势。例如GPT-4V-Turbo在26个模型中排名第20性能落后于多数开源模型。这表明开源MLLMs在理解和推理视觉MMKGs方面通常优于闭源模型。视角二模型缩放定律依然适用缩放定律在M3STR的新任务上得到验证。在Qwen2-VL和Qwen2.5-VL系列中随着模型规模增大如从3B/7B到72B任务性能显著提升。例如在任务1实体计数中Qwen2.5-72B相比Qwen2.5-7B有显著提升。这表明模型缩放带来收益尤其在7B到72B参数区间改善明显。此外模型的代际演进如MiniCPM版本迭代、Phi-3到Phi-3.5、Qwen2-VL到Qwen2.5-VL也持续带来性能进步反映了模型架构、数据、训练策略等方面的有效优化。视角三当前MLLMs仍难胜任抽象视觉理解实验结果清楚表明当前MLLMs尤其是较小模型在抽象视觉理解上存在严重局限。许多模型在特定子任务上的表现接近随机猜测。例如最简单的任务1实体计数半数被评估MLLMs的准确率低于30%表明其基本视觉感知存在缺陷。任务2异常检测挑战更大近乎所有MLLMs表现接近或差于随机水平。只有Qwen2/2.5-VL-72B和部分API模型在混合检测设置中略优于随机猜测但准确率仍不理想。这与MLLMs中常见的幻觉问题形成对比模型在任务3多项选择题形式上表现相对较好许多在零样本条件下准确率超80%。这表明尽管在跨模态对齐能从结构化选项中选答案方面有进展但当前MLLMs严重缺乏对描述结构化知识含多模态实体和关系拓扑的图像进行细粒度理解的能力。模态贡献分析我们进一步分析了M3STR基准中不同模态的贡献。由于合成的视觉MMKG图像包含像素中的图像和文本信息丰富且复杂我们探究MLLMs是否有效利用了所有模态。我们生成了信息量减少的基准数据集如移除实体图像或文本进行实验并与纯文本输入的KG描述进行对比。结果揭示了反直觉的现象移除部分视觉元素后许多MLLMs的准确率反而提升。例如在任务1中Qwen2.5-VL-7B移除实体图像后性能提升159%甚至超过某些72B模型。类似模式见于LLaVA和MiniCPM-V架构。只有Qwen2.5-72B等较大模型符合直觉。这表明冗余视觉细节可能干扰较小MLLMs的实体枚举任务。在补全任务中此现象有所缓解但仍存在。更显著的是用文本KG描述替代视觉MMKG显著提升了MiniCPM和Qwen模型的准确率暗示其对文本知识表示的理解优于视觉形式部分原因可能是FB15K-237作为知名数据集已存在于预训练语料中。这些观察表明一个根本局限当前MLLMs缺乏对视觉知识表示进行抽象结构理解的鲁棒能力。面对复杂视觉形态时较小模型会出现认知超载。文本输入的持续优势表明尽管有多模态架构视觉处理能力仍远逊于语言推理。我们进一步检验了多模态适配对底层LLM骨干的影响。如图5所示多模态适配通常带来显著优势。多数MLLMs即使在纯文本KG输入上也优于其基础LLMs表明多模态训练不仅增强了跨模态能力也提升了在M3STR上的文本推理能力。唯一例外是Qwen2.5-72B在任务3上其强大的LLM骨干可能削弱了可见增益。总体而言多模态扩展有效提升了模型的抽象理解能力。案例研究为直观展示不同模型的性能差异我们绘制了部分MLLM预测结果的混淆矩阵。任务1的结果显示明显的性能分层强模型如Qwen2.5-VL-72B的错误预测接近真实计数而弱模型如LLaVA则呈现混乱和有偏的答案分布体现了细粒度的能力差距。任务2的分析进一步暴露了严重缺陷大多数MLLMs表现出严重的预测偏差系统性地默认输出特定类别而非随机猜测反映了其异常检测能力的严重不足。尽管Qwen2.5-VL-72B在局部异常检测上表现出稍好的判断力但其整体性能仍不理想。这些结果共同揭示了MLLMs存在持续的幻觉倾向和在视觉KGs中进行关系推理的惊人缺陷。四、结论本文引入了一个新的视角来评估MLLMs对包含多模态实体信息和关系拓扑的结构化知识的抽象视觉理解能力这是一个此前未被深入探索的领域。我们构建了M3STR基准及其新构建流程。通过使用M3STR进行全面评估我们从结果中发现了重要见解表明当前MLLMs在有效理解抽象内容方面仍面临挑战。这些发现凸显了未来在MLLM架构和方法论上进一步推进的必要性特别是在其理解和生成复杂、结构化关系知识的能力方面这也是发展多模态人工通用智能的未来方向。五、如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

建设大型购物网站做网站排行榜

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个带性能对比的~bt清理工具,要求:1) 实现手动清理模拟功能 2) 实现自动清理功能 3) 记录两种方式耗时 4) 统计释放空间大小 5) 生成可视化对比图表。使…

张小明 2025/12/29 16:32:55 网站建设

东莞专业网站推广平台网站建设开发公司推荐指数

番茄小说永久收藏指南:从下载到阅读的完整解决方案 【免费下载链接】fanqienovel-downloader 下载番茄小说 项目地址: https://gitcode.com/gh_mirrors/fa/fanqienovel-downloader 您是否曾经遇到过这样的情况:心爱的小说突然下架,或者…

张小明 2026/1/5 23:16:17 网站建设

我想开个网站平台怎么开呢游戏官网制作

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个Office卸载效率对比工具,要求:1. 内置传统卸载方法 2. 集成AI智能卸载 3. 自动记录时间消耗 4. 扫描残留对比 5. 生成可视化报告。使用C#开发Window…

张小明 2025/12/31 2:56:23 网站建设

网站运营网站建设中小企业网络组网案例

引言 如果说 2024 年是 AI Agent 的“概念爆发期”,那么刚刚过去的 2025 年,无疑是 Agent 的**“工程化元年”。 LangChain 刚刚发布的重磅报告 《State of Agent Engineering 2025》,联合去年的数据,为我们勾勒出了一条清晰的技术…

张小明 2025/12/31 0:57:13 网站建设

睢县做网站哪家好贵阳地铁建设网站

鼠标性能测试神器:5分钟快速检测你的设备真实表现 【免费下载链接】MouseTester 项目地址: https://gitcode.com/gh_mirrors/mo/MouseTester 你是否曾在激烈的游戏中感到瞄准不够精准?或在精细的设计工作中发现光标移动不够流畅?这些…

张小明 2026/1/9 2:39:10 网站建设

有没有做门面设计的网站wordpress 团购模版

软件系统开发全解析:生命周期、参与方与文化挑战 1. 通用四阶段软件系统开发生命周期 软件因其无形的特性,在开发过程中难以直观呈现,这就需要通过将开发工作划分为不同阶段来提高其可见性。把软件项目拆分成更小、更易管理的部分,便产生了软件开发生命周期的概念。这一概…

张小明 2025/12/31 8:22:03 网站建设