wordpress快站网站建设彩票

张小明 2026/1/13 0:15:49
wordpress快站,网站建设彩票,做网站需要多大的图片,网站怎么做引流2024年EMNLP上#xff0c;滑铁卢大学团队提出的文档截图嵌入#xff08;Document Screenshot Embedding, DSE#xff09; 范式#xff0c;为这一痛点提供了颠覆性解决方案。该方法将任意文档转化为截图作为统一输入#xff0c;无需任何内容提取预处理#xff0c;直接通过…2024年EMNLP上滑铁卢大学团队提出的文档截图嵌入Document Screenshot Embedding, DSE 范式为这一痛点提供了颠覆性解决方案。该方法将任意文档转化为截图作为统一输入无需任何内容提取预处理直接通过视觉语言模型编码为密集向量完美保留文档的文本、图像、布局等全部信息。在信息爆炸的时代我们面临的文档形态日益多元——网页、PDF、幻灯片等载体中文本、图像、图表、表格等模态交织共存。传统检索系统却始终受制于“分而治之”的逻辑HTML需要解析器、PDF依赖OCR、图像单独处理不仅预处理流程繁琐易错还会不可逆地丢失文档原始布局和视觉上下文信息。2024年EMNLP上滑铁卢大学团队提出的文档截图嵌入Document Screenshot Embedding, DSE范式为这一痛点提供了颠覆性解决方案。该方法将任意文档转化为截图作为统一输入无需任何内容提取预处理直接通过视觉语言模型编码为密集向量完美保留文档的文本、图像、布局等全部信息。论文地址https://aclanthology.org/2024.emnlp-main.373.pdf01、研究背景传统检索的两大核心痛点现有文档检索系统无论采用传统 lexical 方法还是神经模型都存在难以逾越的局限1. 预处理繁琐且易出错不同格式文档HTML、PDF、幻灯片需要定制化解析工具如HTML的结构解析、PDF的OCR文本提取、表格的单独处理。现实中野生HTML结构复杂、幻灯片布局多样单一工具难以精准提取全部信息且长期维护多模态处理流程成本极高。2. 视觉上下文与布局信息丢失文档的视觉呈现本身承载着关键语义标题的字号、图表的位置、文本的排版都在暗示信息的重要性层级。而传统方法通过提取文本或拆分图像单元进行处理彻底破坏了这种视觉完整性导致检索时丢失核心上下文线索。3. 多模态缺乏统一编码范式现有多模态检索仍依赖“文本图像”的分离编码无法将文档作为一个有机整体建模面对混合模态文档时检索效果受限。为此DSE的核心思路应运而生既然文档的原始形态包含所有信息何不直接将其作为检索的最小单元截图作为一种通用载体能轻松覆盖各类文档格式且完整保留视觉与布局信息。02、核心贡献范式创新数据集支撑1. 提出DSE统一检索范式首次将文档截图作为多模态检索的统一输入格式无需任何内容提取预处理直接通过视觉语言模型VLM编码为密集向量实现“截图输入→向量编码→相似度匹配”的端到端检索流程。2. 构建两大大规模评估数据集Wiki-SS130万张维基百科网页截图覆盖文本密集型文档场景用于验证DSE对纯文本信息的编码能力。SlideVQA-Open5万张幻灯片截图包含丰富的文本-图像混合内容图表、复杂布局用于评估混合模态检索性能。03、核心贡献范式创新数据集支撑现有数据集多为“文本图像”分离存储缺乏对文档整体视觉结构的保留且规模较小。为此研究团队构建了两个针对性数据集Wiki-SS文本密集型截图数据集构建方式使用Selenium工具自动访问英文维基百科页面以980×980像素窗口截图确保覆盖核心内容。截图时间跨度为2024年5月20-23日保证数据时效性。存储优化完整维基百科截图需2TB以上存储空间因此通过BM25筛选“有效样本”将每个NQ数据集的问题答案作为查询检索前50个相关文档最终保留1,267,874张截图确保包含正样本和困难负样本。文本对照集基于2024年5月20日维基百科dump使用mwparserfromhell工具提取前500词匹配截图内容覆盖范围构建文本检索基线的对照语料。SlideVQA-Open混合模态幻灯片数据集来源改造将原始SlideVQA14.5k问答对、52k幻灯片转换为开放域检索任务需从5万张幻灯片中检索相关样本。数据清洗删除无法下载的幻灯片和无证据幻灯片的问题最终保留50,714张幻灯片和2,136个测试问题。文本对照集使用pytesseract OCR提取幻灯片文本构建OCR-based检索基线。04、DSE核心方法截图→编码→检索的全流程解析DSE的核心是双编码器架构分别处理文档截图和文本查询通过对比学习优化相似度匹配。任务定义给定查询Q和文档截图集合检索与Q最相关的k个文档相似度由余弦相似度衡量模型架构详解1视觉编码器捕捉细粒度视觉信息基础模型采用clip-vit-large-patch14-336将截图缩放至336×336像素划分为24×24个patch共576个每个patch通过线性投影生成嵌入。优化方案针对长文本截图的细粒度捕捉问题引入Phi-3-vision模型将截图裁剪为个子图像如4×4每个子图像独立编码为576个patch嵌入同时保留全局截图的576个patch嵌入最终生成个patch嵌入兼顾局部细节与全局信息。2语言模型融合视觉与文本语义输入构造将patch嵌入序列与提示词拼接simg What is shown in this image?/s其中img占位符替换为patch嵌入序列。嵌入生成使用语言模型最后一个隐藏层的/s标记嵌入作为文档截图的最终向量表示其中是视觉编码器是语言编码器。3查询编码文本到向量的映射文本查询通过模板s{query}/s输入语言模型同样取/s标记的嵌入作为查询向量4对比学习训练损失函数采用InfoNCE损失优化正样本文档与查询的相似度抑制负样本文档含困难负样本和批次内负样本05、实验结果全方位验证DSE的优越性实验设置了两大核心任务文本密集型网页检索Wiki-SSNQ和混合模态幻灯片检索SlideVQA-Open对比基线包括BM25、DPR、E5、Phi-3文本检索和CLIP视觉检索。监督检索效果碾压传统方法文本密集型任务NQDSE 比 BM25 高 17 个 Top-1 准确率与 E5 性能相当仅略低于 Phi-34 个百分点证明其能有效编码截图中的文本信息。混合模态任务SlideVQADSE 大幅领先所有文本基线超 15 个 nDCG10比 CLIP 高 12.6 个 nDCG10凸显视觉上下文保留的核心价值 ——OCR 方法丢失图表、布局信息而 DSE 完整捕捉混合模态语义。零样本泛化能力跨数据集/跨任务的通用性跨数据集泛化TriviaQADSE比BM25高3个Top-1准确率远优于DPR和CLIP显示对不同查询分布的适应性。跨任务泛化SlideVQADSE是唯一优于BM25的模型比文本基线高14个nDCG10证明其无需任务特定训练即可处理混合模态文档。块序列长度的权衡细粒度与效率的平衡效果提升随着裁剪数量从1×1增加到4×4Top-10准确率从62.0%提升至73.7%细粒度patch能捕捉更多文本细节如单个字母、关键词。效率下降编码速度从12.2 doc/sec降至4.3 doc/sec计算成本随序列长度增长。最优选择2×2或3×3裁剪可平衡效果与效率适用于大多数场景。消融分析为何DSE如此有效1注意力可视化全局局部信息双捕捉全局注意力聚焦标题、图像、章节等宏观结构。局部注意力关注关键词、单个字母等细粒度文本信息。证明DSE能同时捕捉文档的结构特征和语义细节。2视觉整合的必要性对Phi-3文本检索的50个失败案例分析22个案例因OCR文本提取错误导致失败。28个案例因缺少视觉上下文如图表、布局导致失败。证明传统文本方法既受限于OCR准确性又丢失视觉信息而DSE通过截图编码完美解决这两个问题。3假阴性分析捕捉主文本外的关键信息传统评估仅检查主文本中的答案匹配导致DSE的7/50个样本被误判为“无关”——实际答案存在于截图的表格、图像标题中。这表明DSE能利用文档的完整视觉结构挖掘传统方法忽略的信息。06、总结DSE 通过 “截图作为统一输入” 的创新范式彻底简化了多模态检索的预处理流程同时完整保留文档的视觉与布局信息在文本密集型和混合模态任务中均展现出卓越性能。其单向量嵌入与双编码器架构平衡了检索效率与精度为通用场景提供了简洁高效的解决方案尤其在网页、幻灯片等常见文档类型的检索中表现突出。2025 年 ICLR 上的 ColPali 工作进一步提出多向量嵌入与延迟交互机制通过捕捉文档 patch 与查询 token 的细粒度匹配实现了检索精度的再提升。这两款模型虽技术路径不同但共同验证了 “直接基于原始像素的多模态检索”** 范式的可行性与优越性**也反映出该方向仍有巨大挖掘空间 —— 从单向量到多向量、从通用场景到工业级适配技术迭代正持续推动性能边界。但模态对齐仍是需要解决的关键问题。当前 DSE 虽能通过视觉语言模型融合文本与视觉信息但在文本密集场景中其性能仍略逊于专门的文本检索模型如 Phi-3说明视觉模态向文本语义的精准映射仍有优化空间而 ColPali 的多向量机制虽提升了匹配精度却也带来了更高的存储与计算成本如何在模态对齐质量与系统效率之间找到更优平衡仍是未来研究的核心方向。此外跨文档类型的泛化能力、低质量截图模糊、低分辨率的鲁棒性、无监督 / 弱监督训练策略的探索等也是该领域亟待突破的课题。随着视觉语言模型的持续演进未来的多模态检索系统有望实现 “精度与效率并重、通用与专用兼顾” 的目标进一步拓展在 RAG、学术文献检索、企业文档管理等实际场景的应用深度与广度。如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

win7 iis设置网站首页宣城网站开发专业制

CFR Java反编译工具:轻松解密字节码的终极指南 【免费下载链接】cfr This is the public repository for the CFR Java decompiler 项目地址: https://gitcode.com/gh_mirrors/cf/cfr 在现代Java开发中,字节码解析已成为开发者必备的核心技能。CF…

张小明 2026/1/11 8:23:24 网站建设

外贸网站建站h厦门建设网站公司

Boris 的 9 条 Claude Code 实战技巧:原来高手的配置这么“朴素” Boris Cherny 在 Anthropic 内部有个绰号:Claude Code 之父。他最近在 X 上很活跃,于是很多人问 Boris:你自己到底怎么用 Claude Code?他刚在 X 上分…

张小明 2026/1/11 11:53:57 网站建设

肇庆 网站建设 骏域网站织梦学校网站模板

Avalonia跨平台UI开发终极指南:5大实战场景快速上手 【免费下载链接】Avalonia AvaloniaUI/Avalonia: 是一个用于 .NET 平台的跨平台 UI 框架,支持 Windows、macOS 和 Linux。适合对 .NET 开发、跨平台开发以及想要使用现代的 UI 框架的开发者。 项目地…

张小明 2026/1/11 7:42:19 网站建设

精通网站建设企业网站搭建 网络活动策划

7个提升观影体验的高效视频播放技巧 【免费下载链接】ZyPlayer 跨平台桌面端视频资源播放器,免费高颜值. 项目地址: https://gitcode.com/gh_mirrors/zy/ZyPlayer 作为一款优秀的跨平台视频播放器,ZyPlayer为用户提供了专业级的观影解决方案。无论你是追求极…

张小明 2026/1/10 23:21:30 网站建设

外国做图网站如何用vs2012做网站

非通用对话模型的价值再认识:垂直场景胜过大而全 在当前大语言模型(LLM)的军备竞赛中,参数规模、训练语料广度和多任务泛化能力几乎成了衡量“先进性”的唯一标准。GPT-4、Llama-3、Qwen 等动辄数十亿甚至万亿级参数的模型不断刷新…

张小明 2026/1/11 4:42:15 网站建设

生成logo的网站网络维护简历模板

从零搭建S32K开发环境:手把手带你跑通第一个工程你是不是也遇到过这种情况?刚拿到一块S32K144开发板,满心期待地想点亮LED,结果卡在IDE安装这一步——下载慢、驱动装不上、编译报错……折腾半天代码还没写一行。别急。作为踩过无数…

张小明 2026/1/11 5:41:46 网站建设