深圳 手机网站建设用word做网站功能结构图

张小明 2026/1/12 21:43:45
深圳 手机网站建设,用word做网站功能结构图,linux 网站备份,中国建设银行公司网站官网这篇文章详细拆解了金融领域RAG系统的构建全流程#xff0c;包括离线解析#xff08;数据入库#xff09;和在线问答#xff08;实时检索#xff09;两大核心链路。文章重点讲解了PDF深度解析、智能文本分块、层级结构重建#xff0c;以及Query优化、混合检索、领域微调和…这篇文章详细拆解了金融领域RAG系统的构建全流程包括离线解析数据入库和在线问答实时检索两大核心链路。文章重点讲解了PDF深度解析、智能文本分块、层级结构重建以及Query优化、混合检索、领域微调和重排序等策略。强调了解析质量决定系统上限提供了具体实现方法帮助读者构建高效精准的金融RAG系统。开篇在AI产品的落地中RAG是知识库的标配且是Agent应用中的核心组件。尤其是在金融、保险等专业领域多栏排版、扫描件模糊、跨页表格以及用户模糊的提问意图这些非结构化数据带来的挑战是每一个AI产品经理和技术团队必须攻克的深水区。这篇文章是复盘自一套真实的金融RAG实战项目。跳出代码细节从「离线解析数据入库」与「在线问答实时检索」这两条核心链路出发拆解构建RAG系统的底层逻辑。对于AI产品经理而言拥有系统性的优化思维至关重要知道了数据在管道中是如何流动的才能在产品出现Bad Case时精准定位是解析出了问题呢还是检索走了神。希望这份关于RAG流程的实战梳理能给正在探索真实项目的你带来一些启发☺️全链路架构做一个RAG产品首先要建立上帝视角不能只停留在前端的对话框还要看透后端的「双流」架构。RAG系统本质上由两条异步的流水线组成1、离线处理流程数据入库 这是系统的消化系统。提取从PDF、PPT、TXT等异构数据源中提取内容。向量化通过Embedding模型将文本转化为向量。存储将文本和向量存入向量数据库如Milvus/ElasticSearch和关系型数据库如PostgreSQL。2、在线查询流程实时问答 这是系统的大脑。查询处理对用户Query进行编码、重写和意图识别。检索通过语义检索和关键词检索获取相关片段。生成LLM基于增强的上下文生成最终回答。 注意一下离线阶段是提前做好知识库的解析当用户来问问题的时候就是第二阶段在线检索。通过这两步操作最终将用户的问题扩充为检索回来的精确文本块用户的原始问题再一起送给LLM作为user prompt。离线解析精细化治理RAG领域的名言Garbage In, Garbage Out在金融研报这种专业领域体现的淋漓尽致解析质量直接决定了系统的上限。可以从「解析、分块、层级结构」这三个维度进行优化1、深度解析从「看到」到「看懂」在金融RAG中PDF解析不能是单纯的文字提取需要对文档结构进行逆向工程集成OCR、深度学习布局识别和机器学习文本合并的复杂流水线。1视觉化与OCR让机器“看”到金融研报中大量存在扫描件或图片格式的图表。解析的第一步是将PDF页面转化为高分辨率图像。 使用 pdfplumber 将页面转为图像同时提取原始字符坐标。如果检测到是扫描件非电子原生PDF系统会启动OCR引擎如Tesseract识别图像中的文字并生成新的文本框与原始信息融合。2布局识别让机器“分类”系统需要知道哪块是正文哪块是页眉哪块是图表。 调用 LayoutRecognizer基于深度学习的目标检测模型对页面进行区域划分。如上图所示模型会给不同区域打上标签Title, Text, Table, Figure等这解决了多栏排版读乱序的问题因为这里是按区域读取而不是按行读取。3表格结构还原金融数据都在表格里。因此不仅要提取表格里的字还要还原行列关系。 TableStructureRecognizer会裁剪出表格区域识别单元格边界将图片中的表格重构为HTML或结构化数据确保「表头-数值」对应关系不丢失。4智能文本合并让机器“连贯”这是最体现技术深度的环节。OCR出来的往往是破碎的单字或单行需要把它们拼成完整的段落。横向合并将同一行内距离极近的文本框拼接。纵向合并基于行距和对齐方式将同一自然段的多行文本拼接。基于XGBoost的上下文合并这是一个高级特性。可以训练一个XGBoost模型根据文本特征如是否以句号结尾、行间距、字体大小变化来预测“下一行是否属于当前段落”。这比写死的规则要准确得多。2、智能切块数据入库前的精修切分不是简单的「每500字切一刀」。错误的切分会斩断语义导致检索失效。并且在RAG系统中文档切块是最容易被忽视的但它却是直接决定检索效果的环节。切得太碎模型看不懂上下文切得太长检索噪音大且浪费Token。需要一种从宏观到微观再回归宏观的处理策略。如下图所示原始文档变成机器可读的向量需要经历三个关键阶段第一步格式识别与初步解析系统首先充当一个分拣员根据文件后缀.pdf, .docx, .txt等调用不同的解析器如PdfParser,DocxParser。这一步将文档拆解为自然的段落 (图片中的Sections)。比如一个Word文档中的一个自然段或者表格中的一个单元格区域。第二步碎片化拆分为了保证后续合并的灵活性不能直接用段落当Chunk因为有的段落长达几千字有的只有几个字。 因此我们需要先打碎。利用分隔符如换行符\n、句号。、感叹号等将Section进一步拆解为更小的文本碎片。这一步的产物是一堆细粒度的句子或短语如上图绿色部分的“句子1”、“句子2”。第三步基于Token预算的动态合并这是最核心的一步。我们像装箱子一样设定一个标准箱子大小例如 128 Tokens然后将刚才打碎的句子一个个装进去。 这时就涉及到了一个核心算法naive_merge。它的目标是在保持语义连贯性不把一句话切断的前提下最大化利用每个Chunk的容量。1初始化创建一个空的Chunk容器设定阈值例如chunk_token_num 128。2循环填装遍历文本碎片列表依次拿出碎片。计算当前Chunk已有的Token数新碎片的Token数。If ≤ 阈值装入。将新碎片拼接到当前Chunk中。Else ( 阈值)封箱。当前Chunk已满将其保存。然后创建一个新Chunk将这个新碎片作为新Chunk的第一个元素放入。3最终输出生成最终的Chunks列表。 举个例子假设阈值是128。当前Chunk里已经装了120个Token的内容。下一个句子有15个Token。 120 15 135 128。 于是系统会把这120个Token打包成 Chunk A然后开启 Chunk B把这15个Token的句子放进去。 最终交付物经过上述处理我们得到的不仅仅是一段段文本字符串而是一个结构化的对象列表。每个最终的 Chunk 都包含以下关键信息为后续环节服务Content文本块的字符串内容用于给大模型阅读。Tokens分词后的Token列表用于计算成本和上下文窗口。Metadata位置信息如页码、在原文中的偏移量。这对于产品界面上展示引用来源至关重要。❓这时可能会有疑惑“为什么不直接按字符数切分或者直接按段落切分呢”直接切字符可能会把「人工智能」切成「人工」和「智能」在两个Chunk里导致语义崩坏。直接切段落有的段落极短导致生成的向量过于稀疏检索匹配不到有的段落极长超过了Embedding模型的窗口限制。 naive_merge的方案是一种动态平衡它先利用标点符号保护了句子级的语义完整性再利用Token计数控制了Chunk的大小颗粒度。这是在工程落地中高性价比的一种方案。3、重建层级结构与元数据 单纯的文本切片是孤立的我们需要为每个切片找回它的坐标。 比如当模型检索到“第3条赔付金额为50万”这个切片时如果丢失了它所属的“一级标题重大疾病险”模型可能会张冠李戴把它当成意外险的条款。 解决方案元数据Metadata增强。 在解析时维护一个层级栈给每一个Chunk打上标签code-snippet__js { source: 理赔手册.pdf, page: 5, section_path: 总则/第二章/第三条, type: text }那么在线问答检索时就可以让LLM利用这些元数据进行精准过滤例如“只看第二章的内容”或者在回答时准确引用出处。在线检索组合优化有了高质量的数据下一步是让系统「听懂人话」并精准找到答案。这需要一套复杂的检索与优化策略。1、Query理解与优化用户的问题往往是模糊的如“怎么报销”。直接检索效果会比较差。意图识别判断用户是在查流程、查数据还是闲聊。可通过规则匹配关键词或BERT分类模型实现。Query重写将口语化的“怎么报销保险费用”改写为规范的“保险费用报销流程是什么”去除冗余词补全上下文。Query扩写引入同义词。比如用户搜“理赔”系统自动扩展搜索“索赔”、“赔付”扩大召回范围。HyDE假设文档嵌入对于复杂问题先让LLM生成一个“假设答案”再用这个假设答案去检索真实文档这能显著提升长尾问题的召回率。2、混合检索单一的检索方式在金融场景下往往捉襟见肘。向量检索擅长语义匹配如“推销”匹配“销售”但对专有名词如“A款产品”不够敏感。关键词检索BM25擅长精确匹配但无法理解语义。 解决方案BM25 向量检索并行。将两者的得分进行归一化和加权融合例如0.6 * 向量分 0.4 * BM25分取长补短。3、领域微调通用的Embedding模型如BGE可能不懂“保单现金价值”是什么。策略使用金融领域的私有数据问答对、专业术语对Embedding模型进行微调拉近专业术语在向量空间中的距离显著提升召回准确率。4、重排序Reranking精度的最后一道防线初步检索为了不漏掉信息通常会召回Top 50甚至Top 100个片段但这其中包含大量噪声。Cross-Encoder重排引入一个更精细的模型将“用户Query”和“候选文档”拼在一起进行深度打分。 它能识别细微的语义差异。例如查询“最新车险流程”初步检索可能混入了“2020年旧流程”重排模型能精准识别出“2023年修订版”更相关将其排在第一位。总结来看检索是一个漏斗模型Query优化扩充漏斗口- 混合检索粗筛- 重排序精选- LLM生成。需要关注每个环节的转化率。通过建立评估指标如MRR、NDCG、PrecisionK就可以量化出“引入重排后Top 3召回率提升了15%”。​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

怎样做才能让网站有排名网络优化工程师

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

张小明 2026/1/6 4:34:24 网站建设

做网站双12促销方案天津市建设工程评标专家网

什么是Microsoft Orleans? Orleans是一个由微软研究院创建的跨平台框架,专为构建健壮、可扩展的分布式应用而设计。其核心目标是简化分布式系统开发的复杂性,让开发者能够专注于业务逻辑,而非底层基础设施的难题。 以下是Orleans提…

张小明 2026/1/9 15:52:18 网站建设

成都网站建设有名的网站外包要花多少钱

目录 已开发项目效果实现截图关于博主开发技术介绍 核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 已…

张小明 2026/1/11 13:35:32 网站建设

网站开发的学习路线教做游戏的网站

企业微信机器人消息推送的Java实战指南 【免费下载链接】wework-wehook-starter 项目地址: https://gitcode.com/gh_mirrors/we/wework-wehook-starter 在现代企业协作环境中,高效的消息推送机制已成为团队协同的重要支撑。企业微信作为国内主流的企业级通讯…

张小明 2026/1/6 4:34:27 网站建设

网站建设7个基本流程分析建设征信注册中心网站

🎓 作者:计算机毕设小月哥 | 软件开发专家 🖥️ 简介:8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

张小明 2026/1/6 4:34:30 网站建设

网站建站流程区块链开源平台

TFS与敏捷开发:提升项目效率的利器 1. TFS协作功能 TFS(Team Foundation Server)附带的Team Explorer是Visual Studio的一个插件。借助这个工具,开发者能够访问TFS项目的各个方面,比如查看报告和查询结果,访问项目中的文档,还能使用版本控制系统、构建系统以及进行测试…

张小明 2026/1/7 10:16:28 网站建设