外贸网站建站和推广常用网站开发技术和工具

张小明 2026/1/16 20:33:16
外贸网站建站和推广,常用网站开发技术和工具,快速搭建网站服务器,iis7发布静态网站在爬虫开发中#xff0c;解析 HTML 的方式主要有三种#xff1a;正则表达式#xff08;不推荐新手使用#xff09;BeautifulSoup#xff08;简单易用#xff09;XPath#xff08;最强大、最精确#xff09;今天我们要学习的是爬虫工程师最喜欢的解析方式之一#xff1…在爬虫开发中解析 HTML 的方式主要有三种正则表达式不推荐新手使用BeautifulSoup简单易用XPath最强大、最精确今天我们要学习的是爬虫工程师最喜欢的解析方式之一XPath —— 提取网页结构最强大的工具只要你掌握 XPath再复杂的 HTML 都能被你快速解析。 一、XPath 是什么XPath 全称XML Path LanguageXML 路径语言虽然名字里带 XML但它同样适用于HTML。它的作用是通过路径查找节点精确定位网页元素快速提取文本、属性、子节点你可以把 XPath 看成网页的“地图导航”从 /html/body/div[1]/h1 找到标题节点非常直观、非常精确。 二、为什么爬虫必须掌握 XPath理由如下✔ 1. BeautifulSoup 不够精确遇到多层嵌套或重复节点时XPath 的定位能力远超 BeautifulSoup。✔ 2. 数据结构复杂的网站XPath 更容易处理尤其是电商站点、资讯站点、层级列表网站。✔ 3. XPath 语法非常统一你学会一次可以用一辈子。✔ 4. lxml XPath 的解析速度非常快适合大规模爬虫工程。 三、用 lxml XPath 的基础用法安装 lxmlpip install lxml解析 HTMLfrom lxml import etree html etree.HTML(html.../html) result html.xpath(你的 XPath 表达式)result会返回一个列表包含匹配到的节点或文本。 四、XPath 常用语法爬虫最常用 Top 10① 选取所有某标签节点//h1 //div //a② 选取具体 class 的标签//h1[classtitle]③ 选取含有某部分 class 的节点超常用//div[contains(class, item)]适用于 class 多个值的情况div classitem active main④ 选取文本内容//h1/text()⑤ 选取属性如 src、href//img/src //a/href⑥ 索引定位从 1 开始//ul/li[1] # 第一个 li //ul/li[last()] # 最后一个 li⑦ 选取子节点///div/h1⑧ 选取任意深度节点////div//span⑨ 选取包含文本的节点//a[contains(text(), Python)]⑩ 多条件筛选进阶//div[classitem and data-id123] 五、实战示例解析文章标题与内容假设你抓取一个网页结构如下div classarticle h1 classtitlePython 爬虫入门/h1 p classsummary这是简介内容/p /divXPath 提取提取标题title html.xpath(//h1[classtitle]/text())提取简介summary html.xpath(//p[classsummary]/text())提取整个文章块article html.xpath(//div[classarticle])[0] 六、解析列表结构爬虫最常见场景网页中常见新闻列表商品列表评论列表视频列表结构可能是ul classnews li a href/1.html新闻 1/a /li li a href/2.html新闻 2/a /li /ul提取所有标题titles html.xpath(//ul[classnews]/li/a/text())提取所有链接links html.xpath(//ul[classnews]/li/a/href)XPath 对列表解析极其强大。 七、如何在浏览器中获取 XPathChrome 可以自动生成 XPath打开 Elements 面板右键节点点击Copy → Copy XPath但注意自动 XPath不够简洁很多路径层级过深建议自行优化例如自动生成/html/body/div[2]/div[3]/div/h1建议手写//h1[classtitle]更通用、更不易失败。 八、XPath 解析失败的常见原因❌ 1. 页面由 JS 渲染HTML 中没有数据此时应抓 Ajax 或使用 Selenium/Playwright。❌ 2. class 有多个值你却写成完整匹配例如div classitem active应写//div[contains(class, item)]❌ 3. 标签层级不固定用//更稳妥。❌ 4. 忘记加 text() 或 href✅ 总结今天你学到了XPath 是最强大的 HTML 解析工具之一支持精确定位节点、属性、文本非常适合爬虫解析复杂网页Chrome 可以辅助生成 XPathXPath 常见的十大语法XPath 在列表结构中的应用XPath 失败的常见原因及解决方案掌握 XPath 是你成为爬虫开发者的重要里程碑一旦熟练再复杂的页面都能迎刃而解。如果你在写 XPath 时遇到结构太复杂难以定位多层嵌套不知如何写路径text() 提取不到内容Chrome 生成的 XPath 不能用每个节点结构都不固定可以加我微信cpseagogo我可以帮你一起分析 HTML 结构和 XPath 写法。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站论坛页怎么做太原公司网站建设

DWMBlurGlass:打造极致透明的Windows视觉盛宴 【免费下载链接】DWMBlurGlass Add custom effect to global system title bar, support win10 and win11. 项目地址: https://gitcode.com/gh_mirrors/dw/DWMBlurGlass 还在为Windows系统单调的界面而烦恼吗&am…

张小明 2026/1/9 17:37:39 网站建设

wwr下载建设网站做手机网站

各位同学,大家好!今天,我们将深入探讨 Node.js 中一个至关重要但常常被误解的概念:背压(Backpressure)机制。尤其会聚焦于 highWaterMark 和 _read() 这两个核心元素,它们是理解和构建高性能、内…

张小明 2026/1/5 3:33:55 网站建设

wordpress个人支付插件山西网络营销seo

您的电脑是否频繁出现蓝屏、死机或程序崩溃?这些困扰可能源于内存故障,而Memtest86正是解决这些问题的终极内存检测工具。作为一款免费开源的专业级内存诊断软件,它能深入检测内存模块的健康状况,帮助您快速定位问题根源。 【免费…

张小明 2026/1/14 3:57:39 网站建设

做网站图标按钮素材免费h5在线制作平台

Material-UI终极指南:快速掌握React最受欢迎的UI组件库 【免费下载链接】material-ui mui/material-ui: 是一个基于 React 的 UI 组件库,它没有使用数据库。适合用于 React 应用程序的开发,特别是对于需要使用 React 组件库的场景。特点是 Re…

张小明 2026/1/10 2:36:44 网站建设

个人网站尺寸wordpress的mysql

第一章:Open-AutoGLM开发硬件概述Open-AutoGLM 是一个面向自动化代码生成与模型推理的开源框架,其运行依赖于特定的硬件配置以确保高性能与低延迟。为充分发挥框架潜力,开发者需选用支持大规模并行计算与高带宽内存访问的设备。核心计算单元 …

张小明 2026/1/7 13:59:59 网站建设

建设网站选什么地方的主机上海网站建设 百家号

Jenkins自动化部署完全教程:从入门到精通 【免费下载链接】jenkins Jenkins Continuous Integration server 项目地址: https://gitcode.com/gh_mirrors/jenkins24/jenkins Jenkins作为业界领先的持续集成和持续部署工具,已经成为现代软件开发不可…

张小明 2026/1/6 3:01:39 网站建设