深圳福田商城网站建设百度一下官网

张小明 2026/1/12 21:47:05
深圳福田商城网站建设,百度一下官网,无锡网站制作哪家实惠,校园网站设计方案一、网络爬虫库1、网络爬虫库网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网的中的关键信息#xff0c;例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库#xff0c;下面将具体介绍urllib库#xff1a;是…一、网络爬虫库1、网络爬虫库网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网的中的关键信息例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库下面将具体介绍urllib库是Python自带的标准库无须下载、安装即可直接使用。urllib库中包含大量的爬虫功能但其代码编写略显复杂。reguests库是Python的第三方库需要下载、安装之后才能使用。由于requests库是在urllib库的基的上建立的它包含urllib库的功能这使得requests库中的函数和方法的使用更加友好因此requests库使用起来更方便。scrapy库是Python的第三方库需要下载、安装之后才能使用。是一个适用于专业应用程序开发的网络爬虫库。scrapy库集合了爬虫的框架通过框架可创建一个专业爬虫系统。selenium库是Python的第三方库需要下载、安装后才能使用。selenium库可用于驱动计算机中的浏览器执行相关命令而无须用户手动操作。常用于自动驱动浏览器实现办公自动化和Web应用程序测试。2、robots.txt 规则在正式学习网络爬虫之前需要掌握爬取规则不是网站中的所有信息都允许被爬取也不是所有的网站都允许被爬取。在大部分网站的根目录中存在一个robots.txt文件该文件用于声明此网站中禁止访问的url和可以访问的url。用户只需在网站域名后面加上/robots.txt即可读取此文件的内容。介绍robots.txt文件的内容User - agent表示访问网站的搜索引擎User - agent的值为 * 表示所有类型的搜索引擎如果User - agent后面加Wandoujia Spider就表示Wandoujia Spider搜索引擎需要遵守的规则Disallow表示该搜索引擎不允许访问的urlAllow表示该搜索引擎允许访问的urlSitemap网站地图用于提供网站中所有可以被爬取的url方便搜索引擎能够快速爬取到对应网页#代表注释与python的概念相同Crawl - delayCrawl - delay: 5是说爬虫每次访问时间间隔5秒为了避免因用户频繁访问而导致服务器拥挤使用户无法正常使用浏览器二、requests库和网页源代码1、request库的安装在命令提示符或终端安装pip install requests安装完成后可以用以下命令查看库的信息pip show requests2、网页源代码打开网页后鼠标右击在点击检查或者快捷键F12就可以查看网页的源代码三、获取网页资源requests库具有获取网页内容和向网页中提交信息的功能1、get函数在requests库中获取HTML网页内容的方法是使用get函数形式如下requests.get(url, paramsNone, headersNone,**kwargs)参数url表示获取的HTML网址参数params表示可选参数以字典的形式发送信息当需要向网页中提交查询信息时使用参数**kwargs表示请求采用的可选参数返回值返回一个由类Response创建的对象。类Response位于requests库的models.py文件中用get()搜索信息import requests r requests.get(https://www.ptpress.com.cn/search?keywordexcel) print(r.text)search表示搜索keyword表示要搜索的关键词用于分隔search和keyword用get()添加信息get函数中第二个参数params会以字典的形式在url后自动添加信息需要提前将params定义为字典import requests info {keyword:excel } r requests.get(https://www.ptpress.com.cn/search,paramsinfo) print(r.url) print(r.text)代码解释第2行代码建立字典info包含一个键值对r requests.get(https://www.ptpress.com.cn/search, paramsinfo)调用get()方法向邮电出版社搜索接口发送请求参数paramsinfo会自动将字典转为keywordexcel拼接到 URL 后。变量r接收服务器返回的响应对象。2、返回Response对象通过get()函数获取HTML网页内容后由于网页多样性通常还需要对网页返回Reaponse对象进行设置Response属性Response包含的属性有status_code、headers、url、encoding、cookies等。status_code状态码当获取一个HTML网页时网页所在的服务器会返回一个状态码表明本次获取网页的状态。例如访问人民邮电出版社官网当使用get()函数发出请求时人民邮电出版社官网的服务器接收到请求信息后会先判断请求信息是否合理如果请求合理则返回状态码200和网页信息如果请求不合理则返回一个异常状态码。常见的HTTPHypertext Transfer Protocol超文本传送协议状态码有200请求成功、301网页内容被永久转移到其他url、404请求的网页不存在、500内部服务器错误等更多状态码可以使用搜索引擎查询。因此在使用get()函数请求访问网页时为了确保获取正确的网页信息需要判断服务器返回的状态码是否为200。Response对象中的status_code为服务器返回的状态码。示例代码import requests r requests.get(https://www.ptpress.com.cn) print(r.status_code) if r.status_code 200: print(r.text) else: print(本次访问失败)代码解释第3行代码输出Response对象返回的状态码。第4行代码用于判断状态码是否为200如果为200则输出获取的网页内容否则表明访问存在异常。• headers响应头服务器返回的附加信息主要包括服务器传递的数据类型、使用的压缩方法、语言、服务器的信息、响应该请求的时间等。• url响应的最终url位置。• encoding访问r.text时使用的编码。• cookies服务器返回的文件。这是服务器为辨别用户身份对用户操作进行会话跟踪而存储在用户本地终端上的数据设置编码当访问网页时若获取的内容是乱码是网页读取编码错误导致的可通过设置requests.get(url)返回的Response对象的encodingutf-8来修改“Response对象.text”文本内容的编码方式。Response对象还提供了apparent_encoding()方法自动识别网页编码但该方法由机器识别可能存在错误大部分情况可用。若要设置自动识别编码可使用以下形式Response对象.encodingResponse对象.apparent_encoding示例代码import requests r requests.get(此处填入百度官网地址.com) r.encoding r.apparent_encoding print(r.text)第3行代码设置自动识别编码执行后输出可识别文字若仍乱码需自行设置encoding编码方式。返回网页内容Response对象返回网页内容有两种方法• text()以字符串形式返回网页内容前文已介绍。• content()以二进制形式返回网页内容常用于保存网页中的媒体文件。示例代码下载人民邮电出版社官网中的图片01import requests r requests.get(https://cdn.ptpress.cn/uploading/Material/978-7-115-41359-8/72jpq/41359-8-72.jpg) f2 open(b.jpg,wb) f2.write(r.content) f2.close()代码说明• 第2行用get()访问图片URL。• 第3行用open()创建b.jpg文件以二进制写入模式wb打开。• 第4行将获取的URL内容以二进制形式写入文件。• 执行后对应文件夹会存储该图片小项目实现处理获取的网页信息任务在某个网站上上架了新书现在需要用request方法获取所有新书的书名示例代码import requests import re r requests.get(https://www.ryjiaoyu.com/book) result re.findall(rtitle(.?)(.?)/a/h4,r.text) for i in range(len(result)): print(第,i1,本书 ,result[i][1])运行结果
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

如何免费注册网站域名亚马逊网站建设的目的

波形发生器如何“唤醒”传感器?一个压力测试工程案例的深度拆解你有没有遇到过这种情况:明明传感器型号相同、电路设计一致,但实测响应却大相径庭?或者在做动态性能测试时,发现系统频响曲线总在某个频率“跳水”&#…

张小明 2025/12/30 15:41:53 网站建设

关键词搜索爱站网站推广计划书具体包含哪些基本内容?

还在为跨平台实时通信头疼吗?libdatachannel这个强大的C/C库,让原生应用轻松获得与浏览器相同的WebRTC数据通道、媒体传输和WebSocket能力!无论你是开发Android应用、iOS程序,还是桌面软件,这个轻量级库都能帮你实现低…

张小明 2025/12/31 3:29:01 网站建设

小榄公司网站建设泰安考试信息网官网

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

张小明 2026/1/8 19:57:01 网站建设

中国建设银行网站维护网站建设策划实施要素

在当今复杂的云原生环境中,系统产生的日志数据如同散落在沙滩上的贝壳,看似零散却蕴含着宝贵的业务洞察。传统的日志分析工具往往只能提供单维度的查询能力,难以将不同来源的数据关联起来形成完整的业务视图。ZincObserve作为新一代可观测性平…

张小明 2025/12/30 22:21:51 网站建设

建设信用卡网站登录做网站免费的app是什么

低轨卫星导航增强技术:改正数播发模式的原理、信号流程和关键指标 1. GNSS 导航增强技术 1.1 原理 全球卫星导航系统(GNSS)受卫星轨道误差、卫星钟差、电离层延迟、对流层延迟及码偏差等因素影响,用户终端定位精度通常为米级&…

张小明 2026/1/5 3:16:22 网站建设

网站 建设原则婚庆网站模板免费下载

iOS动画开发终极指南:如何通过lottie-ios组件库重构提升开发效率 【免费下载链接】lottie-ios airbnb/lottie-ios: Lottie-ios 是一个用于 iOS 平台的动画库,可以将 Adobe After Effects 动画导出成 iOS 应用程序,具有高性能,易用…

张小明 2025/12/30 20:50:50 网站建设