爬虫具有域名切换、信息收集以及信息存储功能。
这里讲述如何构建基础的爬虫架构。
1、urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。
2、beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。
1、基础爬虫
爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。
2、使用print输出打开的网址的内容。
3、从输出中可以看出内容的结构为:
4、输出内容中的html-body-h1的内容可使用四种语句。
5、BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。
1、Error在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。
2、在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在。
3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。
当程序返回HTTPError错误代码时,会显示错误内容。
4、服务器不存在时,urlopen会返回None.
可使用判断语句进行检测。
调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。
总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对的支持。
python,基础,爬虫
P70系列延期,华为新旗舰将在下月发布
3月20日消息,近期博主@数码闲聊站 透露,原定三月份发布的华为新旗舰P70系列延期发布,预计4月份上市。
而博主@定焦数码 爆料,华为的P70系列在定位上已经超过了Mate60,成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢?
根据目前爆料的消息来看,华为P70系列将推出三个版本,其中P70和P70 Pro采用了三角形的摄像头模组设计,而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智,但辨识度绝对拉满。