爬虫 :快速爬取一个网站

本次使用的是pycharm软件进行爬取的

首先要导入本次爬虫用到的包

from urllib.request import urlopen

然后确定你需要爬取网站的地址,我这边直接爬了百度的主页

代码如下

from urllib.request import urlopen
# 确定要爬取网址的路径
url = "http://www.baidu.com"
# 访问网址得到相应
resp = urlopen(url)
# 想得到内容
# decode 就是为了解码,以utf-8的形式解码
# print(resp.read().decode("utf-8"))
with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))  # 从响应中读取到页面源代码
print("保存结束")

祝各位早日成为爬虫大佬!

 


版权声明:本文为m0_59441281原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
THE END
< <上一篇
下一篇>>