python–爬虫 爬取html和txt文件
一、python爬取html文件
使用python爬取某网站首页并下载html文件
下面介绍两种方式,一种是urllib,另一种是requests
1、使用urllib
import urllib.request
url = 'http://www.baidu.com/'
# 向指定的url发送请求,并返回服务器响应的类文件对象
request = urllib.request.Request(url)
# 类文件对象支持 文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
response = urllib.request.urlopen(request)
html = response.read()
with open('baidu.html', 'wb') as f:
f.write(html)
# 打印字符串
print('ok')
2、使用requests
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
string = (response.text).encode()
with open('baidus.html', 'wb') as f:
f.write(string)
# 打印字符串
print('ok')
二、python爬取之后生成txt文件
使用python爬取某网站并下载成txt文件
使用的是utf-8的形式进行下载
import requests
url = 'https://xxx.xxx.com'
data = {'kw': 'asd', 'fr': 'search'} #这里是一些请求参数
response = requests.get(url, params=data)
string = str(response.text) # 需要使用encode转义一下,不然会报错
with open('test.txt', 'w', encoding="utf-8") as f:
f.write(string)
# 打印字符串
print('ok')
版权声明:本文为weixin_45289656原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。