【Python】Python爬虫代码举例

这里给出使用Python进行网页爬取的简单示例:

  1. 导入请求模块
## python www.itzhimei.com 代码
import requests
  1. 发送GET请求获取网页
## python www.itzhimei.com 代码
resp = requests.get('http://example.com')
  1. 获取响应内容
## python www.itzhimei.com 代码
html = resp.text
  1. 导入解析模块
## python www.itzhimei.com 代码
from bs4 import BeautifulSoup
  1. 解析网页
## python www.itzhimei.com 代码
soup = BeautifulSoup(html, 'html.parser')
  1. 提取信息
## python www.itzhimei.com 代码
h1 = soup.find('h1').text
links = [a['href'] for a in soup.find_all('a')]
  1. 保存数据
## python www.itzhimei.com 代码
with open('data.txt', 'w') as f:
  f.write(h1)
  f.write(str(links))

主要工具包括Requests获取网页、Beautiful Soup解析内容、Selenium模拟浏览器等。需要遵守robots.txt规范,不要频繁请求。

使用Python 的爬虫框架可以方便地抓取网页数据,但要注意合法性和道德问题。