python网络爬虫源代码

2025-04-03 22:05 59

```python

import requests

from bs4 import BeautifulSoup

目标网址

url = 'https://www.example.com'

发送GET请求

response = requests.get(url)

检查请求是否成功

if response.status_code == 200:

解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

提取标题

title = soup.find('title').text

打印标题

print(title)

else:

print(f"请求失败,状态码: {response.status_code}")

```

这个爬虫程序首先导入`requests`和`BeautifulSoup`库，然后发送一个GET请求到指定的URL。如果请求成功（状态码为200），它将解析返回的HTML内容，并提取页面标题，最后打印出来。

为了提高爬虫的健壮性，可以添加异常处理机制，例如处理网络请求失败的情况，以及使用代理和随机User-Agent来避免被目标网站封禁。此外，对于更复杂的爬虫任务，可能还需要考虑使用多线程或异步IO来提高爬取效率，以及使用数据库或其他数据存储方式来保存爬取的数据。

本文地址： http://www.beatwenan.com/shangganwenan/251378.html

声明：本站内容均来自网络，如有侵权，请联系我们。