彼特文案-你身边的文案管家

彼特文案-你身边的文案管家

python网络爬虫源代码

59

```python

import requests

from bs4 import BeautifulSoup

目标网址

url = 'https://www.example.com'

发送GET请求

response = requests.get(url)

检查请求是否成功

if response.status_code == 200:

解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

提取标题

title = soup.find('title').text

打印标题

print(title)

else:

print(f"请求失败,状态码: {response.status_code}")

```

这个爬虫程序首先导入`requests`和`BeautifulSoup`库,然后发送一个GET请求到指定的URL。如果请求成功(状态码为200),它将解析返回的HTML内容,并提取页面标题,最后打印出来。

为了提高爬虫的健壮性,可以添加异常处理机制,例如处理网络请求失败的情况,以及使用代理和随机User-Agent来避免被目标网站封禁。此外,对于更复杂的爬虫任务,可能还需要考虑使用多线程或异步IO来提高爬取效率,以及使用数据库或其他数据存储方式来保存爬取的数据。