网络爬虫基本原理详解

import requests

url = 'https://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept-Language': 'en-US,en;q=0.9',
    'Cookie': 'user_session=abcdef1234567890'
}

response = requests.get(url, headers=headers)

在上述示例中，headers字典包含了一些常见的请求头信息，其中User-Agent模拟了Chrome浏览器，Accept-Language指定了语言首选项，Cookie包含了一个用户会话标识。

2.3. 添加请求参数

有时，爬虫需要在URL中添加一些参数，以便服务器正确处理请求。这通常用于GET请求。

import requests

url = 'https://example.com/search'
params = {'q': 'web scraping', 'page': 1}

response = requests.get(url, params=params)

在上述示例中，params字典包含了搜索关键字和页码，这些参数将被添加到URL中。

2.4. 处理响应

一旦服务器收到请求并处理完毕，它将返回一个HTTP响应，其中包含了HTML页面或其他资源。爬虫需要处理这个响应，以提取所需的信息。

import requests

url = 'https://example.com'
response = requests.get(url)

if response.status_code == 200:
    html_content = response.text
    # 处理HTML内容
else:
    print(f'Request failed with status code: {response.status_code}')

在这个示例中，如果响应状态码为200，表示请求成功，爬虫可以从response.text中获取HTML内容。

3. 页面解析

获取到HTML页面后，网络爬虫需要解析页面以提取有用的信息。解析可以使用正则表达式、HTML解析库（如Beautiful Soup、lxml）或者使用特定的爬虫框架（如Scrapy）。解析的目标是从页面中提取出感兴趣的数据，如文本、链接、图像等。

3.1. 使用正则表达式

正则表达式是一种强大的文本匹配工具，可以用于从HTML中提取特定模式的信息。但是，正则表达式在处理HTML时可能变得复杂且难以维护。例如，要提取所有链接，正则表达式可能如下所示：

import re

html = '<a href="https://example.com">Example Link</a><a href="https://example2.com">Example Link 2</a>'
links = re.findall('<a href="(.*?)">', html)

print(links)

使用正则表达式需要谨慎，因为HTML结构的变化可能导致正则表达式无法正常匹配。

3.2. 使用HTML解析库

HTML解析库是更推荐的方法，因为它们可以更容易地处理HTML文档的结构，并提供更直观的API。两个常用的HTML解析库是Beautiful Soup和lxml。

使用Beautiful Soup

from bs4 import BeautifulSoup

html = '<html><body><p>Example Paragraph</p></body></html>'
soup = BeautifulSoup(html, 'html.parser')

paragraph_text = soup.find('p').get_text()
print(paragraph_text)

Beautiful Soup提供了类似于查找元素、提取文本等功能，使得页面解析更加方便。

使用lxml

from lxml import html

html_content = '<html><body><p>Example Paragraph</p></body></html>'
tree = html.fromstring(html_content)

paragraph_text = tree.xpath('//p/text()')[0]
print(paragraph_text)

lxml同样提供了强大的XPath表达式来选择和提取HTML元素。

3.3. 使用爬虫框架（Scrapy）

Scrapy是一个功能强大的Python爬虫框架，它整合了页面下载、解析、数据存储等功能。在Scrapy中，解析页面通常在Spider的parse方法中完成。

import scrapy

class MySpider(scrapy.Spider):
    name = 'example'
    start_urls = ['https://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        print(title)

Scrapy通过CSS选择器或XPath表达式轻松解析页面元素，而且具有高度的可扩展性。

总体而言，使用HTML解析库或爬虫框架相对于正则表达式更为推荐，因为它们更容易使用、可读性更好，并提供了更多的功能来应对不同的页面结构。