Scrapegraph-ai 是一个基于人工智能的 Python 网络爬虫项目

icon

password

图片

官网地址

date

商店地址

type

status

slug

summary

项目概述

项目名称： Scrapegraph-ai

项目类型： Python 网络爬虫

主要技术： 人工智能（AI）、机器学习

用途： 自动化抓取网页数据

可能的功能

智能识别网页结构： 使用机器学习算法识别网页布局和数据模式，以确定数据抓取的最佳方法。

自适应不同网站： 能够适应不同网站的结构变化，减少因网站更新导致的爬虫失效。

数据清洗和处理： 利用 AI 技术对抓取的数据进行清洗和格式化，以便于进一步的分析和使用。

避免反爬虫机制： 通过模拟正常用户行为，降低被网站反爬虫机制检测到的风险。

用户友好的界面： 提供简单易用的界面，允许用户自定义爬虫任务和参数。

可扩展性： 支持插件或扩展，以适应特定的数据抓取需求。

结果输出： 支持多种数据输出格式，如 JSON、CSV 等。

应用场景

市场研究： 抓取竞争对手的价格和产品信息。

社交媒体分析： 收集社交媒体上的用户反馈和趋势。

新闻聚合： 从多个新闻源抓取并聚合新闻内容。

学术研究： 收集学术文章和研究数据。

官方中文介绍文档

ScrapeGraphAI 是一个网络爬虫 Python 库，使用大型语言模型和直接图逻辑为网站和本地文档（XML，HTML，JSON 等）创建爬取管道。

只需告诉库您想提取哪些信息，它将为您完成！

🚀 快速安装

Scrapegraph-ai 的参考页面可以在 PyPI 的官方网站上找到: pypi。


pip install scrapegraphai

注意: 建议在虚拟环境中安装该库，以避免与其他库发生冲突 🐱

🔍 演示

官方 Streamlit 演示：

‣

在 Google Colab 上直接尝试：

‣

📖 文档

ScrapeGraphAI 的文档可以在这里找到。

还可以查看 Docusaurus 的版本。

💻 用法

有三种主要的爬取管道可用于从网站（或本地文件）提取信息：

SmartScraperGraph: 单页爬虫，只需用户提示和输入源；

SearchGraph: 多页爬虫，从搜索引擎的前 n 个搜索结果中提取信息；

SpeechGraph: 单页爬虫，从网站提取信息并生成音频文件。

SmartScraperMultiGraph: 多页爬虫，给定一个提示可以通过 API 使用不同的 LLM，如 OpenAI，Groq，Azure 和 Gemini，或者使用 Ollama 的本地模型。

案例 1: 使用本地模型的 SmartScraper

请确保已安装 Ollama 并使用 ollama pull 命令下载模型。


from scrapegraphai.graphs import SmartScraperGraph

graph_config = {
    "llm": {
        "model": "ollama/mistral",
        "temperature": 0,
        "format": "json",  # Ollama 需要显式指定格式
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # 设置 Ollama URL
    },
    "verbose": True,
}

smart_scraper_graph = SmartScraperGraph(
    prompt="List me all the projects with their descriptions",
    # 也接受已下载的 HTML 代码的字符串
    source="https://perinim.github.io/projects",
    config=graph_config
)

result = smart_scraper_graph.run()
print(result)

输出将是一个包含项目及其描述的列表，如下所示：


{'projects': [{'title': 'Rotary Pendulum RL', 'description': 'Open Source project aimed at controlling a real life rotary pendulum using RL algorithms'}, {'title': 'DQN Implementation from scratch', 'description': 'Developed a Deep Q-Network algorithm to train a simple and double pendulum'}, ...]}

案例 2: 使用混合模型的 SearchGraph

我们使用 Groq 作为 LLM，使用 Ollama 作为嵌入模型。


from scrapegraphai.graphs import SearchGraph

# 定义图的配置
graph_config = {
    "llm": {
        "model": "groq/gemma-7b-it",
        "api_key": "GROQ_API_KEY",
        "temperature": 0
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",  # 任意设置 Ollama URL
    },
    "max_results": 5,
}

# 创建 SearchGraph 实例
search_graph = SearchGraph(
    prompt="List me all the traditional recipes from Chioggia",
    config=graph_config
)

# 运行图
result = search_graph.run()
print(result)

输出将是一个食谱列表，如下所示：


{'recipes': [{'name': 'Sarde in Saòre'}, {'name': 'Bigoli in salsa'}, {'name': 'Seppie in umido'}, {'name': 'Moleche frite'}, {'name': 'Risotto alla pescatora'}, {'name': 'Broeto'}, {'name': 'Bibarasse in Cassopipa'}, {'name': 'Risi e bisi'}, {'name': 'Smegiassa Ciosota'}]}

案例 3: 使用 OpenAI 的 SpeechGraph

您只需传递 OpenAI API 密钥和模型名称。


from scrapegraphai.graphs import SpeechGraph

graph_config = {
    "llm": {
        "api_key": "OPENAI_API_KEY",
        "model": "gpt-3.5-turbo",
    },
    "tts_model": {
        "api_key": "OPENAI_API_KEY",
        "model": "tts-1",
        "voice": "alloy"
    },
    "output_path": "audio_summary.mp3",
}

# ************************************************
# 创建 SpeechGraph 实例并运行
# ************************************************

speech_graph = SpeechGraph(
    prompt="Make a detailed audio summary of the projects.",
    source="https://perinim.github.io/projects/",
    config=graph_config,
)

result = speech_graph.run()
print(result)

输出将是一个包含页面上项目摘要的音频文件。

注意事项

使用网络爬虫时，应遵守目标网站的 robots.txt 文件规定，尊重版权和隐私政策，避免对网站服务器造成过大负担。

为了获得更详细的信息，建议直接访问 Scrapegraph-ai 的 GitHub 仓库页面，那里通常会有项目的 README 文件、文档和示例代码，这些资源可以帮助您更全面地了解项目的功能和使用方法。

项目概述

可能的功能

应用场景

相关介绍

官方中文介绍文档

注意事项