🤖 Scraper Web AI et Q&R

DEV - 26/08
Un puissant outil de grattage Web qui combine l'extraction de contenu intelligente avec une question alimentée par l'IA ...

Un puissant outil de grattage Web qui combine l'extraction de contenu intelligente avec la réponse aux questions alimentées par l'IA. Construit avec Streamlit, Langchain et Olllama pour le traitement local de l'IA.

🚀 fonctionnalités

  • Smart Web Stracing: extrait automatiquement le contenu de toute URL en utilisant plusieurs méthodes de secours
  • Q&A alimentée par AI: Posez des questions sur le contenu gratté et obtenez des réponses intelligentes
  • Traitement d'IA local: utilise Olllama pour le traitement d'IA hors ligne axé sur la vie privée
  • Méthodes de grattage multiples:
    • Sélénium webdriver pour les sites JavaScript-lourde
    • Demandes HTTP simples pour les pages HTML de base
  • Interface de chat interactive: conversation en temps réel avec le contenu gratté
  • Contenu Chunking: Splating de texte intelligent pour une meilleure récupération de contexte
  • Citations source: voyez exactement quelles parties du contenu ont été utilisées pour répondre à vos questions
  • Récupération des erreurs: gestion des erreurs robuste avec des replies gracieuses

🛠 pile technologique

  • Frontend: rational
  • AI / LLM: OLLAMA (LLAMA3.2)
  • Stracage sur le Web: sélénium webdriver, belle
  • Traitement du texte: Langchain
  • Magasin vectoriel: stockage vectoriel en mémoire
  • Embeddings: Olllama Embeddings pour la recherche sémantique

📋 Prérequis

Avant d'exécuter cette application, assurez-vous d'avoir:

  1. Python 3.8+ installé
  2. Olllama installé et fonctionnant
  3. Navigateur chromé installé (pour le sélénium)

🔧 Installation

1. Clone le référentiel

clone gitCD AI-Scraper
Entrez le mode de sortie e...
[Courte citation de 8% de l'article original]
Loading...