Websites crawlen und scrapen

Power-Chat greift auf Wissen zurück, das in Wiki-Artikeln gespeichert ist. Wenn dieses Wissen bereits auf externen Websites vorhanden ist, können Sie es in Unusual Suite importieren, indem Sie einzelne Seiten scrapen oder eine gesamte Website crawlen.

Eine einzelne Webseite scrapen

Beim Scrapen wird der Inhalt einer externen Seite in einen Wiki-Artikel importiert. So scrapen Sie eine Seite:

  1. Erstellen Sie einen neuen Wiki-Artikel.
  2. Füllen Sie das Feld Externer Link mit der URL der Webseite aus.
  3. Klicken Sie rechts neben dem Feld Externer Link auf das Symbol 'Roboter' .

Unusual Suite scrapt dann den Seiteninhalt, entfernt Kopf- und Fußzeilen, Menüs und Navigationselemente und erstellt eine Zusammenfassung, die angezeigt wird, wenn der Artikel in der Wiki-Suche gefunden wird.

Sie können eine Seite jederzeit erneut scrapen, um eine aktualisierte Version des Inhalts zu importieren. Das Scrapen kann auf jeden Knoten im Wiki-Baum angewendet werden. Es gibt auch eine Option, alle Unterknoten des aktuell ausgewählten Baumknotens gleichzeitig zu scrapen.

Warnung: Überprüfen Sie den gescrapten Inhalt nach dem Import. In seltenen Fällen stimmt der gescrapte Inhalt möglicherweise nicht exakt mit der Quellwebseite überein.

Eine vollständige Website crawlen

Das Symbol 'Roboter' in der Wiki-Oberfläche ermöglicht es Ihnen auch, eine gesamte Website zu crawlen. Wenn Sie einen Crawl starten:

  • Alle Seiten, die von der Start-URL verlinkt sind und zur gleichen Domain gehören, werden gecrawlt und gescrapt.
  • Für jede gefundene Seite wird ein separater Wiki-Artikel erstellt, der unter dem aktuell ausgewählten Knoten im Wiki-Navigationsbaum platziert wird.
  • Sie können den Wiki-Artikeltyp konfigurieren, der neu erstellten Artikeln zugewiesen wird, und ob diese Artikel unmittelbar nach der Erstellung veröffentlicht werden sollen.
  • Unusual Suite versucht, den korrekten Betreff für jeden neuen Wiki-Artikel aus dem Seiteninhalt zu extrahieren.
  • Wenn eine große Anzahl von Artikeln erstellt wird, gruppiert Unusual Suite diese in Unterknoten nach dem ersten Buchstaben des Betreffs.

Warnung: Überwachen Sie den Crawling-Prozess während seiner Ausführung. Crawling-Ergebnisse sind nicht immer deterministisch. Die Überprüfung der Struktur und des Inhalts des resultierenden Teilbaums ist obligatorisch.