Collecter les publications d'un site web en créant une source de type "website crawler"

Rôles utilisateur: Administrator, Explorer Durée: 15 min Objectif: Apprendre quand et comment créer correctement un robot de collecte de type "website crawler"

Agenda de la session de formation 

  • Cas d’emploi
  • Avantages et désavantages
  • Principes techniques
  • Définition du 1er niveau
  • Ciblage de certaines pages
  • Fréquence de collecte
  • Contenu principal
  • PDF associé à une page

Manuel(s) utilisateur

Sources

Télécharger PDF Ouvrir en plein écran Sortir du plein écran Page: /

Questions fréquentes

  • Quelle est la profondeur de crawl du robot de collecte "website crawler"

    En pratique, la profondeur de crawl est illimitée. La profondeur du crawl est de 4 en partant de l'URL de départ choisi dans la configuration de la source. Cependant, une session de crawl sur deux s'opère à partir d'une page déjà créée lors d'une session de crawl antérieure, choisie aléatoirement. De façon itérative le robot de collecte Cikisi entrera toujours plus en profondeur du site.

  • Puis-je choisir la profondeur du crawl?

    Non car nous avons opté pour une limitation plus précise, reposant sur la structure que doit posséder l'URL de l'article à créer. Ainsi vous pouvez demander à ne collecter que les articles possédant /fr/news au sein de leur URL.