Collecter les publications d'un site web en créant une source de type "website crawler"

Rôles utilisateur: Administrator, Explorer Durée: 15 min Objectif: Apprendre quand et comment créer correctement un robot de collecte de type "website crawler"

Agenda de la session de formation

Cas d’emploi
Avantages et désavantages
Principes techniques
Définition du 1er niveau
Ciblage de certaines pages
Fréquence de collecte
Contenu principal
PDF associé à une page

Manuel(s) utilisateur

Sources

Télécharger PDF Ouvrir en plein écran Sortir du plein écran Page: /

Questions fréquentes

Quelle est la profondeur de crawl du robot de collecte "website crawler"

En pratique, la profondeur de crawl est illimitée. La profondeur du crawl est de 4 en partant de l'URL de départ choisi dans la configuration de la source. Cependant, une session de crawl sur deux s'opère à partir d'une page déjà créée lors d'une session de crawl antérieure, choisie aléatoirement. De façon itérative le robot de collecte Cikisi entrera toujours plus en profondeur du site.
Puis-je choisir la profondeur du crawl?

Non car nous avons opté pour une limitation plus précise, reposant sur la structure que doit posséder l'URL de l'article à créer. Ainsi vous pouvez demander à ne collecter que les articles possédant /fr/news au sein de leur URL.