Sindup::Doc Crawler Forum
De Hegyd Doc.
Il y a 2 types des pages :
- Les pages "génériques", elles regroupent les listes de catégories et de topic :
http://forum.zebulon.fr/ http://forum.zebulon.fr/securite-f40.html http://forum.zebulon.fr/securisation-prevention-f52.html ...
- Les pages de topic, elles contiennent la discution :
http://forum.zebulon.fr/mot-de-passe-routeur-box-t146206.html http://forum.zebulon.fr/resolu-hacking-suppose-t192033.html ...
[modifier] Les différents patterns :
Syntaxe :
- première lettre : p pour pattern ou f pour format
- dernière lettre : L pour liste ou T pour topic ou P pour post
- le millieu : le type de données extraitent par le pattern
Utilité des différents patterns :
Page générique :
- pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
- pDateL : extraction de la date du contenu
- fDateL : format de la date pour permettre ça transformation en uts
- pSession : identification et suppression du paramètre lié à la session
- pUrlL : liste des paramètres obligatoire et interdit dans les url génériques
- pPageL : permet de retrouvé le numéro d'une page a partir de sont url
Topic :
- pUrlT : liste des paramètres obligatoire et interdit dans les url topic
- pPageT : permet de retrouvé le numéro d'une page a partir de sont url
- pIdT : permet l'extraction de l'url d'un id interne du forum pour un topic
- pTitleT : extraction du titre du topic à partir du html du site
Post :
- pPostP : découpage en post la page html
- pAuthorP : extraction de l'auteur du post
- pDateP : extraction de la date du post
- fDateP : découpage de la date pour permettre ca convertion en uts
- pTextP : extraction du text du post
