Sindup::Doc Crawler Forum

De Hegyd Doc.

Il y a 2 types des pages :

  • Les pages "génériques", elles regroupent les listes de catégories et de topic :
http://forum.zebulon.fr/
http://forum.zebulon.fr/securite-f40.html
http://forum.zebulon.fr/securisation-prevention-f52.html
...
  • Les pages de topic, elles contiennent la discution :
http://forum.zebulon.fr/mot-de-passe-routeur-box-t146206.html
http://forum.zebulon.fr/resolu-hacking-suppose-t192033.html
...


Les différents patterns :

Syntaxe :

  • première lettre : p pour pattern ou f pour format
  • dernière lettre : L pour liste ou T pour topic ou P pour post
  • le millieu : le type de données extraitent par le pattern


Utilité des différents patterns :

Page générique :

  • pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
  • pDateL : extraction de la date du contenu
  • fDateL : format de la date pour permettre ça transformation en uts
  • pSession : identification et suppression du paramètre lié à la session
  • pUrlL : liste des paramètres obligatoire et interdit dans les url génériques
  • pPageL : permet de retrouvé le numéro d'une page a partir de sont url

Topic :

  • pUrlT : liste des paramètres obligatoire et interdit dans les url topic
  • pPageT : permet de retrouvé le numéro d'une page a partir de sont url
  • pIdT : permet l'extraction de l'url d'un id interne du forum pour un topic
  • pTitleT : extraction du titre du topic à partir du html du site

Post :

  • pPostP : découpage en post la page html
  • pAuthorP : extraction de l'auteur du post
  • pDateP : extraction de la date du post
  • fDateP : découpage de la date pour permettre ca convertion en uts
  • pTextP : extraction du text du post