Sindup::Doc Crawler Forum

De Hegyd Doc.

Version du 8 mars 2012 à 11:04 par Vanina Lebouvier (discuter | contributions)
(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)

Il y a 2 types des pages :

  • Les pages "génériques", elles regroupent les listes de catégories et de topic :
http://forum.zebulon.fr/
http://forum.zebulon.fr/securite-f40.html
http://forum.zebulon.fr/securisation-prevention-f52.html
...
  • Les pages de topic, elles contiennent la discution :
http://forum.zebulon.fr/mot-de-passe-routeur-box-t146206.html
http://forum.zebulon.fr/resolu-hacking-suppose-t192033.html
...


Les différents patterns :

Syntaxe :

  • première lettre : p pour pattern ou f pour format
  • dernière lettre : L pour liste ou T pour topic ou P pour post
  • le millieu : le type de données extraitent par le pattern


Utilité des différents patterns :

  • pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
  • pDateL : extraction de la date du contenu
  • fDateL format de la date pour permettre ça transformation en uts
  • pSession : identification et suppression du paramètre lié à la session
  • pUrlL
  • pDateL
  • fDateL
  • pPageL
  • pUrlT
  • pPageT
  • pIdT
  • pTitleT
  • pPostP
  • pAuthorP
  • pDateP
  • fDateP
  • pTextP
  • redirect
  • model