Sindup::Doc Crawler Forum

De Hegyd Doc.

(Différences entre les versions)
(Page créée avec « '''Il y a 2 types des pages : ''' * Les pages "génériques", elles regroupent les listes de catégories et de topic : http://forum.zebulon.fr/ http://forum.zebulon.fr/secu… »)
 
(Une version intermédiaire masquée)
Ligne 19 : Ligne 19 :
'''Utilité des différents patterns :'''
'''Utilité des différents patterns :'''
 +
 +
Page générique :
*pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
*pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
*pDateL : extraction de la date du contenu
*pDateL : extraction de la date du contenu
-
*fDateL format de la date pour permettre ça transformation en uts
+
*fDateL : format de la date pour permettre ça transformation en uts
-
 
+
*pSession : identification et suppression du paramètre lié à la session
*pSession : identification et suppression du paramètre lié à la session
-
*pUrlL
+
*pUrlL : liste des paramètres obligatoire et interdit dans les url génériques
-
*pDateL
+
*pPageL : permet de retrouvé le numéro d'une page a partir de sont url
-
*fDateL
+
Topic :
-
*pPageL
+
*pUrlT : liste des paramètres obligatoire et interdit dans les url topic
-
*pUrlT
+
*pPageT : permet de retrouvé le numéro d'une page a partir de sont url
-
*pPageT
+
*pIdT : permet l'extraction de l'url d'un id interne du forum pour un topic
-
*pIdT
+
*pTitleT : extraction du titre du topic à partir du html du site
-
*pTitleT
+
Post :
-
*pPostP
+
*pPostP : découpage en post la page html
-
*pAuthorP
+
*pAuthorP : extraction de l'auteur du post
-
*pDateP
+
*pDateP : extraction de la date du post
-
*fDateP
+
*fDateP : découpage de la date pour permettre ca convertion en uts
-
*pTextP
+
*pTextP : extraction du text du post
-
*redirect
+
-
*model
+

Version actuelle en date du 8 mars 2012 à 13:59

Il y a 2 types des pages :

  • Les pages "génériques", elles regroupent les listes de catégories et de topic :
http://forum.zebulon.fr/
http://forum.zebulon.fr/securite-f40.html
http://forum.zebulon.fr/securisation-prevention-f52.html
...
  • Les pages de topic, elles contiennent la discution :
http://forum.zebulon.fr/mot-de-passe-routeur-box-t146206.html
http://forum.zebulon.fr/resolu-hacking-suppose-t192033.html
...


[modifier] Les différents patterns :

Syntaxe :

  • première lettre : p pour pattern ou f pour format
  • dernière lettre : L pour liste ou T pour topic ou P pour post
  • le millieu : le type de données extraitent par le pattern


Utilité des différents patterns :

Page générique :

  • pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
  • pDateL : extraction de la date du contenu
  • fDateL : format de la date pour permettre ça transformation en uts
  • pSession : identification et suppression du paramètre lié à la session
  • pUrlL : liste des paramètres obligatoire et interdit dans les url génériques
  • pPageL : permet de retrouvé le numéro d'une page a partir de sont url

Topic :

  • pUrlT : liste des paramètres obligatoire et interdit dans les url topic
  • pPageT : permet de retrouvé le numéro d'une page a partir de sont url
  • pIdT : permet l'extraction de l'url d'un id interne du forum pour un topic
  • pTitleT : extraction du titre du topic à partir du html du site

Post :

  • pPostP : découpage en post la page html
  • pAuthorP : extraction de l'auteur du post
  • pDateP : extraction de la date du post
  • fDateP : découpage de la date pour permettre ca convertion en uts
  • pTextP : extraction du text du post