Sindup::Doc Crawler Forum
De Hegyd Doc.
(Différences entre les versions)
(Page créée avec « '''Il y a 2 types des pages : ''' * Les pages "génériques", elles regroupent les listes de catégories et de topic : http://forum.zebulon.fr/ http://forum.zebulon.fr/secu… ») |
|||
| (Une version intermédiaire masquée) | |||
| Ligne 19 : | Ligne 19 : | ||
'''Utilité des différents patterns :''' | '''Utilité des différents patterns :''' | ||
| + | |||
| + | Page générique : | ||
*pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente | *pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente | ||
*pDateL : extraction de la date du contenu | *pDateL : extraction de la date du contenu | ||
| - | *fDateL | + | *fDateL : format de la date pour permettre ça transformation en uts |
| - | + | ||
*pSession : identification et suppression du paramètre lié à la session | *pSession : identification et suppression du paramètre lié à la session | ||
| - | *pUrlL | + | *pUrlL : liste des paramètres obligatoire et interdit dans les url génériques |
| - | * | + | *pPageL : permet de retrouvé le numéro d'une page a partir de sont url |
| - | + | Topic : | |
| - | + | *pUrlT : liste des paramètres obligatoire et interdit dans les url topic | |
| - | *pUrlT | + | *pPageT : permet de retrouvé le numéro d'une page a partir de sont url |
| - | *pPageT | + | *pIdT : permet l'extraction de l'url d'un id interne du forum pour un topic |
| - | *pIdT | + | *pTitleT : extraction du titre du topic à partir du html du site |
| - | *pTitleT | + | Post : |
| - | *pPostP | + | *pPostP : découpage en post la page html |
| - | *pAuthorP | + | *pAuthorP : extraction de l'auteur du post |
| - | *pDateP | + | *pDateP : extraction de la date du post |
| - | *fDateP | + | *fDateP : découpage de la date pour permettre ca convertion en uts |
| - | *pTextP | + | *pTextP : extraction du text du post |
| - | + | ||
| - | + | ||
Version actuelle en date du 8 mars 2012 à 13:59
Il y a 2 types des pages :
- Les pages "génériques", elles regroupent les listes de catégories et de topic :
http://forum.zebulon.fr/ http://forum.zebulon.fr/securite-f40.html http://forum.zebulon.fr/securisation-prevention-f52.html ...
- Les pages de topic, elles contiennent la discution :
http://forum.zebulon.fr/mot-de-passe-routeur-box-t146206.html http://forum.zebulon.fr/resolu-hacking-suppose-t192033.html ...
[modifier] Les différents patterns :
Syntaxe :
- première lettre : p pour pattern ou f pour format
- dernière lettre : L pour liste ou T pour topic ou P pour post
- le millieu : le type de données extraitent par le pattern
Utilité des différents patterns :
Page générique :
- pContentL : découpage des pages "génériques" pour isolé l'url et la date modification quand elle est présente
- pDateL : extraction de la date du contenu
- fDateL : format de la date pour permettre ça transformation en uts
- pSession : identification et suppression du paramètre lié à la session
- pUrlL : liste des paramètres obligatoire et interdit dans les url génériques
- pPageL : permet de retrouvé le numéro d'une page a partir de sont url
Topic :
- pUrlT : liste des paramètres obligatoire et interdit dans les url topic
- pPageT : permet de retrouvé le numéro d'une page a partir de sont url
- pIdT : permet l'extraction de l'url d'un id interne du forum pour un topic
- pTitleT : extraction du titre du topic à partir du html du site
Post :
- pPostP : découpage en post la page html
- pAuthorP : extraction de l'auteur du post
- pDateP : extraction de la date du post
- fDateP : découpage de la date pour permettre ca convertion en uts
- pTextP : extraction du text du post
