Sindup:ChangeLog ProgrammeC
De Hegyd Doc.
| (2 versions intermédiaires masquées) | |||
| Ligne 1 : | Ligne 1 : | ||
| + | ==27-03-2012== | ||
| + | ===Rssflower=== | ||
| + | * Ajout d'une option de debug permettant de tester les flux pubsub intern | ||
| + | * Ajout d'une option de debug permettant de ne pas afficher les items lors de test | ||
| + | |||
| + | ===LibAddContent (patch)=== | ||
| + | * Correction de la requete d'insertion de reviews en BDD | ||
| + | |||
| + | |||
| + | ==20-03-2012== | ||
| + | ===Rssflower=== | ||
| + | * Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder | ||
| + | |||
| + | ===DetectLang=== | ||
| + | * Création d'une socket server permettant la détection de langue de texte a la volé | ||
| + | |||
| + | ===Divers=== | ||
| + | * Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux | ||
| + | |||
| + | |||
==29-02-2012== | ==29-02-2012== | ||
===Rssflower=== | ===Rssflower=== | ||
Version actuelle en date du 27 mars 2012 à 15:17
Sommaire |
[modifier] 27-03-2012
[modifier] Rssflower
- Ajout d'une option de debug permettant de tester les flux pubsub intern
- Ajout d'une option de debug permettant de ne pas afficher les items lors de test
[modifier] LibAddContent (patch)
- Correction de la requete d'insertion de reviews en BDD
[modifier] 20-03-2012
[modifier] Rssflower
- Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder
[modifier] DetectLang
- Création d'une socket server permettant la détection de langue de texte a la volé
[modifier] Divers
- Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux
[modifier] 29-02-2012
[modifier] Rssflower
- Ajout d'un test pour exclure les caractères non affichable ( xml.c)
[modifier] 19-01-2012
[modifier] LibLang
- Ajout d'une fonction permettant le tri d'une liste de mot avec le fonction de tri utilisé par la lib
- Refonte des fichiers stopWordsList.txt et wordsList.txt
- Suppression des mots ayant une longueur >= 30 caractères
- Suppression + renomage d'une partie des varaible static de la lib
[modifier] 23-11-2011
[modifier] Rssflower
Multilangue : Prise en compte de la langue pour les flux twitter
Gestion des rss : Refonte du parcours des rss
- rss.c : Centralisation des fonctions lié aux rss (init, update, ...)
- rssInfo.c : Gestion uniquement du tableau de rss et du contenus des rss
- rssList.c : Création d'un thread pour les fluxs pubsub (exec des requetes) + un thread pour l'ordonenscement des rss dans la files d'attente
- infoStat.c : Lors de l'init il n'y a qu'une requête d'executer au lieu d'une par rss
Problème d'espace manquant : Les caractères de contrôles ne sont plus obligatoirement supprimé. S'ils correspondent à un "blanc" ils sont remplacé par un espace.
Date null : Dans le cas où la date est null (0000-00-00 00:00:00), maintenant l'uts correspondant est l'uts courant.
[modifier] Decoder
Multilangue : Recherche de la langue + traitement de la news en fonction
- liglangdetect : Détection la langue à partir d'un fichier de mot
- libged : Suppression des stopwords en fonction de la langue
- libged : Découpage des mots en stem en fonction de la langue
- libged : Insertion des stem dans des tables préfixé par le nom de la langue
Insertion des news : On arrête l'insertion du body dans les requête (toujours vide)
[modifier] Classifier
Multilangue : Refonte de la gestion des models, un folder peux avoir plusieurs models en fonction des langues des news
Process : Modification du process pour que les folders et les subjects soient traité par le même classifier
OverQuota : Prise en compte des clients et des user ne devant pas être traité par filterlive
[modifier] ClassLearning
Multilangue : Prise en compte de la langue pour la selection des news et les modifications des models
Log : Modification de la gestion des log pour être unifome entre les programmes
Conf : Mise en place d'un fichier de conf pour permettre un lancement plus rapide
[modifier] Clustering
Multilangue = EXCLUSIVEMENT FR : Prise en compte de la langue pour la création des tables de tfidf
[modifier] 04-11-2011
[modifier] Rssflower (patch)
Erreur sur requete mysql : Dans certain cas on gere les erreurs publié dans le flux rss, mais en plus du code d'erreur il y a une message
- item.c : Ajout d'un atoi pour extraire uniquement le code d'erreur
[modifier] 19-10-2011
[modifier] Rssflower
Date non détecté : Pour certain flux ATOM la balise de la date n'est pas géré
- item.c > read_date : Ajout d'une recherche de updated
[modifier] 06-10-2011
[modifier] Rssflower (patch)
Problème d'auteur : Les auteurs n'était plus remonté depuis le 25/08/2011
- rss_look.c > adjustXml : Changement de la fonction appelé
[modifier] 04-08-2011
[modifier] Rssflower
Gestion des décalage horaires''
- rss_look.c : ajout d'un décalage de 12h pour la vérification des dates futures
[modifier] 28-07-2011
[modifier] Decoder
- Mise en commentaire de tout les classement automatique de news dans des dossiers pour les news (reste en fonctionnement pour les avis et socialPost)
[modifier] 29-06-2011
[modifier] liblang
Ajout d'une fonction qui donne l'Id d'une langue
- lgGetName : pour le moment la fonction retourne toujours 0
[modifier] libflow
Prise en compte dans champ langXml et country
[modifier] libaddcontent
Ajout du champ country lors de l'insertion
[modifier] Rssflower
Mise en place de la gestion des entitées : replaceEntity.c
- Liste la totalité des entité de 0 à 655xx avec leur correspondance en utf8
- Le remplacement des entités par les caractères se fait 1 fois avant la convertion en utf8
Correction problème d'encodage : xml.c
- Dans le cadre de la langue arabe prise en compte de nouveau encodage quand ils sont spécifié dans le xml
Correction d'un problème de date : copy.c
- Problème avec les news dont la date est MM/DD/YYYY
Gestion du country : passage de l'information du feed au record
Ajout de la langue des flux : implémentation incomplete on passe juste 0 dans le record
[modifier] Decoder
Prise en charge de la langue spécifié dans le flux si la détection renvoie 0 (langXml)
Envoie du contry pour l'insertion en base
[modifier] 20-06-2011
[modifier] Rssflower
Mise en place du proxy : http.c
- Mise en place d'une IP fixe dans le code, il y a un changement d'ip automatique à chaque changement d'url
- Passage de l'ip du proxy et du port en dur dans la fonction de connection à la socket
- Modification de l'entête http pour supprimé le HOST:... et passé l'url en entière
- Plus besoin de recherché l'ip du site ou de découpé l'url pour la passé dans l'entête
[modifier] Clustering
Correction d'une erreur lors de la recherche du subjet d'un cluster, jusque la le subject précédent n'était pas pris en compte
- thread.c : Ajout, en paramètres, du sujet à la fonction d'appel de la recherche du sujet + Correction le cluster étant supprimé de la mémoire au début du traitement, il manquait un certain nombre d'information
- udpdate.c : Prend en compte l'ancien subjet, si la détermination du subject ne fonctionne pas ( retourne 0) on renvoie la dernière détection
[modifier] 14-06-2011
[modifier] Rssflower
Correction d'un problème de caractères de controle non supprimé
- isUTF8.c : maj mineur ( changement des valeur de retour de checkUTF8)
- xml.c : refonte de la fonction my_conv
- création de plusieurs fonction,
- Ajout d'une partie lié au traitement de caractères de controles
- Changement du comportement de validUTF8 (si des char utf8 trouvé pas de traitement globale => je pense qu'avant c'était l'inverse)
[modifier] 27-05-2011
[modifier] Rssflower
Suppression du fichier cacheLog : utilisation des connexions mysql propre a chaque thread
Modification de la gestion des stats des rss : update a chaque interrogation + maj des stat 1fois par heure lors de l'interrogation
[modifier] 15-03-2011
[modifier] Rssflower
Ajout de flagNewsDuplicate : Ajout du champ flagNewsDuplicate en base de données + dans rssInfo
Ajout d'une requête dans le process : Dans la table newsHeadline pour rechercher les doublon de news
