Sindup:ChangeLog ProgrammeC
De Hegyd Doc.
| Ligne 1 : | Ligne 1 : | ||
| + | ==27-03-2012== | ||
| + | ===Rssflower=== | ||
| + | * Ajout d'une option de debug permettant de tester les flux pubsub intern | ||
| + | * Ajout d'une option de debug permettant de ne pas afficher les items lors de test | ||
| + | |||
| + | ===LibAddContent=== | ||
| + | * Correction de la requete d'insertion de reviews en BDD | ||
| + | |||
| + | |||
==20-03-2012== | ==20-03-2012== | ||
===Rssflower=== | ===Rssflower=== | ||
Version du 27 mars 2012 à 15:17
Sommaire |
27-03-2012
Rssflower
- Ajout d'une option de debug permettant de tester les flux pubsub intern
- Ajout d'une option de debug permettant de ne pas afficher les items lors de test
LibAddContent
- Correction de la requete d'insertion de reviews en BDD
20-03-2012
Rssflower
- Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder
DetectLang
- Création d'une socket server permettant la détection de langue de texte a la volé
Divers
- Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux
29-02-2012
Rssflower
- Ajout d'un test pour exclure les caractères non affichable ( xml.c)
19-01-2012
LibLang
- Ajout d'une fonction permettant le tri d'une liste de mot avec le fonction de tri utilisé par la lib
- Refonte des fichiers stopWordsList.txt et wordsList.txt
- Suppression des mots ayant une longueur >= 30 caractères
- Suppression + renomage d'une partie des varaible static de la lib
23-11-2011
Rssflower
Multilangue : Prise en compte de la langue pour les flux twitter
Gestion des rss : Refonte du parcours des rss
- rss.c : Centralisation des fonctions lié aux rss (init, update, ...)
- rssInfo.c : Gestion uniquement du tableau de rss et du contenus des rss
- rssList.c : Création d'un thread pour les fluxs pubsub (exec des requetes) + un thread pour l'ordonenscement des rss dans la files d'attente
- infoStat.c : Lors de l'init il n'y a qu'une requête d'executer au lieu d'une par rss
Problème d'espace manquant : Les caractères de contrôles ne sont plus obligatoirement supprimé. S'ils correspondent à un "blanc" ils sont remplacé par un espace.
Date null : Dans le cas où la date est null (0000-00-00 00:00:00), maintenant l'uts correspondant est l'uts courant.
Decoder
Multilangue : Recherche de la langue + traitement de la news en fonction
- liglangdetect : Détection la langue à partir d'un fichier de mot
- libged : Suppression des stopwords en fonction de la langue
- libged : Découpage des mots en stem en fonction de la langue
- libged : Insertion des stem dans des tables préfixé par le nom de la langue
Insertion des news : On arrête l'insertion du body dans les requête (toujours vide)
Classifier
Multilangue : Refonte de la gestion des models, un folder peux avoir plusieurs models en fonction des langues des news
Process : Modification du process pour que les folders et les subjects soient traité par le même classifier
OverQuota : Prise en compte des clients et des user ne devant pas être traité par filterlive
ClassLearning
Multilangue : Prise en compte de la langue pour la selection des news et les modifications des models
Log : Modification de la gestion des log pour être unifome entre les programmes
Conf : Mise en place d'un fichier de conf pour permettre un lancement plus rapide
Clustering
Multilangue = EXCLUSIVEMENT FR : Prise en compte de la langue pour la création des tables de tfidf
04-11-2011
Rssflower (patch)
Erreur sur requete mysql : Dans certain cas on gere les erreurs publié dans le flux rss, mais en plus du code d'erreur il y a une message
- item.c : Ajout d'un atoi pour extraire uniquement le code d'erreur
19-10-2011
Rssflower
Date non détecté : Pour certain flux ATOM la balise de la date n'est pas géré
- item.c > read_date : Ajout d'une recherche de updated
06-10-2011
Rssflower (patch)
Problème d'auteur : Les auteurs n'était plus remonté depuis le 25/08/2011
- rss_look.c > adjustXml : Changement de la fonction appelé
04-08-2011
Rssflower
Gestion des décalage horaires''
- rss_look.c : ajout d'un décalage de 12h pour la vérification des dates futures
28-07-2011
Decoder
- Mise en commentaire de tout les classement automatique de news dans des dossiers pour les news (reste en fonctionnement pour les avis et socialPost)
29-06-2011
liblang
Ajout d'une fonction qui donne l'Id d'une langue
- lgGetName : pour le moment la fonction retourne toujours 0
libflow
Prise en compte dans champ langXml et country
libaddcontent
Ajout du champ country lors de l'insertion
Rssflower
Mise en place de la gestion des entitées : replaceEntity.c
- Liste la totalité des entité de 0 à 655xx avec leur correspondance en utf8
- Le remplacement des entités par les caractères se fait 1 fois avant la convertion en utf8
Correction problème d'encodage : xml.c
- Dans le cadre de la langue arabe prise en compte de nouveau encodage quand ils sont spécifié dans le xml
Correction d'un problème de date : copy.c
- Problème avec les news dont la date est MM/DD/YYYY
Gestion du country : passage de l'information du feed au record
Ajout de la langue des flux : implémentation incomplete on passe juste 0 dans le record
Decoder
Prise en charge de la langue spécifié dans le flux si la détection renvoie 0 (langXml)
Envoie du contry pour l'insertion en base
20-06-2011
Rssflower
Mise en place du proxy : http.c
- Mise en place d'une IP fixe dans le code, il y a un changement d'ip automatique à chaque changement d'url
- Passage de l'ip du proxy et du port en dur dans la fonction de connection à la socket
- Modification de l'entête http pour supprimé le HOST:... et passé l'url en entière
- Plus besoin de recherché l'ip du site ou de découpé l'url pour la passé dans l'entête
Clustering
Correction d'une erreur lors de la recherche du subjet d'un cluster, jusque la le subject précédent n'était pas pris en compte
- thread.c : Ajout, en paramètres, du sujet à la fonction d'appel de la recherche du sujet + Correction le cluster étant supprimé de la mémoire au début du traitement, il manquait un certain nombre d'information
- udpdate.c : Prend en compte l'ancien subjet, si la détermination du subject ne fonctionne pas ( retourne 0) on renvoie la dernière détection
14-06-2011
Rssflower
Correction d'un problème de caractères de controle non supprimé
- isUTF8.c : maj mineur ( changement des valeur de retour de checkUTF8)
- xml.c : refonte de la fonction my_conv
- création de plusieurs fonction,
- Ajout d'une partie lié au traitement de caractères de controles
- Changement du comportement de validUTF8 (si des char utf8 trouvé pas de traitement globale => je pense qu'avant c'était l'inverse)
27-05-2011
Rssflower
Suppression du fichier cacheLog : utilisation des connexions mysql propre a chaque thread
Modification de la gestion des stats des rss : update a chaque interrogation + maj des stat 1fois par heure lors de l'interrogation
15-03-2011
Rssflower
Ajout de flagNewsDuplicate : Ajout du champ flagNewsDuplicate en base de données + dans rssInfo
Ajout d'une requête dans le process : Dans la table newsHeadline pour rechercher les doublon de news
