Sindup:ChangeLog ProgrammeC

De Hegyd Doc.

(Différences entre les versions)
Ligne 1 : Ligne 1 :
 +
==20-03-2012==
 +
===Rssflower===
 +
* Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder
 +
 +
===DetectLang===
 +
* Création d'une socket server permettant la détection de langue de texte a la volé
 +
 +
===Divers===
 +
* Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux
 +
 +
==29-02-2012==
==29-02-2012==
===Rssflower===
===Rssflower===

Version du 20 mars 2012 à 10:47

Sommaire

20-03-2012

Rssflower

  • Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder

DetectLang

  • Création d'une socket server permettant la détection de langue de texte a la volé

Divers

  • Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux


29-02-2012

Rssflower

  • Ajout d'un test pour exclure les caractères non affichable ( xml.c)

19-01-2012

LibLang

  • Ajout d'une fonction permettant le tri d'une liste de mot avec le fonction de tri utilisé par la lib
  • Refonte des fichiers stopWordsList.txt et wordsList.txt
  • Suppression des mots ayant une longueur >= 30 caractères
  • Suppression + renomage d'une partie des varaible static de la lib

23-11-2011

Rssflower

Multilangue : Prise en compte de la langue pour les flux twitter

Gestion des rss : Refonte du parcours des rss

  • rss.c : Centralisation des fonctions lié aux rss (init, update, ...)
  • rssInfo.c : Gestion uniquement du tableau de rss et du contenus des rss
  • rssList.c : Création d'un thread pour les fluxs pubsub (exec des requetes) + un thread pour l'ordonenscement des rss dans la files d'attente
  • infoStat.c : Lors de l'init il n'y a qu'une requête d'executer au lieu d'une par rss

Problème d'espace manquant : Les caractères de contrôles ne sont plus obligatoirement supprimé. S'ils correspondent à un "blanc" ils sont remplacé par un espace.

Date null : Dans le cas où la date est null (0000-00-00 00:00:00), maintenant l'uts correspondant est l'uts courant.

Decoder

Multilangue : Recherche de la langue + traitement de la news en fonction

  • liglangdetect : Détection la langue à partir d'un fichier de mot
  • libged : Suppression des stopwords en fonction de la langue
  • libged : Découpage des mots en stem en fonction de la langue
  • libged : Insertion des stem dans des tables préfixé par le nom de la langue

Insertion des news : On arrête l'insertion du body dans les requête (toujours vide)

Classifier

Multilangue : Refonte de la gestion des models, un folder peux avoir plusieurs models en fonction des langues des news

Process : Modification du process pour que les folders et les subjects soient traité par le même classifier

OverQuota : Prise en compte des clients et des user ne devant pas être traité par filterlive

ClassLearning

Multilangue : Prise en compte de la langue pour la selection des news et les modifications des models

Log : Modification de la gestion des log pour être unifome entre les programmes

Conf : Mise en place d'un fichier de conf pour permettre un lancement plus rapide

Clustering

Multilangue = EXCLUSIVEMENT FR : Prise en compte de la langue pour la création des tables de tfidf


04-11-2011

Rssflower (patch)

Erreur sur requete mysql : Dans certain cas on gere les erreurs publié dans le flux rss, mais en plus du code d'erreur il y a une message

  • item.c : Ajout d'un atoi pour extraire uniquement le code d'erreur


19-10-2011

Rssflower

Date non détecté : Pour certain flux ATOM la balise de la date n'est pas géré

  • item.c > read_date : Ajout d'une recherche de updated


06-10-2011

Rssflower (patch)

Problème d'auteur : Les auteurs n'était plus remonté depuis le 25/08/2011

  • rss_look.c > adjustXml : Changement de la fonction appelé


04-08-2011

Rssflower

Gestion des décalage horaires''

  • rss_look.c : ajout d'un décalage de 12h pour la vérification des dates futures


28-07-2011

Decoder

  • Mise en commentaire de tout les classement automatique de news dans des dossiers pour les news (reste en fonctionnement pour les avis et socialPost)


29-06-2011

liblang

Ajout d'une fonction qui donne l'Id d'une langue

  • lgGetName : pour le moment la fonction retourne toujours 0

libflow

Prise en compte dans champ langXml et country

libaddcontent

Ajout du champ country lors de l'insertion

Rssflower

Mise en place de la gestion des entitées : replaceEntity.c

  • Liste la totalité des entité de 0 à 655xx avec leur correspondance en utf8
  • Le remplacement des entités par les caractères se fait 1 fois avant la convertion en utf8

Correction problème d'encodage : xml.c

  • Dans le cadre de la langue arabe prise en compte de nouveau encodage quand ils sont spécifié dans le xml

Correction d'un problème de date : copy.c

  • Problème avec les news dont la date est MM/DD/YYYY

Gestion du country : passage de l'information du feed au record

Ajout de la langue des flux : implémentation incomplete on passe juste 0 dans le record

Decoder

Prise en charge de la langue spécifié dans le flux si la détection renvoie 0 (langXml)

Envoie du contry pour l'insertion en base


20-06-2011

Rssflower

Mise en place du proxy : http.c

  • Mise en place d'une IP fixe dans le code, il y a un changement d'ip automatique à chaque changement d'url
  • Passage de l'ip du proxy et du port en dur dans la fonction de connection à la socket
  • Modification de l'entête http pour supprimé le HOST:... et passé l'url en entière
  • Plus besoin de recherché l'ip du site ou de découpé l'url pour la passé dans l'entête

Clustering

Correction d'une erreur lors de la recherche du subjet d'un cluster, jusque la le subject précédent n'était pas pris en compte

  • thread.c : Ajout, en paramètres, du sujet à la fonction d'appel de la recherche du sujet + Correction le cluster étant supprimé de la mémoire au début du traitement, il manquait un certain nombre d'information
  • udpdate.c : Prend en compte l'ancien subjet, si la détermination du subject ne fonctionne pas ( retourne 0) on renvoie la dernière détection


14-06-2011

Rssflower

Correction d'un problème de caractères de controle non supprimé

  • isUTF8.c : maj mineur ( changement des valeur de retour de checkUTF8)
  • xml.c : refonte de la fonction my_conv
     - création de plusieurs fonction, 
     - Ajout d'une partie lié au traitement de caractères de controles
     - Changement du comportement de validUTF8 (si des char utf8 trouvé pas de traitement globale => je pense qu'avant c'était l'inverse)


27-05-2011

Rssflower

Suppression du fichier cacheLog : utilisation des connexions mysql propre a chaque thread

Modification de la gestion des stats des rss : update a chaque interrogation + maj des stat 1fois par heure lors de l'interrogation


15-03-2011

Rssflower

Ajout de flagNewsDuplicate : Ajout du champ flagNewsDuplicate en base de données + dans rssInfo

Ajout d'une requête dans le process : Dans la table newsHeadline pour rechercher les doublon de news


Sindup#Programmes_C