Sindup:ChangeLog ProgrammeC

De Hegyd Doc.

(Différences entre les versions)
 
Ligne 4 : Ligne 4 :
* Ajout d'une option de debug permettant de ne pas afficher les items lors de test
* Ajout d'une option de debug permettant de ne pas afficher les items lors de test
-
===LibAddContent===
+
===LibAddContent (patch)===
* Correction de la requete d'insertion de reviews en BDD
* Correction de la requete d'insertion de reviews en BDD

Version actuelle en date du 27 mars 2012 à 15:17

Sommaire

[modifier] 27-03-2012

[modifier] Rssflower

  • Ajout d'une option de debug permettant de tester les flux pubsub intern
  • Ajout d'une option de debug permettant de ne pas afficher les items lors de test

[modifier] LibAddContent (patch)

  • Correction de la requete d'insertion de reviews en BDD


[modifier] 20-03-2012

[modifier] Rssflower

  • Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder

[modifier] DetectLang

  • Création d'une socket server permettant la détection de langue de texte a la volé

[modifier] Divers

  • Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux


[modifier] 29-02-2012

[modifier] Rssflower

  • Ajout d'un test pour exclure les caractères non affichable ( xml.c)

[modifier] 19-01-2012

[modifier] LibLang

  • Ajout d'une fonction permettant le tri d'une liste de mot avec le fonction de tri utilisé par la lib
  • Refonte des fichiers stopWordsList.txt et wordsList.txt
  • Suppression des mots ayant une longueur >= 30 caractères
  • Suppression + renomage d'une partie des varaible static de la lib

[modifier] 23-11-2011

[modifier] Rssflower

Multilangue : Prise en compte de la langue pour les flux twitter

Gestion des rss : Refonte du parcours des rss

  • rss.c : Centralisation des fonctions lié aux rss (init, update, ...)
  • rssInfo.c : Gestion uniquement du tableau de rss et du contenus des rss
  • rssList.c : Création d'un thread pour les fluxs pubsub (exec des requetes) + un thread pour l'ordonenscement des rss dans la files d'attente
  • infoStat.c : Lors de l'init il n'y a qu'une requête d'executer au lieu d'une par rss

Problème d'espace manquant : Les caractères de contrôles ne sont plus obligatoirement supprimé. S'ils correspondent à un "blanc" ils sont remplacé par un espace.

Date null : Dans le cas où la date est null (0000-00-00 00:00:00), maintenant l'uts correspondant est l'uts courant.

[modifier] Decoder

Multilangue : Recherche de la langue + traitement de la news en fonction

  • liglangdetect : Détection la langue à partir d'un fichier de mot
  • libged : Suppression des stopwords en fonction de la langue
  • libged : Découpage des mots en stem en fonction de la langue
  • libged : Insertion des stem dans des tables préfixé par le nom de la langue

Insertion des news : On arrête l'insertion du body dans les requête (toujours vide)

[modifier] Classifier

Multilangue : Refonte de la gestion des models, un folder peux avoir plusieurs models en fonction des langues des news

Process : Modification du process pour que les folders et les subjects soient traité par le même classifier

OverQuota : Prise en compte des clients et des user ne devant pas être traité par filterlive

[modifier] ClassLearning

Multilangue : Prise en compte de la langue pour la selection des news et les modifications des models

Log : Modification de la gestion des log pour être unifome entre les programmes

Conf : Mise en place d'un fichier de conf pour permettre un lancement plus rapide

[modifier] Clustering

Multilangue = EXCLUSIVEMENT FR : Prise en compte de la langue pour la création des tables de tfidf


[modifier] 04-11-2011

[modifier] Rssflower (patch)

Erreur sur requete mysql : Dans certain cas on gere les erreurs publié dans le flux rss, mais en plus du code d'erreur il y a une message

  • item.c : Ajout d'un atoi pour extraire uniquement le code d'erreur


[modifier] 19-10-2011

[modifier] Rssflower

Date non détecté : Pour certain flux ATOM la balise de la date n'est pas géré

  • item.c > read_date : Ajout d'une recherche de updated


[modifier] 06-10-2011

[modifier] Rssflower (patch)

Problème d'auteur : Les auteurs n'était plus remonté depuis le 25/08/2011

  • rss_look.c > adjustXml : Changement de la fonction appelé


[modifier] 04-08-2011

[modifier] Rssflower

Gestion des décalage horaires''

  • rss_look.c : ajout d'un décalage de 12h pour la vérification des dates futures


[modifier] 28-07-2011

[modifier] Decoder

  • Mise en commentaire de tout les classement automatique de news dans des dossiers pour les news (reste en fonctionnement pour les avis et socialPost)


[modifier] 29-06-2011

[modifier] liblang

Ajout d'une fonction qui donne l'Id d'une langue

  • lgGetName : pour le moment la fonction retourne toujours 0

[modifier] libflow

Prise en compte dans champ langXml et country

[modifier] libaddcontent

Ajout du champ country lors de l'insertion

[modifier] Rssflower

Mise en place de la gestion des entitées : replaceEntity.c

  • Liste la totalité des entité de 0 à 655xx avec leur correspondance en utf8
  • Le remplacement des entités par les caractères se fait 1 fois avant la convertion en utf8

Correction problème d'encodage : xml.c

  • Dans le cadre de la langue arabe prise en compte de nouveau encodage quand ils sont spécifié dans le xml

Correction d'un problème de date : copy.c

  • Problème avec les news dont la date est MM/DD/YYYY

Gestion du country : passage de l'information du feed au record

Ajout de la langue des flux : implémentation incomplete on passe juste 0 dans le record

[modifier] Decoder

Prise en charge de la langue spécifié dans le flux si la détection renvoie 0 (langXml)

Envoie du contry pour l'insertion en base


[modifier] 20-06-2011

[modifier] Rssflower

Mise en place du proxy : http.c

  • Mise en place d'une IP fixe dans le code, il y a un changement d'ip automatique à chaque changement d'url
  • Passage de l'ip du proxy et du port en dur dans la fonction de connection à la socket
  • Modification de l'entête http pour supprimé le HOST:... et passé l'url en entière
  • Plus besoin de recherché l'ip du site ou de découpé l'url pour la passé dans l'entête

[modifier] Clustering

Correction d'une erreur lors de la recherche du subjet d'un cluster, jusque la le subject précédent n'était pas pris en compte

  • thread.c : Ajout, en paramètres, du sujet à la fonction d'appel de la recherche du sujet + Correction le cluster étant supprimé de la mémoire au début du traitement, il manquait un certain nombre d'information
  • udpdate.c : Prend en compte l'ancien subjet, si la détermination du subject ne fonctionne pas ( retourne 0) on renvoie la dernière détection


[modifier] 14-06-2011

[modifier] Rssflower

Correction d'un problème de caractères de controle non supprimé

  • isUTF8.c : maj mineur ( changement des valeur de retour de checkUTF8)
  • xml.c : refonte de la fonction my_conv
     - création de plusieurs fonction, 
     - Ajout d'une partie lié au traitement de caractères de controles
     - Changement du comportement de validUTF8 (si des char utf8 trouvé pas de traitement globale => je pense qu'avant c'était l'inverse)


[modifier] 27-05-2011

[modifier] Rssflower

Suppression du fichier cacheLog : utilisation des connexions mysql propre a chaque thread

Modification de la gestion des stats des rss : update a chaque interrogation + maj des stat 1fois par heure lors de l'interrogation


[modifier] 15-03-2011

[modifier] Rssflower

Ajout de flagNewsDuplicate : Ajout du champ flagNewsDuplicate en base de données + dans rssInfo

Ajout d'une requête dans le process : Dans la table newsHeadline pour rechercher les doublon de news


Sindup#Programmes_C