Sindup:ChangeLog ProgrammeC

De Hegyd Doc.

(Différences entre les versions)
 
(11 versions intermédiaires masquées)
Ligne 1 : Ligne 1 :
-
==06-10-2011==
+
==27-03-2012==
 +
===Rssflower===
 +
* Ajout d'une option de debug permettant de tester les flux pubsub intern
 +
* Ajout d'une option de debug permettant de ne pas afficher les items lors de test
 +
 
 +
===LibAddContent (patch)===
 +
* Correction de la requete d'insertion de reviews en BDD
 +
 
 +
 
 +
==20-03-2012==
 +
===Rssflower===
 +
* Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder
 +
 
 +
===DetectLang===
 +
* Création d'une socket server permettant la détection de langue de texte a la volé
 +
 
 +
===Divers===
 +
* Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux
 +
 
 +
 
 +
==29-02-2012==
 +
===Rssflower===
 +
* Ajout d'un test pour exclure les caractères non affichable ( xml.c)
 +
 
 +
==19-01-2012==
 +
===LibLang===
 +
* Ajout d'une fonction permettant le tri d'une liste de mot avec le fonction de tri utilisé par la lib
 +
* Refonte des fichiers stopWordsList.txt et wordsList.txt
 +
* Suppression des mots ayant une longueur >= 30 caractères
 +
* Suppression + renomage d'une partie des varaible static de la lib
 +
 
 +
==23-11-2011==
 +
===Rssflower===
 +
'''Multilangue''' : Prise en compte de la langue pour les flux twitter
 +
 
 +
'''Gestion des rss''' : Refonte du parcours des rss
 +
*rss.c : Centralisation des fonctions lié aux rss (init, update, ...)
 +
*rssInfo.c : Gestion uniquement du tableau de rss et du contenus des rss
 +
*rssList.c : Création d'un thread pour les fluxs pubsub (exec des requetes) + un thread pour l'ordonenscement des rss dans la files d'attente
 +
*infoStat.c : Lors de l'init il n'y a qu'une requête d'executer au lieu d'une par rss
 +
 
 +
'''Problème d'espace manquant''' : Les caractères de contrôles ne sont plus obligatoirement supprimé. S'ils correspondent à un "blanc" ils sont remplacé par un espace.
 +
 
 +
'''Date null''' : Dans le cas où la date est null (0000-00-00 00:00:00), maintenant l'uts correspondant est l'uts courant.
 +
 
 +
===Decoder===
 +
'''Multilangue''' : Recherche de la langue + traitement de la news en fonction
 +
*liglangdetect : Détection la langue à partir d'un fichier de mot
 +
*libged : Suppression des stopwords en fonction de la langue
 +
*libged : Découpage des mots en stem en fonction de la langue
 +
*libged : Insertion des stem dans des tables préfixé par le nom de la langue
 +
 
 +
'''Insertion des news''' : On arrête l'insertion du body dans les requête (toujours vide)
 +
 
 +
===Classifier===
 +
'''Multilangue''' : Refonte de la gestion des models, un folder peux avoir plusieurs models en fonction des langues des news
 +
 
 +
'''Process''' : Modification du process pour que les folders et les subjects soient traité par le même classifier
 +
 
 +
'''OverQuota''' : Prise en compte des clients et des user ne devant pas être traité par filterlive
 +
 
 +
===ClassLearning===
 +
'''Multilangue''' : Prise en compte de la langue pour la selection des news et les modifications des models
 +
 
 +
'''Log''' : Modification de la gestion des log pour être unifome entre les programmes
 +
 
 +
'''Conf''' : Mise en place d'un fichier de conf pour permettre un lancement plus rapide
 +
 
 +
===Clustering===
 +
'''Multilangue = EXCLUSIVEMENT FR''' : Prise en compte de la langue pour la création des tables de tfidf
 +
 
 +
 
 +
==04-11-2011==
===Rssflower (patch)===
===Rssflower (patch)===
-
'''Problème d'auteur''' : Les auteurs n'était plus remonté depuis le 25/08/2011
+
'''Erreur sur requete mysql''' : Dans certain cas on gere les erreurs publié dans le flux rss, mais en plus du code d'erreur il y a une message
-
*rss_look.c > adjustXml : Changement de la fonction appelé
+
*item.c : Ajout d'un atoi pour extraire uniquement le code d'erreur
 +
 
==19-10-2011==
==19-10-2011==
Ligne 8 : Ligne 81 :
'''Date non détecté''' : Pour certain flux ATOM la balise de la date n'est pas géré
'''Date non détecté''' : Pour certain flux ATOM la balise de la date n'est pas géré
*item.c > read_date : Ajout d'une recherche de updated
*item.c > read_date : Ajout d'une recherche de updated
 +
 +
 +
==06-10-2011==
 +
===Rssflower (patch)===
 +
'''Problème d'auteur''' : Les auteurs n'était plus remonté depuis le 25/08/2011
 +
*rss_look.c > adjustXml : Changement de la fonction appelé
 +
 +
 +
==04-08-2011==
 +
===Rssflower===
 +
''Gestion des décalage horaires''''
 +
*rss_look.c : ajout d'un décalage de 12h pour la vérification des dates futures
 +
 +
 +
==28-07-2011==
 +
===Decoder===
 +
*Mise en commentaire de tout les classement automatique de news dans des dossiers pour les news (reste en fonctionnement pour les avis et socialPost)
 +
 +
 +
==29-06-2011==
 +
===liblang===
 +
Ajout d'une fonction qui donne l'Id d'une langue
 +
*lgGetName : pour le moment la fonction retourne toujours 0
 +
 +
===libflow===
 +
Prise en compte dans champ langXml et country
 +
   
 +
===libaddcontent===
 +
Ajout du champ country lors de l'insertion
 +
 +
===Rssflower===
 +
'''Mise en place de la gestion des entitées''' : replaceEntity.c
 +
*Liste la totalité des entité de 0 à 655xx avec leur correspondance en utf8
 +
*Le remplacement des entités par les caractères se fait 1 fois avant la convertion en utf8
 +
'''Correction problème d'encodage''' : xml.c
 +
*Dans le cadre de la langue arabe prise en compte de nouveau encodage quand ils sont spécifié dans le xml
 +
'''Correction d'un problème de date''' : copy.c
 +
*Problème avec les news dont la date est MM/DD/YYYY
 +
'''Gestion du country''' : passage de l'information du feed au record
 +
 +
'''Ajout de la langue des flux''' : implémentation incomplete on passe juste 0 dans le record
 +
 +
===Decoder===
 +
Prise en charge de la langue spécifié dans le flux si la détection renvoie 0 (langXml)
 +
 +
Envoie du contry pour l'insertion en base
 +
 +
 +
==20-06-2011==
 +
===Rssflower===
 +
'''Mise en place du proxy''' : http.c
 +
*Mise en place d'une IP fixe dans le code, il y a un changement d'ip automatique à chaque changement d'url
 +
*Passage de l'ip du proxy et du port en dur dans la fonction de connection à la socket
 +
*Modification de l'entête http pour supprimé le HOST:... et passé l'url en entière
 +
*Plus besoin de recherché l'ip du site ou de découpé l'url pour la passé dans l'entête
 +
 +
===Clustering===
 +
Correction d'une erreur lors de la recherche du subjet d'un cluster, jusque la le subject précédent n'était pas pris en compte
 +
*thread.c : Ajout, en paramètres, du sujet à la fonction d'appel de la recherche du sujet + Correction le cluster étant supprimé de la mémoire au début du traitement, il manquait un certain nombre d'information
 +
*udpdate.c : Prend en compte l'ancien subjet, si la détermination du subject ne fonctionne pas ( retourne 0) on renvoie la dernière détection
 +
 +
 +
==14-06-2011==
 +
===Rssflower===
 +
Correction d'un '''problème de caractères''' de controle non supprimé
 +
*isUTF8.c : maj mineur ( changement des valeur de retour de checkUTF8)
 +
*xml.c : refonte de la fonction my_conv
 +
      - création de plusieurs fonction,
 +
      - Ajout d'une partie lié au traitement de caractères de controles
 +
      - Changement du comportement de validUTF8 (si des char utf8 trouvé pas de traitement globale => je pense qu'avant c'était l'inverse)
 +
 +
 +
==27-05-2011==
 +
===Rssflower===
 +
'''Suppression du fichier cacheLog''' : utilisation des connexions mysql propre a chaque thread
 +
 +
'''Modification de la gestion des stats des rss''' : update a chaque interrogation + maj des stat 1fois par heure lors de l'interrogation
 +
 +
 +
==15-03-2011==
 +
===Rssflower===
 +
'''Ajout de flagNewsDuplicate''' : Ajout du champ flagNewsDuplicate en base de données + dans rssInfo
 +
 +
'''Ajout d'une requête dans le process''' : Dans la table newsHeadline pour rechercher les doublon de news
[[Sindup#Programmes_C]]
[[Sindup#Programmes_C]]

Version actuelle en date du 27 mars 2012 à 15:17

Sommaire

[modifier] 27-03-2012

[modifier] Rssflower

  • Ajout d'une option de debug permettant de tester les flux pubsub intern
  • Ajout d'une option de debug permettant de ne pas afficher les items lors de test

[modifier] LibAddContent (patch)

  • Correction de la requete d'insertion de reviews en BDD


[modifier] 20-03-2012

[modifier] Rssflower

  • Ajout d'un test pour les réseaux sociaux non interne, recherche du post en base (comme pour les news) => gain en nombre de requetes, en process Decoder

[modifier] DetectLang

  • Création d'une socket server permettant la détection de langue de texte a la volé

[modifier] Divers

  • Création d'un script permettant la détection et la correction des news cassé a cause de caractères spéciaux


[modifier] 29-02-2012

[modifier] Rssflower

  • Ajout d'un test pour exclure les caractères non affichable ( xml.c)

[modifier] 19-01-2012

[modifier] LibLang

  • Ajout d'une fonction permettant le tri d'une liste de mot avec le fonction de tri utilisé par la lib
  • Refonte des fichiers stopWordsList.txt et wordsList.txt
  • Suppression des mots ayant une longueur >= 30 caractères
  • Suppression + renomage d'une partie des varaible static de la lib

[modifier] 23-11-2011

[modifier] Rssflower

Multilangue : Prise en compte de la langue pour les flux twitter

Gestion des rss : Refonte du parcours des rss

  • rss.c : Centralisation des fonctions lié aux rss (init, update, ...)
  • rssInfo.c : Gestion uniquement du tableau de rss et du contenus des rss
  • rssList.c : Création d'un thread pour les fluxs pubsub (exec des requetes) + un thread pour l'ordonenscement des rss dans la files d'attente
  • infoStat.c : Lors de l'init il n'y a qu'une requête d'executer au lieu d'une par rss

Problème d'espace manquant : Les caractères de contrôles ne sont plus obligatoirement supprimé. S'ils correspondent à un "blanc" ils sont remplacé par un espace.

Date null : Dans le cas où la date est null (0000-00-00 00:00:00), maintenant l'uts correspondant est l'uts courant.

[modifier] Decoder

Multilangue : Recherche de la langue + traitement de la news en fonction

  • liglangdetect : Détection la langue à partir d'un fichier de mot
  • libged : Suppression des stopwords en fonction de la langue
  • libged : Découpage des mots en stem en fonction de la langue
  • libged : Insertion des stem dans des tables préfixé par le nom de la langue

Insertion des news : On arrête l'insertion du body dans les requête (toujours vide)

[modifier] Classifier

Multilangue : Refonte de la gestion des models, un folder peux avoir plusieurs models en fonction des langues des news

Process : Modification du process pour que les folders et les subjects soient traité par le même classifier

OverQuota : Prise en compte des clients et des user ne devant pas être traité par filterlive

[modifier] ClassLearning

Multilangue : Prise en compte de la langue pour la selection des news et les modifications des models

Log : Modification de la gestion des log pour être unifome entre les programmes

Conf : Mise en place d'un fichier de conf pour permettre un lancement plus rapide

[modifier] Clustering

Multilangue = EXCLUSIVEMENT FR : Prise en compte de la langue pour la création des tables de tfidf


[modifier] 04-11-2011

[modifier] Rssflower (patch)

Erreur sur requete mysql : Dans certain cas on gere les erreurs publié dans le flux rss, mais en plus du code d'erreur il y a une message

  • item.c : Ajout d'un atoi pour extraire uniquement le code d'erreur


[modifier] 19-10-2011

[modifier] Rssflower

Date non détecté : Pour certain flux ATOM la balise de la date n'est pas géré

  • item.c > read_date : Ajout d'une recherche de updated


[modifier] 06-10-2011

[modifier] Rssflower (patch)

Problème d'auteur : Les auteurs n'était plus remonté depuis le 25/08/2011

  • rss_look.c > adjustXml : Changement de la fonction appelé


[modifier] 04-08-2011

[modifier] Rssflower

Gestion des décalage horaires''

  • rss_look.c : ajout d'un décalage de 12h pour la vérification des dates futures


[modifier] 28-07-2011

[modifier] Decoder

  • Mise en commentaire de tout les classement automatique de news dans des dossiers pour les news (reste en fonctionnement pour les avis et socialPost)


[modifier] 29-06-2011

[modifier] liblang

Ajout d'une fonction qui donne l'Id d'une langue

  • lgGetName : pour le moment la fonction retourne toujours 0

[modifier] libflow

Prise en compte dans champ langXml et country

[modifier] libaddcontent

Ajout du champ country lors de l'insertion

[modifier] Rssflower

Mise en place de la gestion des entitées : replaceEntity.c

  • Liste la totalité des entité de 0 à 655xx avec leur correspondance en utf8
  • Le remplacement des entités par les caractères se fait 1 fois avant la convertion en utf8

Correction problème d'encodage : xml.c

  • Dans le cadre de la langue arabe prise en compte de nouveau encodage quand ils sont spécifié dans le xml

Correction d'un problème de date : copy.c

  • Problème avec les news dont la date est MM/DD/YYYY

Gestion du country : passage de l'information du feed au record

Ajout de la langue des flux : implémentation incomplete on passe juste 0 dans le record

[modifier] Decoder

Prise en charge de la langue spécifié dans le flux si la détection renvoie 0 (langXml)

Envoie du contry pour l'insertion en base


[modifier] 20-06-2011

[modifier] Rssflower

Mise en place du proxy : http.c

  • Mise en place d'une IP fixe dans le code, il y a un changement d'ip automatique à chaque changement d'url
  • Passage de l'ip du proxy et du port en dur dans la fonction de connection à la socket
  • Modification de l'entête http pour supprimé le HOST:... et passé l'url en entière
  • Plus besoin de recherché l'ip du site ou de découpé l'url pour la passé dans l'entête

[modifier] Clustering

Correction d'une erreur lors de la recherche du subjet d'un cluster, jusque la le subject précédent n'était pas pris en compte

  • thread.c : Ajout, en paramètres, du sujet à la fonction d'appel de la recherche du sujet + Correction le cluster étant supprimé de la mémoire au début du traitement, il manquait un certain nombre d'information
  • udpdate.c : Prend en compte l'ancien subjet, si la détermination du subject ne fonctionne pas ( retourne 0) on renvoie la dernière détection


[modifier] 14-06-2011

[modifier] Rssflower

Correction d'un problème de caractères de controle non supprimé

  • isUTF8.c : maj mineur ( changement des valeur de retour de checkUTF8)
  • xml.c : refonte de la fonction my_conv
     - création de plusieurs fonction, 
     - Ajout d'une partie lié au traitement de caractères de controles
     - Changement du comportement de validUTF8 (si des char utf8 trouvé pas de traitement globale => je pense qu'avant c'était l'inverse)


[modifier] 27-05-2011

[modifier] Rssflower

Suppression du fichier cacheLog : utilisation des connexions mysql propre a chaque thread

Modification de la gestion des stats des rss : update a chaque interrogation + maj des stat 1fois par heure lors de l'interrogation


[modifier] 15-03-2011

[modifier] Rssflower

Ajout de flagNewsDuplicate : Ajout du champ flagNewsDuplicate en base de données + dans rssInfo

Ajout d'une requête dans le process : Dans la table newsHeadline pour rechercher les doublon de news


Sindup#Programmes_C