Sindup::Doc LibLang

De Hegyd Doc.

(Différences entre les versions)
 
(2 versions intermédiaires masquées)
Ligne 9 : Ligne 9 :
  lgDetect_init( "PATH/wordsList.txt", nbThread);
  lgDetect_init( "PATH/wordsList.txt", nbThread);
==== Process ====
==== Process ====
-
  langue = lgDetect_process( indice, titre, description, source.language);
+
  langue = '''lgDetect_process'''( indice, titre, description, source.language);
* indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
* indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
-
* titre + description : est le texte brut qui doit être analysé
+
* titre + description : le texte à analyser
* source.language : est la langue de la source, elle influence la détection vers cette langue
* source.language : est la langue de la source, elle influence la détection vers cette langue
* langue : est la langue détecté par le prg en fonction des 64 répertoriées
* langue : est la langue détecté par le prg en fonction des 64 répertoriées
 +
langue = '''lgDetect_processOption'''( indice, chaine, nb, tableau);
 +
* indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
 +
* chaine : le texte brut à analyser
 +
* nb : nombre d'élément dans le tableau de résultats
 +
* tableau : liste des langues avec leur taux de correspondance au texte
==== Reset ====
==== Reset ====
  lgDetect_close();
  lgDetect_close();
 +
Ligne 31 : Ligne 37 :
==== Reset ====
==== Reset ====
  lgStopWord_close();
  lgStopWord_close();
 +
 +
== Algorithme ==
== Algorithme ==
Ligne 38 : Ligne 46 :
  lgDetect_init( "PATH/wordsList.txt", nbThread)
  lgDetect_init( "PATH/wordsList.txt", nbThread)
 +
 +
Alocation d'une zone mémoire "appartenant" a un thread grace à l'indice unique
 +
 +
*Appel de la fonction entrante
 +
*Appel d'une fonction qui traite la chaine, les données sont poussé dans la structur alloué
 +
* la fonction d'entrée peut alors avori acces au résultats du traaitement et extraire les information sous le formt souahiter
 +
*id de la langue sert d'index dans le tableau
[[Sindup#Programmes_C]]
[[Sindup#Programmes_C]]

Version actuelle en date du 25 janvier 2012 à 15:06

Sommaire

[modifier] LibLang : Détection de langue

Il faut avoir acces au fichier : wordsList.txt. Il contient la liste des mots par langue.

Acutellement sur sindup3 :

/var/projects/engine/data/v1/file/wordsList.txt

[modifier] Initialisation

lgDetect_init( "PATH/wordsList.txt", nbThread);

[modifier] Process

langue = lgDetect_process( indice, titre, description, source.language);
  • indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
  • titre + description : le texte à analyser
  • source.language : est la langue de la source, elle influence la détection vers cette langue
  • langue : est la langue détecté par le prg en fonction des 64 répertoriées
langue = lgDetect_processOption( indice, chaine, nb, tableau);
  • indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
  • chaine : le texte brut à analyser
  • nb : nombre d'élément dans le tableau de résultats
  • tableau : liste des langues avec leur taux de correspondance au texte

[modifier] Reset

lgDetect_close();


[modifier] LibLang : Suppression des stopWords

Il faut avoir acces au fichier : stopWordsList.txt. Il contient la liste des mots par langue.

Acutellement sur sindup3 :

/var/projects/engine/data/v1/file/stopWordsList.txt

[modifier] Initialisation

lgStopWord_init( "PATH/stopWordsList.txt");

[modifier] Process

[modifier] Reset

lgStopWord_close();


[modifier] Algorithme

[modifier] Initialisation

  • Création du tableau à 3 niveaux en fonction du nombre de thread : il contient les résultats
  • Chargement des mots et de leur langue en mémoire
lgDetect_init( "PATH/wordsList.txt", nbThread)


Alocation d'une zone mémoire "appartenant" a un thread grace à l'indice unique

  • Appel de la fonction entrante
  • Appel d'une fonction qui traite la chaine, les données sont poussé dans la structur alloué
  • la fonction d'entrée peut alors avori acces au résultats du traaitement et extraire les information sous le formt souahiter
  • id de la langue sert d'index dans le tableau

Sindup#Programmes_C