Sindup::Doc LibLang
De Hegyd Doc.
(Différences entre les versions)
(Page créée avec « == LibLang : Détection de langue == === Utilisation === Il faut avoir acces à 2 fichiers : * La liste des mots par langue * La liste des stopword par langue Ils sont actue… ») |
|||
| (4 versions intermédiaires masquées) | |||
| Ligne 1 : | Ligne 1 : | ||
== LibLang : Détection de langue == | == LibLang : Détection de langue == | ||
| - | |||
| - | Il faut avoir acces | + | Il faut avoir acces au fichier : wordsList.txt. Il contient la liste des mots par langue. |
| - | + | ||
| - | + | Acutellement sur sindup3 : | |
| - | + | ||
/var/projects/engine/data/v1/file/wordsList.txt | /var/projects/engine/data/v1/file/wordsList.txt | ||
| + | |||
| + | ==== Initialisation ==== | ||
| + | lgDetect_init( "PATH/wordsList.txt", nbThread); | ||
| + | ==== Process ==== | ||
| + | langue = '''lgDetect_process'''( indice, titre, description, source.language); | ||
| + | * indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread | ||
| + | * titre + description : le texte à analyser | ||
| + | * source.language : est la langue de la source, elle influence la détection vers cette langue | ||
| + | * langue : est la langue détecté par le prg en fonction des 64 répertoriées | ||
| + | |||
| + | langue = '''lgDetect_processOption'''( indice, chaine, nb, tableau); | ||
| + | * indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread | ||
| + | * chaine : le texte brut à analyser | ||
| + | * nb : nombre d'élément dans le tableau de résultats | ||
| + | * tableau : liste des langues avec leur taux de correspondance au texte | ||
| + | ==== Reset ==== | ||
| + | lgDetect_close(); | ||
| + | |||
| + | |||
| + | |||
| + | == LibLang : Suppression des stopWords == | ||
| + | |||
| + | Il faut avoir acces au fichier : stopWordsList.txt. Il contient la liste des mots par langue. | ||
| + | |||
| + | Acutellement sur sindup3 : | ||
/var/projects/engine/data/v1/file/stopWordsList.txt | /var/projects/engine/data/v1/file/stopWordsList.txt | ||
| + | ==== Initialisation ==== | ||
| + | lgStopWord_init( "PATH/stopWordsList.txt"); | ||
| + | ==== Process ==== | ||
| + | ==== Reset ==== | ||
| + | lgStopWord_close(); | ||
| - | |||
| - | Initialisation | + | == Algorithme == |
| + | ==== Initialisation ==== | ||
* Création du tableau à 3 niveaux en fonction du nombre de thread : il contient les résultats | * Création du tableau à 3 niveaux en fonction du nombre de thread : il contient les résultats | ||
* Chargement des mots et de leur langue en mémoire | * Chargement des mots et de leur langue en mémoire | ||
lgDetect_init( "PATH/wordsList.txt", nbThread) | lgDetect_init( "PATH/wordsList.txt", nbThread) | ||
| - | + | ||
| + | Alocation d'une zone mémoire "appartenant" a un thread grace à l'indice unique | ||
| + | |||
| + | *Appel de la fonction entrante | ||
| + | *Appel d'une fonction qui traite la chaine, les données sont poussé dans la structur alloué | ||
| + | * la fonction d'entrée peut alors avori acces au résultats du traaitement et extraire les information sous le formt souahiter | ||
| + | *id de la langue sert d'index dans le tableau | ||
| + | |||
| + | [[Sindup#Programmes_C]] | ||
Version actuelle en date du 25 janvier 2012 à 15:06
Sommaire |
[modifier] LibLang : Détection de langue
Il faut avoir acces au fichier : wordsList.txt. Il contient la liste des mots par langue.
Acutellement sur sindup3 :
/var/projects/engine/data/v1/file/wordsList.txt
[modifier] Initialisation
lgDetect_init( "PATH/wordsList.txt", nbThread);
[modifier] Process
langue = lgDetect_process( indice, titre, description, source.language);
- indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
- titre + description : le texte à analyser
- source.language : est la langue de la source, elle influence la détection vers cette langue
- langue : est la langue détecté par le prg en fonction des 64 répertoriées
langue = lgDetect_processOption( indice, chaine, nb, tableau);
- indice : est un chiffre entre 0 et nbThread et doit être unique. Il permet d'utiliser toujours le même objet pour un même thread
- chaine : le texte brut à analyser
- nb : nombre d'élément dans le tableau de résultats
- tableau : liste des langues avec leur taux de correspondance au texte
[modifier] Reset
lgDetect_close();
[modifier] LibLang : Suppression des stopWords
Il faut avoir acces au fichier : stopWordsList.txt. Il contient la liste des mots par langue.
Acutellement sur sindup3 :
/var/projects/engine/data/v1/file/stopWordsList.txt
[modifier] Initialisation
lgStopWord_init( "PATH/stopWordsList.txt");
[modifier] Process
[modifier] Reset
lgStopWord_close();
[modifier] Algorithme
[modifier] Initialisation
- Création du tableau à 3 niveaux en fonction du nombre de thread : il contient les résultats
- Chargement des mots et de leur langue en mémoire
lgDetect_init( "PATH/wordsList.txt", nbThread)
Alocation d'une zone mémoire "appartenant" a un thread grace à l'indice unique
- Appel de la fonction entrante
- Appel d'une fonction qui traite la chaine, les données sont poussé dans la structur alloué
- la fonction d'entrée peut alors avori acces au résultats du traaitement et extraire les information sous le formt souahiter
- id de la langue sert d'index dans le tableau
