Plagiarism est une extension intéressante de WordPress qui permet de vérifier si un article soumis a déjà été publié ailleurs (duplicate content). Ca facilite grandement le travail de modération sur les sites de communiqués de presse ou communautaires. Sauf que malheureusement il y a quelques bugs dans la version 1.0.3. Ne souhaitant pas passer trop de temps à modifier un module qui sera peut-être mis à jour prochainement (ou pas) j’ai fais quelques modifications simples et rapides afin que la détection de duplicate content fonctionne au moins pour les recherches sur Google.
La démarche ou comment corriger Plagiarism
- Ouvrir le fichier plagiarism.php (en passant par le panneau Extensions, cliquer sur le Modifier en dessous de Plagiarism)
- Changer le paramètre langue de recherche (en par fr), pour cela remplacer
const GOOGLE_URL = "http://www.google.com/search?hl=en&q=";
par
const GOOGLE_URL = "http://www.google.com/search?hl=fr&q=";
pour faire des recherches en français… c’est important pour la modification qui suit.
- Ajouter dans la function get_google_count( $dom ) qui se trouve vers le milieu du fichier juste avant le return $count;
if (strpos($dom->textContent, 'Aucun résultat trouvé pour') !== false) $count=0;
car chercher uniquement la valeur du resultStats n’est pas suffisant (voire inutile et en plus buggué dans la 1.0.3)
il vaut mieux chercher la chaîne ‘Aucun résultat trouvé pour’ c’est plus fiable
et c’est là qu’on comprend le pourquoi de la première modification concernant le paramètre langue fr.
Attention de sauvegarder le script avec un encodage en UTF8 sinon ca ne marchera pas (à cause des accents dans ‘Aucun résultat trouvé pour’).
Les réglages de Plagiarism
Pour les réglages j’ai opté pour une recherche rapide : vérifier des blocs de 20 mots tous les 60 mots et cela au maximum 10 fois. De quoi bien survoler les articles jusqu’à 600 mots. Il faut aller dans Réglages, puis Plagiarism et modifier ainsi :
Phrase chunk size : 20
Phrase chunk step : 60
Query slice size : 10
Query wait time : 0
Si vous avez la possibilité d’ajouter des proxy ça sera encore mieux. Une simple recherche google devrait vous permettre de trouver des sites spécialisés dans les listes de proxy.
Voilà ce n’est pas parfait mais c’est une méthode rapide pour faire fonctionner plagiarism avec Google.