Faire fonctionner Plagiarism méthode simple et rapide pour WordPress

code

Plagiarism est une extension intéressante de WordPress qui permet de vérifier si un article soumis a déjà été publié ailleurs (duplicate content). Ca facilite grandement le travail de modération sur les sites de communiqués de presse ou communautaires. Sauf que malheureusement il y a quelques bugs dans la version 1.0.3. Ne souhaitant pas passer trop de temps à modifier un module qui sera peut-être mis à jour prochainement (ou pas) j’ai fais quelques modifications simples et rapides afin que la détection de duplicate content fonctionne au moins pour les recherches sur Google.

La démarche ou comment corriger Plagiarism

  • Ouvrir le fichier plagiarism.php (en passant par le panneau Extensions, cliquer sur le Modifier en dessous de Plagiarism)
  • Changer le paramètre langue de recherche (en par fr), pour cela remplacer
    const GOOGLE_URL = "http://www.google.com/search?hl=en&q=";

    par

    const GOOGLE_URL = "http://www.google.com/search?hl=fr&q=";

    pour faire des recherches en français… c’est important pour la modification qui suit.

  • Ajouter dans la function get_google_count( $dom ) qui se trouve vers le milieu du fichier juste avant le return $count;
    if (strpos($dom->textContent, 'Aucun résultat trouvé pour') !== false) $count=0;

    car chercher uniquement la valeur du resultStats n’est pas suffisant (voire inutile et en plus buggué dans la 1.0.3)
    il vaut mieux chercher la chaîne ‘Aucun résultat trouvé pour’ c’est plus fiable
    et c’est là qu’on comprend le pourquoi de la première modification concernant le paramètre langue fr.
    Attention de sauvegarder le script avec un encodage en UTF8 sinon ca ne marchera pas (à cause des accents dans ‘Aucun résultat trouvé pour’).

Les réglages de Plagiarism

Pour les réglages j’ai opté pour une recherche rapide : vérifier des blocs de 20 mots tous les 60 mots et cela au maximum 10 fois. De quoi bien survoler les articles jusqu’à 600 mots. Il faut aller dans Réglages, puis Plagiarism et modifier ainsi :
Phrase chunk size : 20
Phrase chunk step : 60
Query slice size  : 10
Query wait time   : 0

Si vous avez la possibilité d’ajouter des proxy ça sera encore mieux. Une simple recherche google devrait vous permettre de trouver des sites spécialisés dans les listes de proxy.

Voilà ce n’est pas parfait mais c’est une méthode rapide pour faire fonctionner plagiarism avec Google.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.