Veiller à la conformité des petites annonces

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Laisser passer une petite annonce illégale : une hantise pour les directions de publication

Conformité des petites annonces : une obligation légale

Les motifs de non-conformité légale des petites annonces sont légion :

    • Ventes interdites : armes, espèces protégées, ivoire, trafic de faux papiers, etc.
    • Annonces d'emploi ou de logement discriminatoires
    • Vente d'animaux sauvage, vente de chiens catégorisés, annonces de cession d'animaux de compagnie ne comportant pas les mentions obligatoires
    • Risques liés aux données personnelles (vente de contenus à caractère personnel de tiers)

Aux yeux de la loi, le responsable n'est pas uniquement l'auteur de l'annonce, mais également la direction de la publication qui la diffuse.

Une exigence éthique

Outre la contrainte légale, les petites annonces publiées dans mes titres doivent satisfaire un minimum d'exigences éthiques : si elles ne tombent pas sous le coup de la loi, certaines annonces peuvent heurter les lecteurs et nuire à l'image de ma publication.

Enfin, l'équipe éditoriale peut légitimement avoir ses "clauses de conscience" plus exclusives que la loi.

Le problème : le volume d'annonces et les délais de publication

Sur la masse énorme et sans cesse mouvante des annonces publiées chaque semaine, voire chaque jour, comment assurer une surveillance constante et complète...

  • à un coût viable,
  • dans des délais ne pénalisant pas l'offre de petites annonces ?

Y a-t-il un moyen automatique fiable de repérer exhaustivement les annonces non-conformes, ou au moins d'aider les opérateurs humains par un premier niveau d'analyse automatique ?

La solution

Passer les petites annonces au crible du Traitement Automatique des Langues

La solution à mettre en œuvre repose essentiellement sur des fonctions d'analyse de texte, d'annotation, adossées à une base de connaissance des cas de non-conformité.

Petites annonces : une analyse textuelle assez spécialisée

L'enjeu de l'analyse est ici avant tout de reconnaître des séquences avec d'éventuelles variantes (patterns) figurant dans une base de connaissances.

La difficulté ici tient à la spécificité du langage des petites annonces, qui nécessite impérativement d'adapter l'analyseur : abréviations, syntaxe particulière. Il peut être nécessaire de normaliser les textes avant de les soumettre aux traitements linguistiques.

Une base de connaissances pointue et mise à jour

La connaissance des expressions suspectes est fondamentale dans la détection des cas de non-conformité des petites annonces.

Ces connaissances comportent bien sûr des mots ou expressions, mais aussi des séquences plus complexes (phraséologie) car il convient de repérer le plus largement possible les annonces non-conformes, sous une expression d'autant plus variée que les contrevenants délibérés cherchent à contourner une détection sommaire.

Seules les expressions nécessitant un examen seront marquées comme suspectes, mais pour pouvoir repérer ce qui est suspect, encore faut-il pouvoir reconnaître ce qui ne l'est pas.  La base de connaissances doit donc inclure la terminologie spécifique aux petites annonces des diverses rubriques, les abréviations courantes, des  entités nommées telles que des noms de lieux, par exemple, dans  les annonces immobilières.

Compte tenu de la diversité et de l'évolution constante du vocabulaire que l'on peut rencontrer dans les petites annonces, s'agissant notamment d'objets technologiques, la reconnaissance de ces formes peut admettre de légères variantes selon un schéma prédéfini (pattern), afin de ne pas avoir par exemple à enregistrer toutes les versions d'un modèle de console de jeux dans la base de connaissances.

La base de connaissances gagne à être organisée de manière hiérarchique, de manière à classer les formes suspectes des annonces selon des catégories (par exemple : vente illicite, discrimination, absence de mentions obligatoires) : le travail de supervision par un opérateur humain se trouvera ainsi facilité.

Une annotation des annonces suspectes de non-conformité

La fonction essentielle de la solution est de reconnaître des séquences de texte suspectes, sous leurs variantes les plus diverses, en les confrontant aux schémas d'expressions (patterns) enregistrés dans  de la base de connaissance. Il s'agit en fait d'une fonction d'annotation. Chaque séquence suspecte identifiée est alors marquée (soulignement, crochets ou tout autre moyen graphique) et se voit associer une étiquette.

Les formulations à risque peuvent être classées selon une typologie personnalisée, afin de préparer le travail de modérateurs humains.

La solution s'insère généralement dans un worklflow incluant :

  • l'orientation et/ou la priorisation des traitements selon la typologie de la non-conformité suspectée,
  • des alertes aux collaborateurs chargés de superviser les annonces.

L'opérateur humain demeure indispensable pour confirmer la non-conformité, d'autant plus que la solution doit être conçue pour détecter les suspicions de manière large, compte tenu des obligations légales.

Points d'attention

Prendre en compte l'exigence de mise à jour de la base de connaissances

Dans le contexte de la conformité des petites annonces, la base de connaissances linguistiques nécessite une mise à jour continue :

  • afin de suivre l'évolution des offres réelles dans les annonces : jeux vidéo, modèles de téléphones portables, modèles de véhicules...
  • afin de déjouer les stratagèmes évolutifs des contrevenants pour échapper à une surveillance automatique (ex. insertion de signes de ponctuation à l'intérieur d'un mot, expressions détournées)

Ce travail peut lui-même être assisté par une fonction d'extraction de connaissances, destinée à  repérer des séquences nouvellement apparues et leur affecter une typologie prédictive (détection d'entités nommées). Il s'agit par exemple de repérer une forme textuelle qui, par sa structure, a une forte probabilité de correspondre à un modèle de jeu vidéo.

Par Christine Reynaud
Chef de projet contenus numériques