jeudi 1 novembre 2012

Où s'arrêtera Wikipédia ?

On a beaucoup parlé ces derniers temps de cet article du mensuel américain The Atlantic, repris par Slate. Intitulé « Wikipédia est proche de la complétude » il postule que tous les sujets réellement importants ont déjà été traités sur Wikipédia (ou, du moins, sur sa version anglophone), et qu'il n'y a plus grand chose à y faire. En somme, l'encyclopédie ne serait plus intéressante que pour ces spécialistes du cerveau de la sangsue gentiment moqués par Nietzsche-Zarathustra. A moins d'être un sur-expert, connaissant presque tout sur presque rien, on aurait peu d'occasion de contribuer et encore moins de créer un article.

Autant dire que ce type d'analyse a généré de nombreux commentaires (là-dessus je vous renvoi notamment à la discussion du bistro, mais il y a aussi quelques tweets qui doivent traîner de-ci, de-là). A titre personnel, j'ai participé à un intéressant débat sur la liste mail wiki-research-l. Plutôt que de s'amuser un peu des prétentions infondées de The Atlantic, on a tenté de résoudre le problème suivant : combien d'articles contiendrait une hypothétique Wikipédia « complète » ?

Emirjp avait tenté une estimation générale en synthétisant plusieurs estimations secondaires (nombre de  biographies, nombre d'espèces biologiques etc.). Par additions successives, il en était parvenu à un total de 120 millions d'articles. Il reconnaît lui-même que ce chiffre est sans doute en-dessous de la vérité. Néanmoins, il fournit une bonne fourchette d'ensemble. On doit probablement se situer quelque part entre 50 et 300 millions d'articles.

Même si on parvenait à établir une estimation dans l'absolu, il convient de se rappeler qu'elle ne vaut que pour l'instant. Wikipédia ne se construit pas hors du temps. Au fur et à mesure que le projet encyclopédique avance et grandit, le nombre d'articles potentiels s'accroît. Chaque année apporte son lot de découvertes et de médiatisation. Chaque année apporté également son lot d'innovations : les structures scientifiques et médiatiques deviennent plus efficaces et peuvent ainsi apporter quantitativement plus de découvertes que l'année précédente.

On peut donc supposer que l'évolution du nombre d'articles admissibles suit la formule suivante :
a + (b * (c^(t-2012)))
a représente le total de créations envisageables en 2012, b symbolise le nombre de nouveaux sujets qui débarquent en 2013, c indique le rythme d'amélioration qualitative et quantitative des sources de références (publications scientifiques, médias…). Simplement pour le principe de la démonstration, on peut retenir l'estimation d'Emirjp pour a (soit 120 000 000), établir b aux environs de 100 000 (ce qui est loin d'être énorme : il se publie chaque année plusieurs millions d'articles scientifiques), et définir un rythme de 5% pour c.



Ceci fait, on obtient la courbe typique d'une suite géométrique. L'évolution est d'abord plutôt lente. On n'atteint 125 000 000 d'articles qu'en 2030. Puis, elle ne cesse de s'accélérer. On dépasse 200 000 000 en 2086, on double l'estimation originelle de 2012 moins d'une décennie plus tard.

Au vu de l'évolution de la science au XXe siècle, cette modélisation un tantinet exponentielle me paraît plutôt vraisemblable. Reste la question des chiffres. Le meilleur moyen pour en rendre compte serait peut-être d'analyser le problème non par rapport aux sujets encyclopédiques, mais par rapport aux sources disponibles. On peut supposer qu'il existe une corrélation entre la masse des publications fiables et le nombre d'objets encyclopédiques. Celle-ci sera l'objet de mon prochain billet…

mardi 30 octobre 2012

Vers un second blackout à l'italienne…

Par rapport à ce que je décrivais dans mon dernier billet, la situation s'est pas mal compliquée sur la wikipédia italophone. Je vais essayer de résumer tout cela simplement.

Depuis cinq jours, l'ensemble des articles et des pages sont précédés un bandeau d'avertissement préalable. La traduction française est disponible ici. Elle rend compte du problème en ces termes.
Wikipédia reconnaît le droit à la protection de la réputation de chacun, et les utilisateurs qui y contribuent gratuitement se mobilisent déjà tous les jours pour s'en assurer. L'approbation de cette norme, cependant, obligerait à modifier le contenu indépendamment du respect de la neutralité de point-de-vue.
Vers quoi s'achemine-t-on ? Après plusieurs tergiversations, les contributeurs italophones semblent privilégier l'option d'un blackout préventif. Un nouvel élément a, un temps, failli renouveler la donne. Un amendement discuté au Sénat permettrait d'exclure d'emblée Wikipédia du champ d'application de la loi. Un article du Corriere della Serra spécifie ainsi que :
L'obligation de rectification ne concerne que les textes journalistes et ne vaut que pour les articles publiés. Il n'y a aucune obligation pour les commentaires.
Or, Wikipédia n'héberge pas de textes journalistiques (qui requièrent un travail inédit, soit une pratique explicitement rejetée par les principes fondateurs). Elle ne serait donc pas directement concernée.

L'amendement aurait néanmoins une incidence secondaire significative : Wikipédia devrait corriger les sources journalistiques rectifiées. Et, certaines dispositions de la loi demeurent relativement ambiguë. Le contributeur Codicorumus souligne ainsi que l'alinéa n°6 concernerait toujours potentiellement Wikipédia. Celui-ci prend en compte de manière large les publications non périodiques (stampa non periodica). Leur éditeur serait astreint à republier une nouvelle version tenant des rectifications exigées. A priori, Wikipédia pourrait rentrer dans ce champ.

En somme, qu'il soit direct ou indirect, le risque d'une déformation significative de la NPOV demeure. Raison pour laquelle, les italophones se décident finalement à sortir l'artillerie lourde.

Un vote est ainsi organisé pour détailler les modalités d'un éventuel blackout. L'option n°2 est la plus appréciée (46 pour vs. 2 contre). Elle consiste en une sorte de blackout intermittent : le sitenotice s'affiche pendant quelques secondes, puis le lecteur peut accéder à la page de l'encyclopédie. Elle est suivie par l'option n°1 qui consiste purement et simplement en une reproduction de la grève de l'année dernière (blackout complet sans possibilité a priori d'accéder aux articles — même si une bidouille informatique reste toujours possible).

Le blackout édition 2012 serait ainsi plus soft que le blackout édition 2011.

jeudi 25 octobre 2012

Remake italien…

Mise à jour : la loi incriminée aurait apparemment été amendée, et ne constituerait plus une menace pour wikipédia en général et le second principe fondateur en particulier. Les wikipédiens italiens discutent en ce moment de l'opportunité de maintenir un sitenotice et/ou d'organiser un blackout.

Comme je viens de le signaler sur Twitter, la Wikipédia italophone est sur le point de récidiver son coup d'éclat d'octobre 2011.

A moins d'être un nouveau venu sur Wikipédia ou de limiter votre champ de contribution aux menhirs du Var ou aux philosophes mégariques, vous avez sans doute entendu parler de cette première révolte wikipédienne, qui a d'ailleurs en grande partie inspiré la grande grève anglophone contre le SOPA.

La cause de cette nouvelle grève est la même qu'en 2011 : une disposition en discussion depuis plusieurs années au parlement italien. A l'époque, cette disposition étaient contenue dans le Comma (ou alinéa) n°29 de la DDL. A la faveur d'un petit toilettage, elle a changé de numérotation et possède maintenant un statut de loi indépendante, dite Disegno di Legge N. 3491.

Le Comma 29 et le Disegno 3491 ne diffèrent quasiment pas. Dans un cas comme dans l'autre, tout texte pressenti comme diffamatoire pourra être retiré à la simple demande de la personne qui s'estime diffamée, sans passer par le circuit judiciaire usuel. Le refus d'obtempérer entraîne le versement d'une amende importante. Comme je le soulignais en octobre, l'application stricte de ce cadre légal est clairement attentatoire au respect de la neutralité de point-de-vue. Il devient difficile de rédiger une encyclopédie dans ces conditions.

Quelques concessions mineures ont été apportées aux journalistes qui protestaient de longue date contre cette loi-baillon. En particulier, les pénalités ont été abaissées de 30000€ à 5000€.

Ce second blackout a un petit air de déjà-vu. En juin dernier, les wikipédiens italiens étaient sur le point de s'y résoudre. L'examen de la loi avait été finalement repoussé in extremis à la rentrée, repoussant d'autant l'examen d'une protestation concordante. Or, nous y sommes.

Depuis quelques instants, les centaines de milliers d'articles de la wikipédia italophone sont précédés d'une large bannière informative :

 

Ce n'est qu'un début. La discussion se poursuit actuellement sur une sous-page du bistro local. Pour l'instant le consensus paraît nettement favorable à un blackout (environ 85-90% de soutien). Incessamment sous peu, tous les articles du wikipédia italiens devraient rediriger vers une seconde bannière :


Dans l'ensemble, les contributeurs insistent mettent en évidence que, si cette menace n'est pas nouvelle, elle semble cette fois imminente (stavolta la loro approvazione sembra imminente). Ses conséquences n'ont rien d'anodins : la loi met directement en péril le second principe fondateur de Wikipédia, la neutralité de point de vue (obbligherebbe ad alterare i contenuti indipendentemente dalla loro veridicità).

Cette adresse se termine sur une promesse sans ambiguïté : l'encyclopédie est le patrimoine de tout-le-monde, nous ne permettrons pas qu'elle disparaisse (L'Enciclopedia è patrimonio di tutti. Non permetteremo che scompaia).

Là dessus, je me permettrai quelques observations, pas forcément très positives. Je suis un peu surpris de l'apparent attentisme de Wikimedia Italia. Le wiki de l'association comporte peu d'information sur la DDL ou sur d'éventuelle tentative de contre-lobbying. C'est d'autant plus curieux que Wikimedia Italia ne manquait pas de munitions et pouvait sans doute lancer une large campagne de prévention.

On peut discerner au moins quatre arguments ou relais éventuels :

1. Le temps, déjà, tout simplement. Entre le premier blackout et son éventuel successeur, il s'est écoulé plus d'un an. Soit largement le temps nécessaire pour s'organiser.

2. Le Comma 29 devenu Disegno 3491. Il est manifestement mal foutu et difficilement compatible avec la structure décentrée d'Internet. Les parlementaires ne sont pas des gens complètement bornés : quelques démonstrations par l'absurde (évidemment bien médiatisées) auraient peut-être suffit à les convaincre de la nécessité de réexaminer tout ça. D'autant que Silivio Berlusconi n'est plus là pour en faire une affaire personnelle…

3. La menace d'un nouveau blackout. A ma connaissance, on en parle assez peu dans la presse italienne. En dépit de l'imminence de la chose les résultats de google actualité sont plutôt maigrelets. Cela reste en grande partie de la cuisine interne à it.wiki. Il ne fallait pourtant pas hésiter à publiciser cette épée de Damoclès.

4. Les soutiens publics dont dispose Wikipédia : associations libristes, journalistes, éventuellement des députés. Ces soutiens sont loin d'être négligeables. Deux contributeurs francophones étaient bien parvenus à mettre en place un vote sur la liberté de panorama à l'Assemblée nationale. Ça ne s'était finalement pas révélé concluant, mais cela prouve au passage la marge de manœuvre n'est pas si restreinte que ça.

Bref, j'ai un peu l'impression que la communauté italophone se trouve contrainte d'agir par elle-même. Et donc, de recourir à la manière forte. Est-ce la bonne option ? Pas forcément. A mon avis, le blackout perd de son efficacité dès qu'il est répété. On pourrait presque parler d'un one-shot : une fois l'effet de surprise initial dissipé, le risque existe que les décideurs politiques passent outre.




 

vendredi 21 septembre 2012

De l'utilité du flou

Ces derniers jours, les nécessités de ma thèse m'ont amené à découvrir un petit ouvrage de sociologie très intéressant : Le journalisme ou le professionnalisme du flou de Denis Ruellan.

Il y a des petites choses contestables dans ce bouquin – notamment le fait que l'auteur peine à masquer un antiaméricanisme latent. Il utilise ainsi systématiquement l'adjectif étatsunien (avis aux concepteurs de cette PDD…). La thèse centrale n'en est pas moins pertinente : pour Ruellan, les journalistes ont intentionnellement maintenu un certain flou sur la signification de leur profession, et ce afin de ne pas enrayer une dynamique de croissance favorable. En effet, si une interprétation du journalisme venait à l'emporter au détriment des autres, on rentrerait dans une logique d'exclusion (untel ne fait pas vraiment du journalisme…) qui pénaliserait finalement l'ensemble de la profession.

Ruellan invoque à l'appui de sa thèse une intuition de Luc Boltanski :

C'est parce qu'elle demeure vague au sens de relativement indéfinie et de relativement indéterminée […] que la catégorie peut exercer des fonctions d'amalgame et de neutralisation des antagonismes les plus puissants sur une fraction étendue de l'espace social [p. 52]

Évidemment, en lisant ceci, je ne peux pas ne pas penser à Wiki. Les débats et exégèses sur les principes fondateurs constituent en effet une sorte de compétition éternellement recommencée – les byzantins et leur sexe des anges n'étaient finalement que de petits joueurs par comparaison. Or chacun de ces principes autorise de multiples interprétations.

Pendant longtemps, le 2e PF a eu la primeur des éxégètes : la notion de neutralité de point-de-vue présentait d'emblée un large boulevard ouvert à des instrumentalisations largement contradictoires. Il s'est un peu resserré au cours de ces dernières années. L'impératif de la référence, la distinction entre sources primaires et sources secondaires, la nécessité de représenter l'état de recherche : tous ces corollaires ont permis de limiter l'angle d'interprétation. Pour autant, le débat est loin d'être clos. L'attention nouvelle portée à la donnée remet un peu en cause un paradigme antérieur fondé sur la sourçabilité.

Aujourd'hui, le 1er PF paraît beaucoup plus trendy. Par-delà sa simplicité apparente, la définition Wikipédia est une encyclopédie contenait plusieurs bombes en puissance : à quelle encyclopédie fait-on référence ? Générale ou spécialisée ? Et de toute manière à quoi renvoie le terme d'encyclopédie aujourd'hui ? N'a-t-il pas fondamentalement changé avec l'arrivée de l'informatique et, il faut bien le reconnaître, l'apparition de Wikipédia ? Une encyclopédie a-t-elle devoirs particuliers ? Doit-elle s'abstenir de tout engagement politique ? Même pour maintenir sa propre existence ? Toutes ces questions restent relativement irrésolues. Elles ont donné lieu à des réponses contradictoires d'un utilisateur à l'autre et d'une communauté à l'autre.

Je ne vais pas m'appesantir sur les autres PFs, même si ils charrient tout autant leur lot d'incertitudes (Fair use…). L'un dans l'autre, l'objectif est assez clair : il s'agit de mettre au point un socle de référence suffisamment ambiguë pour permettre à de multiples postures encyclopédiques de cohabiter. Cette cohabitation s'entendant aussi bien l'échelon individuel (la dichotomie inclusionniste/suppressionniste dissimule quantité de fractures parallèles) que collectif (on a pu constater récemment que les règles d'admissibilité de la Wikipédia anglophone sont plus permissives sur les biographies et moins sur les personnages de fiction).

Sans cette prime à la cohabitation, Wikipédia s'exposerait à redevenir un site de niche, ne fédérant qu'une équipe soudée, mais de taille restreinte – finalement, c'est un peu le schéma de Citizendium. Il y a ainsi quelque intérêt à maintenir du flou, ne serait-ce que pour assurer le renouvellement des rangs et pour garantir une certaine marge de manœuvre selon les circonstances.

Et voilà. C'était ma petite incise sociologique du jour. La prochaine fois je vous parlerai sans doute de technique – un petit mouvement de balancier sciences humaines, sciences dures, ça fait toujours du bien…

 

mardi 18 septembre 2012

Un nouveau concurrent ?

C'est sur le blog de l'ami Frakir que j'ai appris l'existence d'une terrible menace pour l'existence des projets Wikimédia, relayée dans une brève alarmante des inrockuptibles. Elle porte un nom pourtant bien poétique : quora. Avant de battre d'emblée en retraite interrogeons-nous a minima : à quoi a-t-on à faire ?

Modélisation hypothétique d'un(e) Quora ayant achevé sa mue encyclopédique

Les prétendants à la succession de Wikipédia se répartissent généralement en deux classes. Il y a ceux, généralement d'anciens leaders sur le marché, qui soulignent à force trait leur respectabilité et leur expertise durable. Typiquement, l'Encyclopedia Universalis ne se définit quasiment plus que par rapport à Wikipédia – il faudrait vraiment que je fasse un petit billet sur sa dernière campagne de promo. Il y a ensuite ceux, plus nombreux, qui se veulent plus ouvert que l'encyclopédie en ligne. On songe évidemment au cas emblématique de Knol, l'encyclopédie google qui comptait ériger le POV pluriel au rang de principe fondateur. Évidemment, ces deux catégories ne sont pas immuables. Des passerelles sont toujours possibles. L'encyclopédie de Larousse qui se positionnait initialement sur le terrain de l'encyclopédie traditionnelle n'a finalement pas hésité à adopter une posture « ouverte », afin de récupérer au passage quelques déçus de wiki.

Quora revendique sans ambiguïté son appartenance à la seconde catégorie. Elle/Il [je ne connais pas le genre de l'objet même si je penche plutôt pour le féminin] n'est en effet pas venu spontanément sur le marché de l'encyclopédisme. Il s'agit initialement d'un site de question/réponse – une sorte d'oracle gigantesque où les gens posent leurs questions, d'autres gens leurs répondent et d'autre gens encore évaluent et les questions et les réponses aux questions. Fort d'un succès indéniable, ses concepteurs ont commencé à affûter leurs ambitions et à se positionner sur un segment plus large, privilégiant un aspect (l'encyclopédicité) aux dépens des autres (notamment des affinités assez fortes avec un réseau social – ce n'est pas pour rien que les deux fondateurs sont d'anciens salariés de Facebook). L'année dernière, Techcrunt mettait ainsi en évidence le rapprochement formel entre Quora et Wikipédia.

Cette réorientation est-elle judicieuse ? L'idée de base consiste à présenter un pre-knowledge, là où Wikipédia proposerait un knowledge digéré et agréé par la communauté scientifique. En gros, le travail inédit est admis dans la mesure où il permet de recenser les idées émergentes non encore institutionalisées. L'un dans l'autre, ça peut se défendre : plutôt que de répéter wikipédia (fatalement en moins bien, wiki disposant quoiqu'on en dise de dix ans d'avance…), on cherche à proposer quelque chose de différent, un ensemble de données que l'on ne retrouvera peut-être pas ailleurs.

Ceci dit, Quora présente en pratique au moins deux grosses faiblesses. Elles finiront peut-être par se résorber, mais en l'état, ça me paraît rédhibitoire.

  1. Le mode question/réponse ne constitue que l'un des usages de Wikipédia. On peut très bien consulter l'encyclopédie pour de nombreuses autres raisons : sonder une thématique générale, rechercher une bibliographie sur un sujet, flâner d'un article à l'autre… Les réponses de Quora ne permettent pas tout cela : il s'agit de textes brefs, potentiellement subjectifs, qui ne prétendent répondre qu'à une demande précise sans faire le tour d'un objet ou d'un terme défini.
  2. Quora n'est pas placé(e) sous licence libre. L'air de rien, cela pose de nombreux problèmes pratiques : on ne peut bénéficier de l'audience parallèle des sites miroirs, ni des reprises éventuelles dans des blogs, projets ou livres. Qui plus est, le fait de s'approprier entièrement le travail des contributeurs n'est pas de nature à attirer experts et amateurs sérieux…
À tout ceci, il convient d'ajouter que Quora devra bientôt faire face à un concurrent potentiellement destructeur : Wikidata. Le nouveau projet de la Wikimedia Foundation vise entre autre à répondre à toute les questions, en générant automatiquement les réponses par croisements successifs de données. Le cœur de cible de Quora serait directement menacé.

En somme, il est difficile de dire qui est le concurrent de qui…

mardi 24 juillet 2012

Processus de décision (2)

Mon précédent billet s’interrogeait sur l’efficacité des processus de décision mis en œuvre sur la wikipédia francophone. Le cas germanophone mettait en évidence l’existence de systèmes alternatifs sans doute plus probants.

J'ai entrepris d'étendre la comparaison à deux autres grandes versions linguistiques de l'encyclopédie en ligne : en et it. Ici un tableau sera sans doute plus parlant qu'un long discours. Je rends ici compte de trois données distinctes : le nom de la procédure existante, la durée d’élaboration (soit le décalage entre le moment où la page accueillant le processus de décision est créée et celui où le vote a effectivement lieu), le nombre de procédures déposées depuis un mois (ce qui fournit un critère d’incitativité : plus il y a de procédures, moins les contributeurs hésitent à les lancer).


Le système italophone est de loin le plus fluide et le plus simple, puisque la prise de décision passe exclusivement par des sondages. Aucune discussion préalable n’est nécessaire : il suffit de créer le vote. Cette simplicité n’offre pas que des avantages. Les modalités du vote sont fréquemment discutées après coup. De fait, la décision finale risque fort de manquer de légitimité. En outre, la souplesse de la procédure ne garantit pas forcément son caractère incitatif : peut-être parce qu’ils redoutent les contestations a posteriori, les italophones se servent assez peu du sondaggio.

Le système anglophone est plus « exotique » (même si l’on peut également estimer qu’il est plus fidèle aux principes élémentaires de Wikipédia). Officiellement, la version anglophone de la page Prise de décision redirige sur Straw Polls, une longue page détaillant pourquoi le recours au vote ne doit pas être systématique et pourquoi le consensus doit primer autant que possible. Par-delà sa charge symbolique, cette page renseigne peu sur les processus de décision de en.wikipedia.org. En réalité, ceux-ci passent pour l’essentiel par les RFC ou Request for Comments. Il ne s’agit pas de voter, mais d’argumenter autour d’une proposition initiale ou d’une thématique ouverte. Concrètement, les contributeurs ne sont pas tenus de répondre par oui ou par non. Ils peuvent très bien proposer des alternatives imprévues. 

Cette analyse comparée souligne par contrecoup les imperfections des PDDs francophones. Les procédures sont longues, peu incitatives (il m’arrive souvent de lire quelque chose comme « Mince, il va falloir faire une PDD ») et très compliquées à amender. Le gain en terme de légitimité n’est pas si évident. En dehors du cas particulier de wp.it, les décisions issues des procédures anglophones ou germanophones ne semblent pas souvent mises en causes.

A ce stade, une réforme me paraît nécessaire. Toutefois, améliorer les PDDs suppose de passer par… une PDD.

dimanche 22 juillet 2012

Processus de décision

L'époque est aux bilans et aux évaluations. Organisée la semaine dernière, Wikimania a permis de mettre en évidence plusieurs écueils importants au développement de Wikipédia. Plusieurs solutions, relativement innovantes ont été évoquées — je vous invite d'ailleurs à consulter le très intéressant compte-rendu de Simon Villeneuve, fraîchement parue sur la gazette hebdomadaire de Canton-de-l'Est. Je profite de ce contexte pour aborder un problème récurrent sur la Wikipédia francophone : la lenteur des processus de décision.

Ça ne correspond sans doute pas à ce qui était initialement prévu mais, dans les faits, proposer une PDD relève du parcours du combattant. Les discussions préalables s'éternisent sur au moins trois mois dans le meilleur des cas — des délais allant jusqu'à un an ne sont pas à exclure. C'est long. Très long.

Par comparaison, à moins d'être intentionnellement noyée sous un bestiaire de sous-commission, une proposition de loi est plus rapidement déposée au Parlement français. Or une PDD s'applique non pas à 60 millions de citoyens, mais à une petite communauté de 5000 contributeurs relativement actifs, dont pas plus de 200 votent ponctuellement aux scrutins communautaires.

Cette lenteur présente-t-elle des avantages aptes à compenser ses inconvénients ? Pour partie, oui. Dans le système actuel, une PDD ne peut être mise au vote que lorsqu'elle répond à la quasi-totalité des objections et remarques soulevées en page de discussion. De fait, la rédaction est rarement biaisée, la consensualité des questions posées n'est presque jamais mise en cause. Ce n'est pas négligeable : une fois adoptée, les décisions ne seront pas contestée.

Pour autant, ces multiples précautions ne règlent pas tout. Après un très long tunnel wikipédiano-juridique, une procédure de contestation du statut d'administrateur a fini par être généralisée en début d'année. La pratique différant quelque peu des prévisions théoriques, plusieurs dysfonctionnements ont été depuis mis en évidence. Assez logiquement, on lance une PDD pour remédier à tout cela. Seulement, comme toute PDD, elle traîne en longueur. La fin de la discussion avait été initialement fixée au 17 juillet. En fait, on est très loin d'en voir le bout. Les divers dysfonctionnements révélés depuis lors risquent fort de subsister pendant au moins quelques mois.

On mesure ici les dangers potentiels d'un processus de décision lent. Supposons qu'une mesure apparemment inoffensive entraîne toute une série d'effets pervers. Nul n'est surhumain au point de tout prévoir : cela peut très bien arriver. Combien de temps faudra-t-il pour corriger le tir ? Faudra-t-il subir ces inconvénients pendant plusieurs mois ?

Dès lors que faire ? quelles alternatives sont possibles ?

Dans le cadre du débat sur l'implantation du Filtre d'image (ou Image Filter), j'avais été amené à jeter un coup d'œil sur les processus de décision de la Wikipédia germanophone. Ce qu'ils font est loin d'être idiot. Le Meinungsbild est une sorte de mixte entre un sondage et une PDD. Pour qu'une proposition soit mise au vote, il suffit de réunir un certain nombre de « signatures ». Comme le montre ce tableau de bord, cette procédure se révèle assez efficace : 10 Meinungsbilder ont été déposés depuis le mois dernier et trois d'entre eux sont en voie d'être présentés à la communauté. Par contraste, 2 PDDs ont été lancées sur la même période et aucune d'entre elles ne s'avère bien avancée…

Meinungsbild et PDD — Une comparaison.
Evidemment, avec le système germonophone la probabilité de voir surgir un texte biaisé augmente : il suffit qu'il contente une dizaine d'utilisateurs autopatrolled. Toutefois, il serait très facile de revenir en arrière. Ce qu'on perd en consensualité, on le gagne en fluidité. Il me semble que l'on gagnerait plutôt au change…

jeudi 19 juillet 2012

Un an…

Wikitrekk fête ses jours-ci son premier anniversaire. Mon premier billet a été publié le 10 juillet 2011. Il présentait mes motivations assez franchement :
Pourquoi est-ce que je m'amuse à lancer un blog à propos de Wikipédia ? Je n'en sais strictement rien […] Très insidieusement, l'encyclopédie en ligne m'a amené à m'impliquer sans cesse plus avant […] Ça y est. C'est foutu. Je ne pourrais plus imaginer un monde sans Wikipédia. Il ne me reste plus qu'à rendre compte du monde avec Wikipédia. Cet avec sera l'objet de ce blog. 
Ainsi, je n’aurais pas pas choisi Wikitrekk. J'aurais simplement franchi une nouvelle étape d’un processus d’implication toujours croissant. En démontre d’ailleurs le fait que, lorsque le besoin s’est fait sentir, Wikitrekk a fait des petits : Hotel Wikipedia, dans une optique plus généraliste et Internationalwikitrekk, dans une optique plus internationalisée…

 Il est toujours difficile d’évaluer ses propres créations. Wikitrekk est-il bon ou médiocre, nécessaire ou subsidiaire, je dois dire que je n’en sais rien. Par contre, il m’est possible de juger son adéquation à sa conception originelle. Wikitrekk a-t-il accompli toutes ses promesses ?

Je m’étais fixé initialement deux missions distinctes.

La première a été assez rapidement délaissée. Il s’agissait de produire une sorte des « analyses créatrices » de divers articles de Wikipédia. Je m’efforçais de réaliser un Wikigrill alternatif, qui ne viserait pas à démonter un article, mais à le corriger. A ce jour, l’exercice n’a été pleinement réalisé qu’une seule fois, à propos de la Politique étrangère du Vatican. J’y reviendrai peut-être (pour ceux qui aiment le pointu grave, je songe à faire quelque chose sur les amphibiens et les proto-reptiles du carbonifère supérieur…).

Ma seconde mission s’est avérée plus heureuse : suivre, publiciser et, éventuellement, provoquer les débats sur le fonctionnement de l’encyclopédie. Ce faisant, je me suis un peu comporté en reporter wikipédien, se transportant éventuellement sur des terrains étrangers (surtout en pays germanophone ou italophone). Je me suis ainsi retrouvé face à un lectorat d’une diversité insoupçonnée : des allemands, des italiens, mais aussi des chinois, des finlandais, des brésiliens…

Cartographie du lectorat de Wikitrekk
Dans ce cadre, Wikitrekk reflète pour partie les préoccupations d’une année wikipédienne, d’ailleurs plutôt chargée. Que ce soit à l’intérieur ou en périphérie de l’encyclopédie, les sujets d’accords et de désaccords n’ont pas manqué.

C’est que Wikipédia tend à devenir un sujet de société au sens large. Ce statut lui donne des responsabilité nouvelles : l’encyclopédie en vient presque à assurer un service public de la connaissance avec toutes les conséquences que cela suppose en terme d’accessibilité et d’accueil des nouveau. Cela lui confère également un pouvoir, comme le démontre l’efficacité (mais aussi, peut-être, la nocivité) des blackouts de protestations — le dernier en date est d’ailleurs tout récent.

Ceci m’amène à proposer une sélection de douze billet, comme les douze mois de l’année — à ceci près que l’appariement d’un mois et d’un billet n’est pas véritablement respecté. Pour diverses raisons, novembre, avril et mai sont absents du lots, ce qui profite in fine à août, janvier et juin.

Juillet : Easy come, uneasy go. Le Billet qui m’a lancé, en partie grâce à une recension du Choix du Chaos. Le hasard voulait que je commence mon blog, au moment où Alithia fermait le sien. L’analyse se doublait ici d’une sorte de correspondance symbolique.

Août (1) : Par voie référendaire. La Wikimedia Foundation organisait une vaste consultation autour de l’implantation prochaine d’un filtre d’image, soit d’une fonctionnalité permettant de masquer les images jugées choquantes par un utilisateur. Le point qui me dérageait le plus ici était d’ordre procédural : le référendum ne mettait jamais en question l’Image Filter dans son principe-même, mais discutait uniquement de ses modalités. Suivant l’exemple de nos cousins germains, j’ai fini par lancer un sondage local sur la wikipédia francophone. On a peu entendu parler du filtre depuis — ce qui me laisse à penser qu’il se trouve vraisemblablement en development hell.

Août (2) : Deux poids, une mesure. Dans un papier paru dans le Monde des livres, Pierre Assouline prend la défense d’un plagiaire notoire, Joseph Macé-Scaron. Il en profite pour dénoncer le rôle de gendarme de Wikipédia — l’article sur Macé-Scaron a très vite rapporté ses faits et méfaits. Une posture plutôt paradoxale, si l’on songe que quelques années plus tôt, il critiquait l’encyclopédie pour sa propension à encourager le plagiat estudiantin…

Septembre : Les Wikipédias sans Comité d'arbitrage : le cas italien. En plein débat sur le fonctionnement du Comité d’arbitrage (qui se poursuit d’ailleurs encore aujourd’hui), je tentais une incursion sur une Wikipédia qui fonctionne sans recourir à ce mode de résolution des conflits. L’intérêt de ce billet, c’est surtout que j’ai commencé à me familiariser à l’organisation de la WIkipédia italienne, juste avant qu’elle ne se retrouve sous les feux de l’actualité…

Octobre : La fin temporaire de la Wikipédia italienne. Pendant plusieurs jours, le blackout de la Wikipédia italienne a largement occupé mon esprit. Cet intérêt s’est prolongé par-delà ce blog. J’ai ainsi rédigé la traduction officielle du manifeste des utilisateurs italiens. Tout récemment je signalais que de nouvelles discussions étaient en cours à propos d’un nouveau blackout — la situation s’étant temporairement éclaircie, ça n’a finalement rien donné.

Décembre : La Wikipédia anglophone en grève La série des blackouts se poursuit et touche désormais la Wikipédia anglophone. A ce stade la grève n’était pas encore acté, mais si le processus d’acceptation était en bonne voie. Pour la suite de l’histoire, on peut se référer à un autre billet, publié sur Rue89.

Janvier (1) : Le tournant. J’aime bien ce billet, paru en début d’année, qui vise à dresser une sorte bilan prospectif de l’encyclopédie. Le point essentiel qui en ressort, c’est la nécessité d’améliorer l’accessibilité de l’interface encyclopédique et d’encourager les contributions ponctuelles. On devrait ainsi passer d’une relation contributeur / lecteur à une relation contributeur actif / contributeur potentiel.

Janvier (2) : Wikibétisation partielle. Dans la lignée du billet précédent, je préconisais de dégager une sorte de digest (c’est-à-dire les règles et modèles essentiels à connaître pour pouvoir commencer à contribuer sans se faire jeter). Le gros travail mené par le projet Accueil des nouveaux a permis d’avancer considérablement sur ce terrain.

Février : Universitaires sans critères. Je proposais ici de créer un namespace Auteur:, destiné à accueillir des informations fondamentales sur les universitaires et chercheurs, qui ne seraient pas admissibles sur l’espace encyclopédique. Les sources produites par ces derniers sont en effet préférentiellement utilisées pour référencer le contenu encyclopédique. De cette petite réflexion, j’ai tiré une proposition plus large… qui n’a finalement pas donné grand chose. La mise en place de Wikidata condamne pour l’heure cette initiative à un certain development hell.

Mars : Esprit critique. Il s’agit d’une réaction à l’expérience menée par le professeur Loys Bonot, qui a intentionnellement vandalisé une page wikipédia pour tromper ses élèves. Je me suis aperçu entre-temps que celiui-ci m’a répondu sur son blog. Enfin, répondre est un bien grand mot. Disons plutôt qu’il a « corrigé ma copie » en soulignant dûment en rouge les passages jugés hors sujet ou irrecevable. Si c’est ça l’esprit critique qu’il promeut, je ne suis pas certain que ça soit indispensable…

Juin (1) : Autocitation. La problématique de l’autocitation (le fait de citer ses propres travaux universitaires dans le cadre d’un article de wikipédia) paraît assez limitée aujourd’hui. Elle risque peut-être de prendre de l’ampleur par la suite en raison de l’intrication croissante entre l’encyclopédie et le monde universitaire. On va peut-être voir émerger une classe de super-contributeur, capable d’agir non seulement de reporter, mais aussi de créer, indirectement, le contenu encyclopédique…

Juin (2) : Où en est Wikidata ? Je clos donc la série sur Wikidata. Je m’intéresse ici aux procédés élémentaires de la grammaire wikidatienne et à ses potentialités en terme de rédaction encyclopédique. C’est ainsi que l’on s’achemine doucement sur le territoire de la science fiction. Ce qui confère d’ailleurs à mon wiki-roman-feuilleton de l’été dernier une certaine portée prédictive. Je prévoyais ni plus ni moins que l'essentiel des contributions seraient le fait de super-bots :
Les bots représentaient désormais près de 99,5% des contributions. Mis au point en 2036, le programme SC, ou synthèse-conversant remplaçait adéquatement la plupart des interventions humaines. Les bots pouvaient synthétiser n’importe quel texte de référence. Ils étaient capables de justifier leur modifications et d’en discuter avec n’importe quel intervenant humain.

samedi 30 juin 2012

Bibliographies

Comme je viens de le signaler sur ma page de discussion, je suis en vacances depuis ce matin. Wikitrekk risque donc de somnoler un peu pendant les deux semaines à venir — à moins que mon collègue n'entreprenne de le nourrir un peu.

 En dépit des divers préparatifs de départs, qui ont d'ailleurs sévèrement amoché mon editcount de ces derniers jours, je n'ai pas raté cet intéressant message d'Ironie sur le bistro d'hier :
Aux adeptes d'affaires bibliographiques, je signale mes premiers tests pour l'importation des liens vers les notices d'autorités bibliographiques de quelques grandes bibliothèques. En débutant avec l'importation des Autorités des 220'000 articles de la Wikipédia allemande et les services OCLC. Premier test : diff Débat technique Discussion Modèle:Autorité. J'ai idée que Wikidata gèrera certainement les Autorités (OCLC a proposé l'importation sur Wikidata), mais comme c'est pas encore sur le planning des devs et qu'il faudra peut-être attendre des années...
De quoi s'agit-il ? D'ajouter les principaux identifiants bibliographiques affectés à un auteur (dans le jargon des bibliothécaire on parle d'autorité) sur chaque article correspondant. Ainsi, l'article sur André Breton comporte désormais une courte fiche reprenant ses notices d'autorité sur la BNF, le VIAF et le SUDOc :


Ce type de fiche est courant sur la Wikipédia germanophone. Il devrait rapidement se généraliser sur la Wikipédia francophone. Plus de 200 000 articles vont bientôt s'en voir équipé.

 L'intérêt de cet ajout est évident. Cela permet de formaliser plus aisément les bibliographies internes aux articles (on a tout de suite sous la main une liste des œuvres produites par untel). Ensuite, cela améliore l'accessibilité des sources. Le contributeur peut facilement naviguer depuis l'article encyclopédique vers le SUDOC et trouver ainsi une source liée dans sa bibliothèque la plus proche.

 Cette initiative m'a fait penser à une idée un peu similaire, qui germe dans ma tête depuis quelques jours. Suivant l'exemple donné par Hégésippe, j'ai commencé à recenser les titres de ma bibliothèque dans le logiciel Calibre. Pour ce faire, il suffit de renseigner l'ISBN de chaque titre. Le logiciel se charge ensuite de récupérer les métadonnées sur Worldcat. On arrive ainsi à ce genre de choses :


Dès lors idée serait la suivante : mettre en place une sorte de Calibre commun sur Wikipédia. Chaque wikipédien y exporterait les métadonnées de sa bibliothèque. Un champ utilisateur permettrait de recenser le pseudo des utilisateurs qui détiennent la référence cherchée. Il suffirait de le contacter ce détenteur pour obtenir telle ou telle information qui y serait présente, afin de rédiger une note de bas-de-page bien proprette :


Quelques projets ont déjà mis en place un système similaire, quoique d'ampleur plus limitée. Je me souviens notamment d'une belle liste de référence par détenteur liée au projet Hellénopédia mais je n'arrive pas à remettre la main dessus…

mardi 26 juin 2012

Petite utopie du mardi matin…

Comme vous vous en êtes sans doute aperçu, Wikisource a généralisé depuis déjà quelque temps (environ deux ans ?) le principe de la lecture en regard. Concrètement, le dispositif permet de découvrir côte-à-côte l'œuvre retranscrite par un wikisourcien (et à ce titre, facilement transportable et manipulable) et un scan d'une édition de l'œuvre tombée dans le domaine public. Ce dispositif est diablement efficace. Il permet de constater immédiatement si la retranscription est exacte ou non, et, éventuellement, de corriger en conséquence (ce qui m'est d'ailleurs arrivé à plusieurs reprises). C'est un gage formidable de fiabilité.

La Contribution à la critique de l'économie politique de Marx face au scan de son édition de 1909 

En quoi consisterait dès lors ma petite utopie du mardi matin ? A installer un dispositif assez similaire sur Wikipédia.

Comme je l'ai déjà antérieurement souligné, la rédaction des articles encyclopédiques présuppose le recours à des sources fiables. Or, rien ne garantit que les contenu des sources ait été bien synthétisé. Rien ne garantit non plus que le renvoi soit rigoureusement exact (même le rédacteur le plus scrupuleux doit sans doute se tromper ponctuellement de page…). Pour le vérifier, il n'y a pas 36 solutions : consulter la source utilisée chez soi, si on l'a, ou se déplacer en bibliothèque. La plupart du temps, on doit se reposer sur l'apparente scientificité du paratexte — par exemple écrire R. T. Bidule, La dialectique quantique, Oxford, 2003, ça en jette d'un point-de-vue purement connotatif….

Mon idée serait la suivante : développer un système de lecture en regard entre un article de Wikipédia et sa source originelle. En cliquant sur une source dûment annotée on déclencherait aussitôt l'ouverture de la publication d'origine, tout en continuant de survoler l'article encyclopédique censé en faire état. On aboutirait à la modélisation suivante :

Système de double lecture hypothétique sur l'article Origine de la monnaie
Techniquement, l'on s'en doute, rien ne s'y oppose. Le véritable hic est d'ordre légal. L'essentiel des publications utilisées comme sources secondaires sur Wikipédia sont encore protégées par le droit d'auteur. Et lorsqu'elles ne le sont pas, les licences ne sont guère accueillantes (Persée, par exemple, héberge sous NC…). Etant donné le mouvement de fronde existant contre les éditeurs de revues, la Wikimédia Foundation aurait peut-être l'opportunité de développer des partenariats allant dans ce sens.

Bon, soyons réaliste, ce n'est pas encore demain le veille que tout ceci se réalisera — c'est un peu le principe des utopies… En attendant, je renouvelle mes félicitations à nos amis wikisourciens qui, contexte légal aidant, font un peu figure de pionnier en la matière.

vendredi 22 juin 2012

Où en est Wikidata ?

Ça fait quelque temps que je me dis que je devrais faire un truc sur Wikidata. Je m’étais un peu impliqué dans les questions relatives aux traitements de données encyclopédiques en début d’année. J'avais d'ailleurs commencé à rédiger un billet sur le sujet en mars, sans avoir eu le temps de le terminer. Vu que quasiment toutes les informations qu'il contient ont été médiatisées, je préfère aborder le sujet par un autre biais.

Le projet Wikidata a pas mal progressé depuis son lancement. On trouve sur le site pas mal de précisions intéressantes, qui n’ont pas forcément été relayés en français.

A mon avis, la page la plus intéressante concerne la définition du Data model, soit le mode de présentation des données. Cette définition n’est pas d’ordre technique, mais d’ordre épistémologique et intéresse à mon avis directement les contributeurs de Wikipédia, indépendamment de leurs compétences informatiques. Je ne m’en tiendrai ici qu’à la définition relativement simple présentée dans l’Overview. Il va sans dire que, concrètement, les choses sont beaucoup plus complexes — je m’excuse par avance si je simplifie à outrance les procédés réellement utilisés.

La grammaire wikidatienne repose sur une vision dénotative du langage. En lieu et place des mots, on trouve des items, soit des symboles purement référentiels. On donne ainsi pour exemple la ville de Berlin qui renvoie sans ambiguïté possible à une entité humaine unique, correspondant à un territoire strictement défini. Toutes les mots n’ont malheureusement pas la même portée référentielle. Outre, les homonymes, il y a aussi les termes et concepts flottants, généralement difficiles à traduire d’une langue à l’autre. Créer un item à partir de socialisme ou de culture risque de poser quelques difficultés.

A chaque item correspond une liste de statements. Chaque statement prétend reproduire un état de la réalité, au sens où l’entendait Wittgenstein.
La proposition construit un monde au moyen d'un échafaudage logique, et c'est pourquoi l'on peut voir dans la proposition, quand elle est vraie, ce qu'il en est de tout ce qui est logique. On peut d'une proposition fausse tirer des inférences (Tractatus Logico-Philosophicus, 4.023)
Le Statement se décompose en valeur (value) et en propriété (property). La value exprime « un nombre, une date, des coordonnées géographiques et plein d’autres choses ». Elle donne une indication de mesure qui permet de cerner une proportionnalité (x=n) ou une situation (x se trouve sur n). Chaque valeur est rattachée à une propriété. Cette dernière spécifie une qualité de l’item. Ainsi, sous l’item Berlin, on trouve la propriété population, à laquelle correspond la valeur 3 499 879.

Jusqu’ici les choses sont relativement simples. Les relations entre les trois signes fondamentaux permettent d’emblée d’exprimer certains énoncés relativement simples. Avec item=Berlin, property=population et value=3 499 879, on peut générer une phrase comme « Berlin compte 3 499 879 habitants ».

Là où ça se complique un peu, c’est que nos trois signes se combinent pour former de nouveaux signes. Le lien entre propriétés et valeur s’exprime au travers d’un datatype. A côté de la propriété population, on trouverait ainsi un datatype=people. Le datatype assure ainsi une fonction d’appariement : il permet d’éviter de mêler indistinctement la population de Berlin avec les coordonnées géographiques de Paris.

En outre, les propriétés ne comportent pas obligatoirement de valeurs. Le cas échéant, elles constituent des snaks, soient de simples qualifications qui améliorent la précisions des énoncés. A partir du snak commune ou cité, on génère ainsi des phrases comme : « la ville de Berlin compte 3 499 879 habitants ». On évite ainsi les confusions entre ville et agglomération urbaine.

Arbre des Snaks sur Wikidata (CC/BY/SA : http://meta.wikimedia.org/wiki/Wikidata/Data_model#Snak)
Ces données n’échappent bien entendu aux principales règles encyclopédiques. Suivant en cela les prescriptions de la Neutralité de point-de-vue, elles seront référencées à partir d’un champ intitulé ReferenceRecord.

Ces combinaisons syntaxiques permettent de produire des énoncés considérablement plus complexe. Rien ne s’oppose ainsi à ce que la phrase suivante, présente dans le résumé introductif de l’article Paris, ne soit généré par Wikidata :

Ici, Paris figure l’item. Le recensement de l’Insee et la note de bas-de-page qui l’accompagne sont du ressort du ReferenceRecord. La date (1er janvier 2009) et la population (2,2 millions d’habitants) résultent d’autant de combinaisons propriété-valeur. Enfin, la précision « commune de » constitue un snak.

Comme toute logique formelle, cette grammaire wikidatienne est universellement traduisible. Pour reprendre à nouveau Wittgenstein :
La traduction d'une langue dans une autre ne se produit pas par la traduction d'une proposition de l'une dans une proposition de l'autre ; seuls sont traduits les constituants de la proposition (Tractatus Logico-Philosophicus, 4.025)
Le transfert peut ainsi fonctionner dans les deux sens : traduction vers, et traduction à partir de. Concrètement, la phrase citée plus haut de l’article Paris est aspirée par la base de donnée. Chacun de ces composants reçoit une affectation sur Wikidata. Ce transfert devrait se passer sans encombre pour les énoncés déjà intégré dans un modèle — il va sans dire que tout ce qui se trouve dans un modèle débarque ipso facto dans ReferenceRecord. Par contre, la transcription des énoncés nus devraient peut-être poser un peu plus de souci (dans « la commune de Paris », il n’est pas forcément évident de repérer l’item et le snak).

La traduction à partir de pose sans doute moins de soucis. Il s’agit de transporter les statements stockés par Wikidata dans une langue naturelle, en recourant aux tournures usuelles employées, par exemple, pour énoncer la population d’une ville. On mesure tout de suite l’importance de ce type de génération textuelle pour les petits wikis, qui ne disposent pas d’une communauté suffisamment importante pour recueillir manuellement certaines informations essentielles. Dans une hypothétique Wikipédia syldave on pourrait ainsi retrouver :

Sous réserve de réaliser toutes ses promesses, Wikidata peut avoir une certaine incidence sur la dissémination du savoir en France. Le développement des wikipédias en langues régionales ou dans les langues d’outre-mer (Wikimédia France s’était dernièrement beaucoup investit dessus) ne pourra qu’en être facilité.


lundi 11 juin 2012

La wikipédia italienne de nouveau menacée ?

Le 4 octobre 2011, la wikipédia italienne cessait de fonctionner pour près de 48 heures. Quiconque souhaitait consulter l’un des 700 000 articles de l’encyclopédie, était automatiquement redirigé vers un communiqué alarmiste signé des « utenti de wikipedia ».

Huit mois plus tard, la situation pourrait bien se répéter. Depuis hier au soir, toutes les pages de la wikipédia italophones sont bardées d’un sitenotice ainsi conçu :


La cause de ce second appel à l’aide est familière. Il s’agit une fois de plus du projet de loi DDL et de son corollaire tristement célèbre, le comma 29. Le projet, qualifié aussi de « loi des écoutes » vise d'une manière générale à renforcer les sanctions contre la presse, dans l'objectif plus ou moins avoué, de bâillonner le « quatrième pouvoir » — son rôle actif dans la divulgation de divers scandales politico-judiciaires commence à embarrasser les élites italiennes. Procédant à plusieurs adjonctions à l'article n°8 de la loi du 8 février 1948, le comma (ou alinéa) 29 s'attaque plus spécifiquement aux sites internet.

Comme je le soulignais dans une analyse approfondie, le strict respect des prescriptions du comma a des conséquences lourdes. Tout texte jugé diffamatoire par un particulier doit être aussitôt remplacé par un rectificatif, rédigé par celui-ci ou un de ses représentants. Le non-respect de ces dispositions entraîne le versement d'une lourde amende (jusqu'à 12 000 euros). A l'instar du SOPA américain, la justice n'est pas du tout impliquée dans ce processus. Le particulier est seul juge du caractère diffamatoire du texte visé. Sa seule appréciation détermine son retrait.

Déjà plusieurs fois retardé depuis 2009, l'examen de la DDL a été de nouveau suspendu en octobre dernier. Le blackout de la wikipédia italienne et les réactions qui s'en sont suivies ont sans doute pesé dans l'affaire. D'autres facteurs sont sans doute également entré en ligne de mire : la perte graduelle d'influence de Silvio Berlusconi qui finira par démissionner le mois suivant, l'importance graduelle de la crise de la dette… Tout incitait à reporter une loi devenue secondaire, en sus d'être impopulaire, dans un contexte aussi grave.

Si, aujourd'hui, le technocrate Mario Monti remplace Berlusconi, l'Assemblée n'a pas bougé. Il s'agit toujours de la XVIe législature. Celle issue des élections générales de 2008. Celle qui a proposé une première mouture de la DDL en 2009. Celle qui compte bien la faire aboutir…

De fait, si ce n'est la date, rien n'a changé. Le projet qui sera présenté aux députés à partir du 19 juin n'a apparemment pas beaucoup évolué depuis octobre.

A la même cause répondent les mêmes effets. Passablement inquiets, les wikipédiens italophones ont rapidement réagi. Dès le 31 mai, le bistro local (ou « bar ») commence à brainstormer sur le sujet. Plusieurs informations (et interprétations) contradictoires surgissent. Zerosei rapporte ainsi qu'une institution publique influente, l'AGCOM, dénonce plusieurs dispositions de la DDL :
L'AGCOM refuse catégoriquement le masquage des sites, même lorsqu'il y a une violation du copyright. 
Un consensus se dégage rapidement. Il est évidemment hors de question de procéder à un blackout, tant que l'on ne dispose pas de plus de précisions sur l'avancée des travaux parlementaires. Par contre, un sitenotice permet de marquer le coup et de prendre rapidement position. En témoigne, l'échange suivant :
Phyrexian — Je suis également favorable à une bannière dès maintenant. On pourra envisager des mesures plus lourdes si la situation ne s'arrange pas. La bannière permet de mettre l'accent sur le fait que nous sommes à nouveau contraints de procéder comme en octobre. Par contre, nos sources se limitent pour l'instant à un seul article de journal ? Rien d'officiel à ce propos. Nous ne pouvons quand même pas mettre une bannière comme cela, au hasard.
Codicorumus — Je suis favorable à une bannière maintenant, suivie peut-être d'autres initiatives. Pour les sources, voir la section documentation.
Patafisik — OK, à ce stade je suis pour la bannière. 
Plusieurs propositions de sitenotice s'ensuivent. Elles sont destinés à informer wikipédiens et lecteurs du danger qui menace. Et, par la même occasion, à réaffirmer le caractère inconditionnel des principes fondateurs :
Si cette loi est approuvée, nous serions obligés de modifier le contenu de plusieurs articles, indépendamment du respect du principe de vérifiabilité et sans qu’il soit possible de le modifier ultérieurement. De telles exigences constituent une limitation inacceptable de l’autonomie de Wikipédia. Elles dénaturent les principes fondateurs de notre encyclopédie (Traduction libre du sitenotice finalement retenu).

vendredi 8 juin 2012

Autocitation…

Lucianusbeneditus suscitait il y a quelques jours un intéressant débat sur le bistro. Il soumettait en effet à la communauté une question non triviale : peut-on se citer sur Wikipédia ? La plupart des velléités d’autocitation ont été jusqu’à présent découragées pour des raisons annexes, généralement liées à la faible qualité des sources (blog…) voire à leur inexistence…

Là n’est pas le souci de Lucianusbeneditus. Comme il le souligne, « ceux qui me connaissent savent que je suis universitaire, j'enseigne dans une université française et donc je fais de la recherche et je publie. » Par conséquent, il produit des sources dites de qualité — articles dans des revues à comité de lecture, actes de colloque etc. Ces sources servent préférentiellement à référencer les articles de Wikipédia. Qui plus est, elles contribuent à définir l’état de la recherche actuelle que l’encyclopédie est censée refléter.

Assez logiquement, Lucianusbeneditus contribue sur des thématiques qu’il étudie par ailleurs. Son intérêt wikipédien et son intérêt universitaire ne pouvaient que se croiser. Tout cela l’entraîne vers le dilemme suivant : peut-il utiliser une de ses publications comme référence ?

La publication en question participe sans conteste du champ de recherche considéré. Son sujet, assez pointu, se situe à l’embranchement de deux disciplines distinctes (la climatologie et l’histoire antique). Dans ces conditions, on peut subodorer sans grand risque que la littérature existante est plutôt limitée… Omettre cette étude revient de facto à négliger une partie de la recherche existante sur l’objet encyclopédique. L’ajouter paraît pourtant soulever un certain nombre de réticences éthiques. Un contributeur s’y est ainsi fermement opposé en pointant un risque d’autopromotion…

Ce n’est sans doute pas là le problème. Cédric Boissière rappelle très justement que Wikipédia ne dispose encore que d’une faible légitimité dans le monde universitaire. Être cité sur Wikipédia représente un avantage incomparablement plus faible que le fait d’être cité dans une revue dûment agréée par l’AERES. D’ailleurs, sur mon CV de doctorant, les quelques articles labélisés que j’ai été amené à rédiger figurent sous le chapitre « valorisation » (en d’autres termes, tout ce que le would-be PhD réalise pour soigner son image) et non sous le chapitre « publication ».

Le point qui me dérange davantage est plutôt d’ordre épistémologique. Les cinq principes fondateurs édictent en effet la répartition des tâches suivantes : la communauté scientifique élargit le savoir existant, en recensant ce qui est, en provoquant des expériences et en proposant de nouveaux modèles formels ; la communauté encyclopédique constate et publicise les acquis ainsi dégagés. J’ai assez nettement ressenti cette distinction lorsque j’ai rédigé mon mémoire de recherche l’année dernière. A certains moments, je me disais « attention TI ». Je rattrapais aussitôt : « ah mais non, là je peux… ».

Cette distinction, l’autocitation la remet en question, dans la mesure où les statuts de chercheur et de contributeur se confondent. La production et la reproduction du savoir relèvent de la même personne. Une telle confusion des statuts et des attentes d’écriture n’est sans pas risque. On songe au tout premier lieu au paradoxe de l’observateur : peut-on évaluer un champ de recherche dont on est soi-même partie prenante ? Ne va-t-on pas se mettre en avant ? Ou, au contraire, soit par modestie ou par crainte d’éventuels reproches, se minimiser ? La juste mesure n’est pas aisée à définir.

Il existe également une seconde dérive, moins évidente. Le chercheur-contributeur possède en effet un avantage certain sur le simple contributeur : il est en mesure de produire, indirectement, un savoir. Il peut, techniquement, se référer à des données apparemment exclues de l’encyclopédie (sources primaires en particuliers) en les synthétisant dans une source secondaire utilisable telle quelle.

Je ne pense pas que ce type de pratique existe aujourd’hui. Ça pourrait l’être dans un futur plus ou moins proche. Il ne paraît pas illusoire de penser que plusieurs contributeurs réguliers de l’encyclopédie s’orientent vers une carrière universitaire. Ce faisant, ils peuvent être tenté de combler les impasses éventuelles de la communauté scientifique dans leur domaine spécifique de contribution.

Dans les faits, on assisterait ainsi à une inégalité de fait entre les contributeurs tenus de refléter le champ de recherche, et ceux qui peuvent l’altérer. Cette situation ne dégraderait absolument pas l’éditorial (les revues à comité de lecture ne laisseraient certainement pas passer des élucubrations POV). Par contre, elle peut générer un certain nombre de tension communautaires, en suscitant in fine une encyclopédie à deux vitesses.

Vers deux statuts distincts ?

Il va sans dire que j’ai pris le problème dans ses ultimes retranchements. En réalité, il est sans doute possible d'autoriser l’autocitation, tout en l'encadrant suffisamment pour prévenir les dérives éventuelles. On pourrait ainsi autoriser ce procédé à condition qu’une ou plusieurs références viennent également appuyer le propos — soit exactement ce qu’a fait Lucianusbeneditus…

mercredi 23 mai 2012

Polir la vitrine…

Comme vous vous en êtes peut-être aperçu, la page d'accueil a subi depuis la semaine dernière un petit changement look plutôt significatif. Il concerne le « Browsebar », soit, littéralement, la « barre à feuilleter » : cette courte liste de principaux portails intégrée dans le header dévolu à la définition du site (« Bienvenue sur Wikipédia / Le projet d’encyclopédie libre que vous pouvez améliorer »). Depuis le 14 mai, le portail culture a disparu, tandis que les portails sport et arts faisaient leur apparition. On obtient désormais le résultat suivant :


Ce n'est pas une modification anodine. Elle contribue ni plus ni moins à modifier la fiche d'identité de l'encyclopédie, le discours d'adresse qu'elle tient en tout premier lieu à ses lecteurs. Cette incidence explique la longueur relative des débats préalables. Kyro avait une première fois tenté un remplacement du portail culture le 2 mai ; il s'était fait assez rapidement reverter. Ce n'est qu'au terme de toute une série de concertations sur la page de discussion de l'Accueil principal ou sur la PàS du portail culture, qu'un modus vivendi relativement consensuel a pu être trouvé.

Je dois dire que sur toute cette question j'ai un point de vue qui paraîtra peut-être un peu léger : l'inclusion du portail sur la browsebar ne devrait pas seulement dépendre de la généralité du sujet concerné (la Science, la Culture, avec un grand S et un grand C), mais également de la qualité de la conception formelle. Ces quelques portails mis en avant bénéficient en effet d'une prime non négligeable.

Pour s'en persuader il suffit de jeter un coup d'œil aux statistiques du portail culture et du portail arts. L'un et l'autre portent sur des sujets assez proches ce qui limite les parasitages (techniquement, il est possible que le portail sport connaisse un certain afflux à l'occasion d'événements sportifs, sans que la browsebar y soit pour grand chose). L'inversion des courbe est assez nette.


Comme on le sait, le portail culture n'est pas d'excellente facture. Pour reprendre une formule utilisée quelque temps pour qualifier les labels AdQ et BA, il ne fait pas véritablement « honneur à l'encyclopédie ». Cela devrait peut-être s'améliorer dans les mois qui suivent : un brainstorming se prépare, et j'ai bien l'intention d'y apporter ma petite contribution.

 Or, en le mettant dans le browsebar on incite fatalement le lecteur à le considérer comme représentatif de ce que peut faire Wikipédia. L'image qu'on en retire n'est pas forcément positive. Dans le meilleur des cas, on peut juger que Wikipédia est décidément plus axée sur le savoir scientifique que sur les humanités (ce qui, dans une certaine mesure, n'est pas tout-à-fait faux). Dans le pire, on peut s'interroger sur la validité du modèle d'encyclopédie participative.

 Tout ceci m'amène à penser qu'il ne faudrait pas hésiter à avoir une approche un peu plus promotionnelle, en présentant ce que l'on a de mieux à présenter. Le Lumière sur se situe déjà dans cette optique. A l'échelle des portails du browsebar trois critères pourraient importer. Premièrement, une bonne structure formelle, suffisamment claire et cohérente pour que le lecteur lambda s'y retrouve. Deuxièmement, un projet relativement actif en arrière-plan, afin de garantir la réactivité et la viabilité du portail sur le long terme. Troisièmement, et plus éventuellement, quelques modules d'accueil spécifiques pour les nouveaux arrivants, un peu à l'instar de qui a pu être expérimenté sur le portail Rennes, et que j'ai tenté d'appliquer sur le portail politique ou le portail communisme. Cela reste un peu théorique mais, de mon point-de-vue, les portails de la Browsebar devraient constituer non seulement un point d'accès à la lecture de l'encyclopédie, mais aussi à son écriture.

lundi 7 mai 2012

Contestateurs systématiques

L'adoption de la procédure de contestation du statut d'administrateur (ou CSA) avait été tortueuse. Dès 2006, une PDD un peu monstrueuse sur la Limite du mandat d'administrateur incluait une proposition 3 bis, ainsi conçue :
Après un problème avéré lié à l'utilisation des outils d'administration, noté sur la page de plainte pour admin, un vote de destitution peut être lancé si le demandeur a l'appui d'au moins 3 autres contributeurs.
La proposition est finalement rejetée par 18 voix contre 33. Elle revient subrepticement sur le tapis quatre ans plus tard. Le 19 août, une Prise de décision sur la contestation du statut est ouverte. Elle débouche dix mois plus tard sur une situation très paradoxale : la contestation est admise en principe, mais toutes les modalités proposées sont finalement rejetées.

Une seconde prise de décision devient nécessaire. Après moult discussions, vote, discussions sur le vote et vote sur la discussion, le système actuellement en vigueur est adopté : un administrateur doit renouveler son statut si six contributeurs autoconfirmed soulignent, diff à l'appui, qu'il a abusé de ses outils ou perdu la confiance de la communauté. Nulle instance n'est chargé d'évaluer a priori la validité de ces argumentations. Il existe par contre une sorte de validation a posteriori : la communauté encyclopédique n'est pas seulement appelée à juger de l'administrateur mais aussi de la validité des motifs.

Ce processus très graduel n'a pas véritablement permis d'éluder toutes les difficultés. En son état actuel, le CSA porte un certain nombre de dérives. Certains administrateurs se sont ainsi retrouvés contestés pour des motifs que l'on jugerait risible dans le meilleur des cas. En témoignent ainsi certains avis déposés à l'encontre de Lgd, ou encore les contestations en cascade récemment ouvertes par Guil207.

A ce stade, on mesure un risque assez sensible : six contributeurs mal lunés peuvent forcer le renouvellement de la plupart des administrateurs de wikipédia. Le « ticket d'entrée » est faible. Il suffit d'avoir produit une cinquantaine de contribution pour déposer son avis ; la validation dépend d'un simple diff qui n'est guère compliqué à fournir (la notion de « perte de confiance » est particulièrement extensible).

Une petite dystopie en guise d'exemple…

Supposons qu'une demi-douzaine d'anti-wikipédiens se met en tête de destabiliser l'encyclopédie, soit par jeu ou par conviction. Pour simplifier les choses, appelons-les Toto1, Toto2, Toto3 etc. Pendant une semaines, ils s'amusent à corriger une cinquantaine de fautes d'orthographes. Puis, ils passent à l'assaut. Ils commencent par les cas les plus aisés : sur les 194 administrateurs en exercice, il s'en trouve certainement quelques uns qui ont eut un mot de travers au cours des trois derniers mois. C'est suffisant, pour argumenter sans trop de difficulté en faveur d'une perte de confiance. On obtiendrait ainsi :

 

Puis ils intensifient l'offensive et s'attaquent à quiconque dispose d'un statut. A terme, on prend des mesures extraordinaires sur le bulletin des administrateurs. La petite camarilla est bloquée pour cause de désorganisation de l'encyclopédie. La procédure de CSA est suspendue temporairement, voire définitivement en attente d'une réforme structurelle. Et on commence à évaluer tous les dégâts de l'affaire.

Certes, le renouvellement ne pose pas vraiment de problème : le sort de l'administrateur dépend du jugement de la communauté. Celle-ci ne confortera certainement pas les opinions d'une demi-douzaine de « contestateurs systématiques ». Néanmoins, cela représente une certaine perte de temps, à la fois pour l'administrateur (qui doit s'échiner à se défendre au lieu de se consacrer à des activités plus utiles pour l'encyclopédie) et pour la communauté (tout-le-monde est appelé à voter et argumenter). On pourrait aboutir à la situation suivante, où des administrateurs respectés se retrouvent contraints de se défendre envers et contre tout :



Une procédure en quête d'ajustements

Autant dire que mon exemple dystopique est volontairement excessif. Il y a peu de chance qu'une telle dérive advienne : cela réclamerait six individus disposant de six connexions distinctes (autrement, une simple RCU suffirait pour invalider les contestations). En outre, ces individus doivent disposer d'une connaissance particulièrement fine de Wikipédia : saisir les implications du CSA n'est pas à la portée du premier venu. Néanmoins, les règles actuelles ouvrent une brèches suffisantes pour rendre la dystopie possible. 

 Un peu plus de cinq mois après l'ouverture du CSA (et une dizaine d'expérimentations, dont près de la moitié ont débouché sur une consultation communautaire), il serait peut-être temps de commencer à réfléchir à un ajustement. Je vois trois directions possibles. 

 La première, et la plus simple, consisterait à relever le « ticket d'entrée ». On pourrait ainsi se cantonner à ne prendre en compte que les abus d'outils. Or, la communauté a déjà exprimé son rejet de ce type de disposition. La faire revoter jusqu'à parvenir au « bon résultat » ne paraît pas véritablement envisageable. 

 La seconde présupposerait d'imposer un quota de contestations : un contributeur ne peut pas contester plus de X administrateurs à la suite. Cela permet d'éviter les contestations systématiques. Cependant, on risque de remplacer un problème par un autre. A partir du moment où un contributeur se joint à une ou deux contestations, il ne peut plus réagir à un abus manifeste d'un administrateur à son encontre. 

 La troisième et dernière aurait ma préférence. Elle impliquerait d'ajouter une question supplémentaire à chaque consultation : « est-ce que les motifs de la contestations vous paraissent valables ? ». Le règlement actuel prescrit en effet que « En cas de litige, la contestation reste ; la validité des motifs sera examinée par l’instance chargée de faire aboutir ou non la contestation [soit] par la communauté au cours du vote de confirmation. » Concrètement, chaque utilisateur est appelé à juger à la fois du maintien du statut de l'administrateur contesté et de la validité des motifs de consultation, soit deux choses éminemment distinctes. Cette adjonction m'a souvent gêné : même lorsque je n'ai pas véritablement confiance en l'administrateur contesté, il n'est pas envisageable d'accepter purement et simplement des motifs douteux ou datés. 

 En consacrant une question spécifique la validité des motifs, on astreint les contestataires à un minimum de responsabilité. En cas de rejet massif de leurs argumentations, des sanctions pourraient être envisageable. Cela permettrait sans doute de prévenir un usage purement gratuit de la procédure.

dimanche 1 avril 2012

De Wikipédia à Wikdeo

Vous avez sans doute déjà vu passer la nouvelle sur le bistro. Peu de temps après le lancement du développement de Wikidata, la Wikimedia Foundation a donné son feu vert pour initier un second grand projet : Wikdeo.

Qu'est-ce que Wikdeo ? Il s'agit d'un logiciel qui permettrait de transformer chaque article encyclopédique en film d'une durée de cinq à dix minutes. Les concepteurs Stephen Van Dale et Andrew T. Roll s'en sont expliqués dans une interview pour un hebdomadaire anglais :

Le logiciel est programmé pour identifier les principales affirmations de l'article. Puis, il s'efforce de les relier à des vidéos correspondantes. Les données ainsi réunies sont montées de façon aussi harmonieuses et dynamiques que possible. A terme, il serait également possible d'intégrer une bande-son musicale afin d'améliorer le confort de vision.

Sur leur site, les deux concepteurs diffusent une première vidéo expérimentale. Pour faciliter le traitement, ils ont sélectionné un article sur un sujet cinématographique. A la suite d'un bug inexpliqué, je n'arrive pas à reporter la vidéo sur mon blog. A défaut, je vous propose une prise d'écran, qui donne une juste idée de ce que l'on peut obtenir.


Comme on le voit, la navigation est entièrement changée. On ne navigue plus dans l'encyclopédie en sélectionnant un lien écrit, mais un objet. Sur l'image, on peut ainsi passer à l'article (enfin, plutôt, la vidéo) sur la voiture, le garage ou le ciel en cliquant sur la zone visuelle correspondante.

Afin de constituer une banque de données vidéo suffisamment consistante, la Wikimedia Foundation s'est associée à plusieurs entreprises d'audiovisuel — selon plusieurs rumeurs non confirmées, TF1 serait intéressée par un partenariat qui porterait spécifiquement la Wikipédia francophone. Des grands noms de l'industrie cinématographique et musicale serait également approchés.

Sur le papier, le projet s'annonce prometteur. Pourtant il reste de nombreux impasses à régler. Van Dale et T. Roll s'inquiètent en particulier des notes de bas de page.

Nous avons fait un test sur l'article consacré au film Drive, qui a plutôt bien fonctionné. Seulement, à un moment, le logiciel a retenu comme information pertinente le nom d'un universitaire cité en référence. Il a récupéré les extraits d'une de ses conférences, particulièrement rasante, qui n'avait strictement rien à voir avec le film. En plus, le type était vieux et mal habillé. C'était très perturbant.

Quand un universitaire vient s'incruster dans une vidéo encyclopédique


Pour l'instant, les deux concepteurs ne voient pas trop comment résoudre cette difficulté. Selon eux, la solution passerait peut-être par la suppression des notes de bas de page dans l'encyclopédie.

Jimmy Wales s'est déclaré emballé par ce nouveau projet. Ce logiciel serait peut-être amené à remplacer Mediawiki.

La plupart des gens ne lisent jamais les articles. Ils les survolent, regardent les images, mais n'en retirent rien. En fin de compte, cela ne sert à rien de s'acharner à présenter le savoir de manière scientifique et neutre si personne ne s'en sert. Il vaut mieux se mettre au niveau du lecteur.