Une analyse globale de la nouvelle politique de recherche (III) - Faut-il évaluer la recherche ?

Dans les billets précédents (1 et 2), j’ai exposé le contexte idéologique des réformes structurelles de la recherche qui sont en cours. J’ai tenté de montrer qu’il s’agit de théories bureaucratiques dont l’argumentation est essentiellement obscurantiste, c’est-à-dire que non seulement une série de poncifs (il vaut mieux financer les excellents que les mauvais) et d’analogies douteuses (les vertus supposées du « darwinisme ») tiennent lieu d’argumentation, mais en outre les éléments empiriques contradictoires sont tout simplement ignorés.

Face à ce type de critique, une réaction courante est : mais alors, vous refusez d’être évalués ? On convoque alors l’image du savant dans sa tour d’ivoire, ou pire, celle du fonctionnaire fainéant. En effet, un point central des réformes managériales en cours est la notion d’évaluation : il faudrait développer une « culture de l’évaluation », avec des « indicateurs de performance ». Faut-il évaluer la recherche ? Pour répondre à cette question, encore faut-il préciser ce que l’on entend par « évaluer » et quels sont précisément les sujets et objets de ce verbe (qui évalue, et qu’est-ce qui est évalué).

Pour cela, il me semble utile de faire une petite digression philosophique pour comprendre la nature de l’activité scientifique qu’il s’agit d’évaluer.

 

Digression philosophique

Qu’est-ce que la science ? Vaste question philosophique qui a été abordée par de nombreux angles et que je me propose de résumer en quelques paragraphes. Je me contenterai pour le sujet de ce billet d’une description assez grossière : la science, en tant qu’activité sociale, est la poursuite de la vérité. Description néanmoins un peu plus subtile qu’elle en a l’air : il s’agit bien de tendre vers un idéal de vérité sur le monde, mais c’est un idéal, c’est-à-dire quelque chose que l’on poursuit sans jamais vraiment atteindre.

Comment la science est-elle produite ? Une position philosophique historiquement importante, qui date du 19e siècle et début du 20e, est le positivisme : la science consiste à observer des faits élémentaires, puis à en déduire logiquement des lois de la nature. Il y a donc une méthode que l’on peut suivre pour produire des vérités scientifiques avec certitude. C’est en quelque sorte un modèle industriel de la science, et ce n’est sans doute pas un hasard si cette position est apparue au 19e siècle. De ce point de vue découle la conception naïve de la revue par les pairs comme certification des connaissances produites ou des méthodes employées. Point crucial, selon ce modèle de la science, il est trivial de distinguer la bonne science de la mauvaise science : la bonne science est tout simplement celle qui suit correctement la méthode scientifique (d’où le rôle présumé des journaux comme « gate-keepers » ; voir mon texte sur ce sujet). Dans ce modèle, on peut donc appliquer des méthodes industrielles de gestion, de « management » dirait-on aujourd’hui, parce qu’il existe des mesures objectives (externes) de qualité. Là est la justification de l’usage de la bibliométrie comme outil d’évaluation.

Or, si cette position reste populaire, en particulier chez les non chercheurs (mais pas seulement), elle a été essentiellement démolie par les travaux en philosophie et histoire des sciences au cours du siècle dernier. Le plus connu est sans doute Karl Popper, qui sous un angle logique a établi que l’on ne peut pas établir en science des vérités mais uniquement des faussetés - simplement parce qu’une proposition s’applique à une infinité de cas que l’on ne peut tous vérifier. Il s’agit alors de tester des théories, et non de déduire des vérités scientifiques. D’autres travaux, moins connus des scientifiques mais néanmoins très importants, ont montré que la difficulté est plus profonde que cela. Quine a montré que la notion même de fait élémentaire est une erreur conceptuelle. C’est une forme de réductionnisme de la connaissance (je reformule), l’idée que la connaissance est un ensemble de faits et lois indépendants les uns des autres. Or c’est impossible, car pour énoncer un fait il faut utiliser des concepts, c’est-à-dire des théories. Par conséquent, il n’y a pas de fait élémentaire mais plutôt un système (plus ou moins) cohérent de connaissances. Kuhn a montré historiquement que co-existent généralement des théories scientifiques contradictoires portant sur les mêmes observations, ou encore que différentes théories (ou écoles de pensée) considèrent comme pertinents des corpus d’observations différents. Lakatos (élève de Popper) a montré qu’une théorie scientifique est non seulement une théorie qui en principe doit être falsifiable, mais également qui en pratique est falsifiée, et que cette caractéristique n’est pas forcément dysfonctionnelle. C’est-à-dire qu’il arrive couramment que des observations inattendues semblent contredire la théorie dominante, mais pour autant la théorie n’est pas forcément remise en cause. A la place, l’observation est interprétée en postulant une hypothèse auxiliaire. C’est le cas presque systématiquement aujourd’hui dans de nombreuses branches de la physique parce que l’on considère les théories physiques bien établies. Par exemple : la trajectoire de telle planète dévie des prédictions des lois de Newton (ou Einstein), conclusion : il doit y avoir un satellite autour de cette planète (et non : les lois de Newton sont fausses).

Je pourrais citer de nombreuses autres contributions importantes. Pour le sujet qui nous occupe, le point important est qu’il n’existe pas de méthode scientifique que l’on pourrait appliquer pour produire des vérités scientifiques. Cela ne veut pas dire que la science est arbitraire, au contraire. Cela veut dire que la réflexion sur la méthodologie et plus globalement l’épistémologie font elles-mêmes partie intégrale de l’activité scientifique : il n’y a pas de norme objective externe à la communauté scientifique. Cela signifie que la science progresse non par la production et la certification des savoirs, mais par le débat scientifique. Ce point est crucial, car il fonde la justification fondamentale de la nécessaire autonomie scientifique. Il ne peut y avoir d’évaluation de la production scientifique selon des normes externes (notamment bibliométriques), tout simplement parce que ces normes n’existent pas.

 

Evaluer la recherche

Revenons donc à notre question : faut-il évaluer la recherche ?

Premièrement, commençons par la motivation de cette question. La motivation, c’est que l’argent public doit être bien utilisé, c’est-à-dire dans l’intérêt de la société. Cela implique sans doute que les politiques publiques doivent être évaluées, c’est-à-dire que lorsque l’on modifie la structure du système de recherche par des réformes, l’impact global de ces réformes devrait être analysé. Or c’est précisément le type d’évaluation utile qui n’est pas effectué, ou qui est ignoré. Les réformes engagées depuis 15 ans, introduisant des nouveaux modes d’organisation (financement par projets par exemple) n’ont manifestement pas donné les résultats escomptés. Il serait donc logique de revenir sur ces réformes et de les modifier. Or ce n’est pas le cas : au contraire, il s’agirait d’amplifier ces réformes.

Ce qui doit être évalué donc, c’est l’efficacité globale du système de recherche, en relation avec son organisation. Si le système global doit être évalué, est-ce qu’il en découle que les agents individuels de ce système doivent être évalués ? Il y a ici un glissement qui est tout à fait fallacieux. Bien sûr, si l’on veut connaître, disons, la production scientifique totale du pays, on va additionner la production scientifique de chacun des chercheurs. Du point de vue individuel, cette « évaluation » est donc faite dans un but de mesure uniquement ; c’est seulement au niveau du système global que cette mesure sert à influencer l’action publique. Mais quand on dit qu’il faut évaluer les chercheurs, ce dont on parle c’est une évaluation qui a une conséquence individuelle et qui est donc utilisée comme outil de gestion. Par exemple, on donne une prime aux chercheurs qui publient plus, de façon à les inciter à augmenter leur productivité. Il ne s’agit donc ici pas simplement d’évaluer les politiques publiques, ce qui semble assez consensuel, mais d’instaurer un mode de gestion bien particulier, à savoir une gestion bureaucratique managériale, reposant sur des indicateurs individuels objectifs.

Or comme je l’ai expliqué plus haut, il n’existe pas d’indicateurs objectifs de la qualité scientifique à un niveau individuel. On peut dire d’un pays qu’il produit plus ou moins d’articles scientifiques, ou mesurer différents indicateurs macroscopiques. Mais aucune bureaucratie ne peut dire ce qui est « vrai » ou « important » en termes de vérité scientifique, puisque c’est justement là le cœur de l’activité des chercheurs. Une conséquence immédiate de cet état de fait est qu’instaurer une gestion par objectifs est nécessairement contre-productif, puisque les agents vont alors être incités à optimiser des choses qui ne sont pas alignées avec la qualité scientifique, chose non mesurable. C’est d’ailleurs un phénomène tellement bien connu qu’il a un nom, la loi de Goodhart. Par exemple, demander aux chercheurs de produire davantage d’articles a pour résultat que les chercheurs produisent davantage d’articles. Par exemple en saucissonnant les articles, en faisant des articles bâclés, etc. Cela fonctionne pour toute métrique qu’un bureaucrate pourra inventer.

Mais alors, il ne faut pas évaluer ? Premièrement, l’évaluation, comme je l’ai expliqué, est un aspect central et quotidien de l’activité du chercheur, si l’on entend cela comme la discussion critique des productions scientifiques. C’est le métier du chercheur que d’évaluer ses pairs - le mot « évaluer » est sans doute mauvais, du fait qu’il ne s’agit bien sûr pas de mettre cinq étoiles à la loi de la relativité. Simplement, cette évaluation n’est pas un mode de gestion, mais de débat, et ce débat ne peut se faire qu’entre pairs, pas avec une bureaucratie.

Deuxièmement, l’évaluation des personnes (et non plus des énoncés scientifiques) est naturellement inévitable à au moins un moment de la carrière : le recrutement (et, sans doute, la promotion). Mais encore une fois, cette évaluation ne peut être faite de manière bureaucratique selon des métriques objectives pour les raisons déjà énoncées. Elle ne peut se faire que par des pairs, de manière subjective donc. De quel genre d’évaluation parle-t-on ici ? Le discours managérial parle de « culture du résultat » : il s’agirait d’évaluer la production des individus ; à charge des individus que faire en sorte que cette production soit bonne – d’où une forme de « sélection darwinienne ». D’où un certain nombre d’indicateurs (nombre de publications, prestige des journaux dans lesquels elles apparaissent, etc). Mais d’une part on retombe encore une fois dans l’erreur positiviste (il n’y a pas, surtout sur des résultats récents, de mesure consensuelle de l’« importance » de résultats scientifiques) et d’autre part on commet ce qu’on appelle en psychologie un biais de substitution, c’est-à-dire que le facteur que l’on cherche à évaluer est complexe et par conséquent on en utilise un autre plus simple (voir une série de textes que j’ai écrits il y a quelques années sur les biais cognitifs dans les recrutements académiques). Que cherche-t-on à évaluer lors d’un recrutement de chercheur permanent ? Il s’agit d’estimer si, au cours de sa carrière future, le chercheur produira des connaissances nouvelles et intéressantes. Bien sûr on ne connait pas sa carrière future, on doit donc la deviner. Et qu’est-ce qui détermine la qualité de la production scientifique d’un individu ? Un certain nombre de facteurs, dont certains sont propres à la personne, comme ses compétences et ses qualités (rigueur intellectuelle et intégrité par exemple), et d’autres sont contextuels (collaborateurs, conditions de travail, et bien sûr hasard puisqu’on parle de recherche, donc de choses non connues à l’avance). Ce que l’on doit donc déterminer, dans le contexte d’un recrutement, ce sont les facteurs propres, c’est-à-dire les compétences et qualités scientifiques de l’individu. La production passée est bien sûr corrélée à ces facteurs, mais ce n’est pas ce que l’on cherche à déterminer. Enfin il y a un risque bien connu à substituer un facteur indirect au facteur causal que l’on cherche à évaluer. En plus de l’erreur dans la sélection elle-même, cette substitution induit des changements de comportement des individus visant à optimiser ce facteur non causal, ce qui finit par rendre la sélection arbitraire (loi de Goodhart). Par exemple, un étudiant ira dans un laboratoire connu non parce qu’il pense y apprendre quelque chose, mais parce qu’il a plus de chances d’être co-auteur d’un article dans un journal prestigieux.

L’évaluation, donc, doit être une évaluation des compétences et non des résultats. Naturellement, les compétences ne peuvent être correctement évaluées que par des gens eux-mêmes compétents, et non par une bureaucratie.

Faut-il évaluer la recherche ? D’abord, il faut principalement évaluer les politiques publiques de recherche. Celles qui sont instituées depuis 15 ans sont manifestement mauvaises et il faut donc les repenser et non les amplifier. Voilà l’évidence. Ensuite, oui bien sûr, il est nécessaire d’évaluer les chercheurs, au moment du recrutement ou de la promotion, et non comme mode de gestion quotidien. Et ce sont les compétences qui doivent être évaluées et non les « résultats ». Ces compétences, enfin, ne peuvent être évaluées que par des gens eux-mêmes compétents et non par des bureaucrates. Voilà en quel sens on peut dire qu’il faut « évaluer la recherche ».