mardi 23 septembre 2014

Google, le cerveau de l'humanité?



Potentiel d'action ou algorithme de pagerank? Duplicate content ou apprentissage? Google, le moteur utilisé par une large majorité des internautes, doit-il son succès à la proximité que son fonctionnement révèle, de notre propre cerveau? Si l'analogie reste ce qu'elle est indubitablement, on peut déceler dans les algorithmes de la machine, le reflet de certaines fonctions cérébrales qui optimisent nos performances. Et si Google était le cerveau de l'humanité?


Cela parait-il invraisemblable? Il y'a quelques années, une étude de Joshua Knobe et Jesse Prinz(1) montrait que nous percevions dans des entités telles que Dieu, Microsoft ou Google, des intentionnalités, et certaines capacités que l'on attribue généralement à l'homme. De façon naturelle, nous personnalisons ces entités comme si elles étaient finalement proches de l'individu humain : ainsi, la phrase "Google a planifié la création d'un nouveau service", nous parait-elle aussi plausible que "Le boulanger a planifié l'achat d'un nouveau fourneau". Parmi ces capacités, la volonté, la planification, la croyance, la prise de décision ou la connaissance. Par contre, les expériences immédiates telle que la joie ou la colère, ne semblent pas s'appliquer à Dieu ou aux entreprises, selon un article paru cette année dans Scientific American(2). Quoi qu'il en soit, nous éprouvons face à ces entités, une certaine reconnaissance d'attributs généralement considérés comme humains, ou au moins du domaine du vivant. Avec les cinq capacités décrites, nous ne sommes en fait pas loin de la possibilité de conscience (anticipation, motivation, cognition...).

Dans le cas plus particulier du moteur de recherche Google, nous avons affaire à une ambition qui cadre encore mieux avec la ressemblance à l'homme : Google est censé effectuer une recherche automatisée, telle que nous la ferions (en un temps certes incroyablement long). Ce que l'utilisateur souhaite trouver, Google doit, parfois le deviner, mais dans le meilleur des cas, le trouver. Son but est en quelque sorte, à la base, de remplacer le cerveau humain dans la recherche d'information. Aussi n'est-il pas si étonnant de voir les capacités de ce cerveau, simulées par la machine pour en sortir ce dont d'ordinaire, ce cerveau s'acquitte.

Réseau Neuronal et réseau de pages

L'une des plus importantes marques de fabrique de Google, c'est l'utilisation qu'est faite de chaque lien, dans la conception de l'index de référencement des pages web : le google crawler (robot de recherche), analyse une page et suit les liens que celle-ci contient, à la manière d'un message électrique parcourant le neurone jusqu'aux dendrites, lesquelles pointent vers d'autres neurones. Chaque lien d'une page A vers une page B est considéré comme un vote de A en faveur de B. Le vote sera d'autant plus important que la page A est importante, autrement dit, l'importance d'une page constitue la pondération du vote qu'elle attribue à ses liens. Là encore, de la même façon, chaque intersection neuronale se voit attribuée une certaine pondération : un seul neurone avec une forte pondération suffira à activer le suivant, tandis que plusieurs neurones à faibles pondérations sont nécessaires pour activer un neurone qui en reçoit les messages.... Et nombre sont les capacités du cerveau que l'on peut ainsi mettre en parallèle...

Informatique - Google Biologie - Cerveau
Réseau de PagesRéseau de neurones
LiensDendrites
Le robot d'exploration google parcoure les pages et suit les liens qui s'y trouventle flux électrique parcoure le neurone et suit les dentrites pour faire passer le message aux neurones ou cellules se trouvant à l'extrémité des dendrites
Le réseau "apprend" en attribuant des pagerank aux pages A liées, selon l'importance des pages par lesquelles le robot d'exploration est passé pour joindre les pages A.
- Plus il y'a de liens vers une page, plus son pagerank est élevé.
- Plus le pagerank de la page A d'où provient le lien est élevée, plus la valeur de pagerank de la page B liée est importante
Le réseau apprend en attribuant une pondération aux connexions des neurones par lesquels le message électrique passe.
- plus il y'a de neurones envoyant un message à un neurone, plus celui-ci a de chance d'être activé
- plus une neurone A est fortement connecté au neurone B, plus le neurone B a de chances d'être activé 
Il existe un paramètre de duplicate content permettant d'améliorer l'apprentissage. si deux pages ont le même contenu, des liens entrant sur l'une ou sur l'autre ne s'ajoutent pas : un lien vers la page A et un lien vers la page A' rendent le référencement innefficace. puisque les deux pages ont le même contenu, mieux vaut une seule page qui concentre tous les liens vers elle, celle-ci récolte alors les bénéfices de tous les liens et les ajoute.Il existe un paramètre d'apprentissage permettant d'améliorer l'automatisme, les routines... Au début de l'apprentissage, plusieurs chemins neuronaux permettent d'effectuer la même action. Au fur et à mesure de l'apprentissage, les chemins sont élagués jusqu'à ce qu'il ne reste que quelques (ou un seul) chemin neuronal, fortement pondéré. C'est alors que l'on devient expert dans cette action, et qu'on l'exécute de façon quasi-inconsciente ou routinière (par exemple, changer les vitesses de la voiture : au début, cela demande de la concentration et une mobilisation du cerveau (ressources attentionnelle. au fur et à mesure que les chemins neuronaux s'élaguent, on exécute l'action de plus en plus rapidement et efficacement).
Les ancres des liens sont importantes et définissent la sémantique de la page liée : un lien noté "cliquez ici" ne signifie rien pour google. Le même lien noté "découvrez cet article de Stéphane, traitant des similitudes entre Google et le cerveau biologique" indique à google que la page liée traite de biologie, de cerveau, de google... Si à priori, un site est classé dans un répertoire par google (site de psychologie, par exemple), les liens définiront une sorte de contexte local (telle page traite de telle pathologie)
A l'intérieur des sites, de tels liens peuvent être contrôlés pour aider google à tirer une sémantique de vos pages.
 Les connexions définissent un champ contextuel et sémantique : penser à un pompier évoque directement les concepts rattachés à celui-ci, comme le concept "camion" ou le concept "rouge". Plus le contexte est important et défini, meilleur est l'apprentissage, car le pouvoir du contexte est très fort. Cela explique par exemple que l'on ne reconnaisse pas une personne dans la rue si on est habitué à la voir uniquement en salle de classe. Cela explique également que certains souvenirs ne reviennent que lorsque nous sommes dans un état physiologique (stressé, alcoolisé, triste...) proche de celui de l'apprentissage. Aussi, le contexte apporte une grande part de la sémantique (ce que signifie le concept activé)
 Un aperçu de quelques "capacités cérébrales" de Google

Quelles conclusions doit-on en tirer?

Un corollaire simple et évident : Google est constitué de telle sorte qu'il mime les capacités de décision de l'utilisateur, c'est du moins l'espoir qu'en ont ses concepteurs. Aussi, pour réaliser un site correct, est-il nécessaire de concevoir les moteurs de recherches proches de google, et bien entendu Google lui-même, comme une tentative de réplique du cerveau humain. 

Pour entraîner votre cerveau, vous le faites travailler, vous apprenez. vous multipliez ainsi son activité en multipliant les messages provenant de l'extérieur (stimulations perceptives) mais également en raisonnant à partir de votre mémoire. Google fait de même : il ne suffit pas que des liens présents sur le web mènent vers vous, mais il est raisonnable d'améliorer la structure de votre site de telle sorte que chaque page aient un contenu unique, que toutes les pages soient facilement accessibles (liens entre pages d'un même site) et que vos liens aient une signification. Vos liens à l'intérieur des pages de vos sites, vous les contrôlez, et vous pouvez donc leur associer des ancres pertinentes (ne pas lier en marquant "cette page", mais préférer une sémantique du type "cet article traitant de la maladie d'Alzheimer").

Rappelez-vous que la "sémantique" d'une page, c'est-à-dire le sens que google donne à votre page, est étroitement lié à 4 paramètres :
  • l'url (http://www.exemple.com/?page=3&categorie=45 a moins de sens que http://www.psyblogs.net/google-tools-pour-webmasters/google-psychologie.html).
  • Les métas, principalement les mots-clés, qui définissent votre contenu ainsi que la description de votre page
  • le contenu lui-même (est analysé par google : mieux vaut que votre contenu corresponde à votre description, tout comme lorsque vous recherchez un souvenir de vos 8 ans, mieux vaut vous commenciez par rechercher dans vos souvenirs d'enfance et non vos souvenirs récents)
  • Les liens que vous faites et qui vous sont faits : pour juger ce que "pense" un autre site du vôtre, google ne peut se baser que sur l'url, la thématique de la page qui contient le lien, et surtout sur ce que dit ce lien!

Pour en savoir plus : Knobe J., Prinz J. (2006). Intuitions about consciouness. Experimental studies.

0 commentaires:

Enregistrer un commentaire