Le balisage sémantique schema.org, une révolution programmée

Publié: 2016-02-11

Depuis des décennies, internet fait face à de grandes mutations, certaines imposées par les moteurs de recherche, d'autres, plus subtiles, surgissent naturellement grâce à la créativité de certaines communautés. Ainsi, entre les années 90 et aujourd'hui, on est passé d'un internet réservé à quelques docteurs à un web géant accessible à tous, partout et à tout moment. Notre web contient des milliards de documents différents les uns des autres. Google aurait plus de 30 000 milliards de pages indexées et traiterait plus de 3,3 milliards de requêtes par jour dont environ 15% de nouvelles.

Ce sont des ensembles très difficiles à classer même si les moteurs de recherche ont largement évolué dans leur système de traitement de crawl et d'indexation et dans la manière dont ils retransmettent l'information, passant de résultats de pages linéaires à des listes de réponses enrichies , donnant du même coup plus de données autour du concept lié à la requête. Ces données sont issues d'un nouveau domaine d'exploration des moteurs : les données sémantiques .
Du côté de l'algorithme, c'est la prochaine grande étape, les chances sont de votre côté de le rentabiliser.

Imaginez le travail phénoménal des algorithmes de crawl et de classement. Comment comprendre le sens des documents, extraire des informations clés, filtrer le code source, séparer les informations du bruit HMTL, comparer des documents pour les trier, les qualifier, les classer puis les renvoyer en fonction de la demande utilisateur – plus ou moins identifiée – à assurez-vous d'apporter la meilleure réponse possible, dans le format le plus élégant ! À une époque où de plus en plus de programmes intelligents comprennent le langage naturel, saisir le sens profond des pages et des requêtes est évidemment important pour l'avenir de l'entreprise.

Le crawl et l'indexation deviennent complexes. Il faut de l'« intelligence » pour être meilleur – la concurrence est rude – et les leaders de la recherche ont – un jour – discuté autour d'un même sujet : le balisage sémantique !

Les présages des structures de données

Les origines de cette thématique ont déjà été abordées dans un article du site français Abondance. Il est intéressant de rappeler que Tim Berners-Lee, avait déjà décrit intégralement la mutation sémantique des moteurs de recherche en 1999.
Ce visionnaire rêvait d' une machine autonome , "intelligente", entraînée à comprendre les relations entre objets physiques et à pouvoir répondre efficacement à une requête humaine grâce à une forme d'abstraction sémantique.

Depuis sa création, le web s'est organisé autour de la description des documents et de leurs concepts à travers des propriétés et des relations qui les reliaient à d'autres documents.
La norme RDFA – pour Resource Description Framework on Attributes – décrit un nouveau type de connexions, bien plus subtiles que les ancres : les données structurées .

Respectant des règles strictes et typées, ils sont organisés en syntaxes capables d'enrichir tout concept décrit dans un élément HTML par des attributs et des liens de types connus.

Tout y est : concepts, attributs, types sont aujourd'hui les Score, Prop et Type des items schema.org.

Les spécificités ont évolué – elles ont été simplifiées et unifiées mais les fondements sont les mêmes. Les liens entre les pages sont importants – il n'y a pas de remise en cause de la puissance des liens internes et externes – les grands concepts de vos pages sont de plus en plus faciles à déterminer pour les machines, les moteurs ont besoin de gagner en efficacité, pourquoi ne pas s'inspirer du système d'attributs recréer un système normé qui simplifiera les analyses et les classements, puis le faire adopter par tous les développeurs ?

Le balisage sémantique est important pour les moteurs et ils font tout leur possible pour nous le faire adopter massivement. Nous avions le « AuthorRank », le fil d'Ariane, les extraits enrichis, le graphe de connaissances, la boîte de réponse ; avec schema.org et HTML5 il y a maintenant la syntaxe pour décrire n'importe quelle entité physique avec une exactitude étonnante.

Votre site Web n'est pas marqué comme schema.org !

Il est vrai qu'entre une optimisation technique profonde et ce sujet quelque peu futuriste, vous avez vite fait de choisir. Après votre audit OnCrawl, vous avez dû faire des choix pour améliorer la structure de votre site, réduire vos contenus dupliqués, optimiser le maillage interne de vos pages ou encore la sémantique – la partie linguistique du terme – et vous aviez raison, mais quelle est la prochaine étape ?

Donnez du sens à vos contenus, profitez de contenus enrichis, cette belle optimisation qui a été créée pour vous faire adhérer à la technologie schema.org et qui anime aujourd'hui une grande partie des innovations des leaders de la recherche.
Regardez les dernières recommandations AMP (Accelerated Mobile Page) pour comprendre que Google nous attire vers l'adoption du balisage sémantique et vers le JSON-LD.
Profiter des avis clients pour afficher des petites étoiles sur les listes de réponses est un minimum, baliser son sitemap doit être une habitude, mais aujourd'hui vous pouvez aller plus loin.

Le balisage sémantique est prêt à être massivement utilisé, mais quel profit en retenir ?

Pourquoi marquer des entités ? Pour la beauté de l'art car pour beaucoup d'entre nous, c'est une véritable source de motivation. Pour obtenir des extraits riches et être différent de la concurrence, mais cela ne durera qu'un instant. Former les développeurs à une syntaxe qui devrait devenir la base des futures interactions entre machines – c'est déjà beaucoup plus séduisant. Simplifiez le travail des moteurs dans leur compréhension de votre site et parlez le langage le plus adapté pour séduire un crawler ou un index.
Simplifier au maximum vos données, créer des liens sémantiques forts entre vos pages, voici votre nouvelle priorité.

Une voiture, par exemple, https://schema.org/Car a des propriétés comme sa longueur, sa largeur, son angle de braquage, sa couleur, le nombre de sièges à l'arrière, son volume de coffre. Sa marque est à la fois une propriété et une entité typée https://schema.org/Brand détenant ses propres attributs. Cette entité automobile nommée est également composée d'un moteur https://schema.org/EngineSpecification qui est une entité globale avec son propre schéma, ses propres propriétés, qui est vendue par un https://schema.org/AutoDealer qui, comme a https://schema.org/LocalBusiness, a des heures d'ouverture, une adresse physique et bien d'autres informations liées à ses types. Toutes ces données sont descriptibles à travers le vocabulaire schema.org et seront de plus en plus utilisées par les moteurs pour vous donner de la visibilité.
Les possibilités sont illimitées, ne ratez plus cette optimisation qui améliorera votre contenu et la qualité de votre site.

Le contenu est roi, la liaison est le royaume, la technique est le trône