何が起きたのか

2024年3月にGoogleの内部文書がGitHubに流出し、5月上旬にRand Fishkin氏がその文書が本物であると認めました。Googleもその後、このリーク文書が本物であることを認めました。
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked

リークされた内容からSEOに関連するトピックを取り上げたいと思います。

クローリングの仕組み

1.クローリング

Webクローラーが定期的にWebサイトをチェックし。更新頻度を理解する。

2.インデックス作成

ページ内容をインデックス化する。
重要で頻繁に更新されるコンテンツはフラッシュメモリに保存し、アクセスしやすくする。
重要度の低いコンテンツはSSDに保存。
古くてアクセスの少ないサイトはハードディスクに保存。

3.レンダリング

HTMLやJavaScriptを動作させる。
PageSpeed Insightsのようにコアウェブバイタルを算出しているのかも?

4.プロセッシング

ページからリンク要素を抽出し、正規化や重複削除を実施。
内部リンクの一部は評価から除外されている。
リンクは量ではない。リンクの品質と関連性が重要。スパムリンクはすぐに特定される。

5.ランキング

主要なスコアリングを行う。
ユーザー行動を使用して再ランキングしたり新鮮さを利用して再ランキングする。

6.サービング

タイトルやディスクリプションの調整、リッチリザルトの生成。

ランキングが降格する要素

リンクの不一致

リンク先のWebサイトとリンクの関連性が正しいかどうか。
不一致の場合は降格。

ユーザーの不満

検索結果でのユーザーの行動を観測し、不満をもった行動が観測された場合は降格。

ナビゲーション

ページエクスペリエンスを評価し、悪いサイトは降格ということ?

完全一致ドメイン

検索ワードそのものがドメインに含まれている場合は降格。
検索ワードが「NOTE」の場合、「NOTE.com」は完全一致ドメイン。

製品レビュー

Googleが製品レビューに求めている品質に達しているかどうか?
専門的で実証的な証拠がある製品レビューであること。
製品の性能を具体的なデータで示すこと。
同種製品との比較を含めること。

グローバルページ

全世界向けのLPのようなページは降格させる。
きちんと地域にローカライズされているページを優先するということ?

ポルノ関連

解説いらないでしょう。

その他の気になる内容

ドメインの権威性は評価している

サイトランク、ドメインパワーといったドメインの権威性を表現する「siteAuthority」という指標がある。

新鮮さは重要

新鮮で重要な情報はフラッシュメモリに保存され、すぐにユーザーに提供できるようにしている。
そういう新鮮で重要なページからの関連性の高い適切な被リンクはかなり高い評価を得られる。
Googleは更新履歴を20件程度保存している。
新鮮さをごまかそうと日付だけを変更するようなことはすぐに見抜かれる。
日付は構造化データ、ページ タイトル、XMLサイトマップ全体で一貫性を保つように。

著者情報はきちんと保存している

コンテンツの著者は誰か、その著者に権威性があるのかという情報をGoogleは収集して保存している。
構造化データのauthorマークアップは価値ありそう?

YMYLは特別なスコアがある

健康に関するコンテンツ、お金に関するコンテンツは厳しく評価されている。

ETC

ページタイトルとキーワードの関連性は今でも大事。
重要な用語は平均フォントサイズより大きくしたり太字にしたりすることは有効。
コンテンツが長すぎると切り捨てている。
短いコンテンツは独自性が大事。

SEO研究者のみなさんはけっこうすごかった

Googleは真実を語っていなかった。
もしGoogleが発信しているすべての情報が本当のものであったならば、検索結果はSEO対策された記事で溢れてしまうからだ。
そして、SEO研究者たちが「おそらくこうだろう」と予測していたことは正解だった。
これは純粋にすごい。
SEOに関する知識があるかないか、最新情報を収集しているかどうか、それを信じて実行しているかどうか。
Googleを信じSEO研究者を信じなかったものが馬鹿をみていたのか?
まさに「公式が勝手に言っているだけ」状態。

良い情報を発信しようという誠実さだけでは検索結果を勝ち取ることはできないんだなぁ。つらいなあ。