google indexed

某种程度上, 算是一种更进一步的认可吧. 以往, 我观察都是要等2周到1个月,才能逐渐收录.

我推测 Google 的收录采用了某种逐渐增加权重的策略. 类似于: 如果一个网站,更新频率越高, 质量越高或者独创性越高, 后续就更频繁地光顾.

我期待能做到 Google秒收录的那天. 我不确定,一个独立网站,是否有可能做到.也不确定要多久才能做到. 但是那种感觉, 真的会很舒服.那个时候, 就好像自己和这个世界连接了起来, 自己的想法能快速投射到这个世界上.

当然, 我太爱碎碎念, 也不会输出专业性过强的东西, 估计也不会有太多的读者. 更多的是自我记录吧. 就好像: 喜欢打游戏的人,大部分并不像成为专业竞技选手. 写博客本身, 既是过程, 也是目的.

现在是 12小时即被收录. 期待下次能更进一步.比如: 8小时收录? 4小时收录? 1小时收录? 哈哈哈. 期待.慢慢等吧.顺便观测下 Google的 索引策略.

后记: 写完文章,又尝试搜索了下, 发现又搜索不到了. 所以现在稳定被Google索引的时间,估计至少还是需要24小时…好诡异…

再次补充: 新起一个隐私窗口, 又能搜索到了. 估计是 Google 不同服务器机群上的数据目前不完全一致. 刚好某几台服务器上,存储了我的这篇文章的索引.

google indexed

medium

如果Google展示的时间是爬虫抓取的时间,那说明在文章发表的4个小时左右,就已经被爬虫抓取内容了. 是巧合,还是有专门的关注? 暂时未知. 还需要进一步观察.

再次补充:

从Google Search Console页面, inspect, 确认页面确实已经被索引.并且抓取时间是 “11 Jan 2024, 18:28:50”. 也就是大约 13小时前.

google search console

google search console

更进一步.我想看看 inspect 一下其他几篇更新的文章:

google search console

google search console

google search console

google search console

google search console

google search console

google search console

google search console

可以初步得出几个结论:

  • 目前被爬取的文章,主要是站内文章内链.

  • 有一个来自外链指引的爬取. 说明外链确实有用.

  • 爬取的时间和文章发布的时间顺序,并不一致.

  • 已经被索引的文章,会被不定期再次爬取.

如此以来, 也就没有必要单独研究 medium sitemap更新不及时的问题了. 靠博客主题自带的站内博客链接就足够了.

好吧.用 Google Search Console,确实更专业些, 能看到更多细节, 但是总归不如直接在 浏览器输入文章标题检索,来得直观.

补充: 关于爬虫抓取频率, 可以在Google Search Console中观察. 虽然是3天前的数据,但也有很大的参考价值. 路径是: Google Search Console → Settings → Crawl stats → Crawl requests: Refresh. 不太确定爬虫抓取的频率的具体算法.但是技术上, 如果没有主动推送机制的话, 估计很难在发布新文章后, 立即让 Google 爬虫过来.

google Crawl stats

更进一步. 我试下主动提交.看会发生什么.

尝试前:

before submit

点击 “TEST LIVE URL”:

before submit

Crawled as Google Inspection Tool smartphone Crawl allowed? No: blocked by robots.txt

用一个第三方 robots 检验网站试了下. 勾选 “Check Resources”, 以模拟 Goole 的 “TEST LIVE URL” 操作. 会看到: 访问 medium 自定义域名的网页时, 进行了两次 307 跳转. 自定义域名 → medium → 自定义域名. 在第二次307时,刚好命中了 robots.txt 中的 Disallow: /m/

before submit

我有些不耐烦了! medium 对自定义域名的支持, 太不友好了.或许,今天就像个办法, 平稳地替换掉 medium.

参考: