summary
type
status
date
slug
tags
category
password
icon
写给萌新的收录指南(
📝 搜索引擎收录指南
测试自己的网站是否被收录
搜索引擎里的语法测试,测试ing
看过这篇文章(搜索引擎里的语法)的同学,想必都知道如何检查自己的网站是否被收录吧。
是的,很简单。用site:+(域名)即可完成查询。
比如我的网站:点击这里
- 所以学习搜索引擎语法还是很有用的吧(QWQ)
- 赶紧学起来a
如何让自己的网站被收录
site没有我的网站捏
- 首先,你是不是用的百度!快用Google和bing吧,求求你了。
好的,说正事。
首先我们需要明白的是,搜索引擎如何搜索到你的网站
这里的高赞回答解释的很好了,如果想要深究的话可以过去看看。不想深究的话可以看我的省流版本。
- 通过网络爬虫爬取网页。网络爬虫是用于从互联网收集数据的程序。它们不断向各种网站发送请求,获取网页并将其存储在搜索引擎的服务器上。网络爬虫通过提取网页中的链接来发现新页面,然后重复这一过程。
- 网络爬虫会遵守一定的规则。网站上面会有一个类似协议书的东东,告诉爬虫什么可以爬取,什么不行。
那么此时我们就比较明确了,如果想让搜索引擎搜到我的网站,就一定要让爬虫可以爬取到我 的网站。
网站协议书(非专业术语)
简而言之,通过robots.txt来判断。
"robots"在中文中通常被翻译为“机器人”。在网络术语中,尤其是与“robots.txt”文件相关时,它指的是网络爬虫或搜索引擎爬虫。因此,“robots.txt”文件有时被称为“机器人协议文件”。
听到这个文件的名称是不是会感觉有一点奇怪?来让我们介绍一下
- 这是一个位于网站根目录的文本文件,用于指示爬虫哪些部分的网站可以被爬取,哪些不可以。它不直接告诉爬虫网页的类型或内容,但它指定了爬虫可以访问和索引的路径。通过遵守这些规则,爬虫可以避免获取不需要或不允许获取的内容。
大家可以通过“域名+/robots.txt”来查看自己的网站是否存在这个文件。(不是在搜索引擎里查询,而是直接找)比如https://www.techleaf.xyz/robots.txt
我所使用的Notion Next自带这个页面。
基本上就展示了这些内容。爬虫会自行判断。(就不介绍的过于详细了)
作用类似的还有Sitemap.xml,查看方法一样。https://www.techleaf.xyz/sitemap.xml。这个用来显示网站的文章架构,让爬虫更全面爬取到你全部的文件。想看具体介绍的可以去这里了解。
网站收录指南-1 主动提交网站
- 相比于爬虫的被动搜索,不如主动出击。身为站长的你,可以主动提交网站到Google或者bing。
Google
Google的站长工具,Cloudflare可以一键绑定,相当方便。(如果不是Cloudflare的面板可能需要你自己去添加txt解析。或者在网页中加入一些代码。
具体方法就不提供教学啦,如果是自己搭建的网站想必各位对添加代码都很熟悉了。如果是跟着我的blog搭建的小伙伴想必都可以通过Cloudflare来添加网站。
bing
建议先注册Google的站长,然后再注册bing的。可以通过Google Search Console一键导入你的网站捏。
主动提交之后就可以等待一小段时间,通常在1天以内。如果还是没有的话也不用着急,其实可以多等会。如果是新搭建的blog人家也不一定会收录。比如我的blog就是在1周多的时候才被收录进Google。
提交完成之后如何使用,请点击:站长工具使用指南
网站收录指南-2 辅助曝光
当时从Cloudflare上面发现的这个服务
名字叫“Crawler Hints”
差不多翻译过来的意思是爬虫指示。所以就说,开启之后可以增加曝光概率。很好的一个东西捏。
打开自己的网站,选到配置这一栏。开启Crawler Hints这个beta功能。
网站收录指南-3 等待
优质内容并且附上可爬取的标签。都会被慢慢收录的。使用了前面的方式也不能让你的网站立即生效,还是需要慢慢等待。
🤗 一些别的碎碎念
其实也没什么别的方法了。要有点耐心的。任何网站到被收录都有一个过程。而你要做的就是定期更新完网站内容,然后随时检查就好。
📎 参考文章
欢迎您在底部评论区留言,一起交流~
- Author:ByteSage
- URL:https://www.techleaf.xyz/article/operation-search
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!