一、搜索引擎算法
搜索引擎算法:搜索引擎算法指的是程序编写的一种网络机器人或者是网络蜘蛛。
搜索引擎打击的对象:通过作弊的手段实现网站自然排名的行为。
搜索引擎优化的特点:通过搜索引擎导入流量;客户具有自主性;高精度客户分析。
二、搜索引擎工作原理
1.爬虫:
网络爬虫(也叫网络蜘蛛),是一种自动获取网页内容的程序,爬虫抓取的网页将会被搜索引擎系统储存,进行一定的分析、过滤,并建立索引,以便之后的用户能查询到这个页面。这个获取信息的程序就是爬虫。
2.蜘蛛爬行和抓取:
吸引蜘蛛→地址库→文件存储→爬行时的复制内容检测。
3. 爬虫与搜索引擎的关系:
爬虫为搜索引擎收集内容。搜索引擎展现的内容大部分是爬虫收集的。
4. 爬虫的工作流程:
漫游的形式进行爬取,多线路的反复循环地抓取。蜘蛛抓取网页→存放在临时数据库(1)对不符合规则的进行清理;(2)对符合规则的进行索引。
5.爬虫的分类:百度爬虫、谷歌爬虫、360爬虫。
6.网页的抓取:
(1)抓取的内容:链接、文字、图片(Alt)。
(2)影响蜘蛛抓取的因素:权限;路径长度或层次深度(层次不超过3层)。
(3)robots文件屏蔽。
(4)网站打不开:服务器(虚拟空间)不稳定;404死链接;网站被黑。
7.如何判断蜘蛛是否来到网站?
查看日志;打开站长平台抓取频次。