首页>>搜索引擎优化>>通过sitemap让google知道你
通过sitemap让google知道你
网站地图对于网站推广人员来说,是很省力但是很有效的事情,可以告诉google你的网站,但是google只是将它作为抓取你站点的参考,切记勿要滥用!
网站地图可以告诉搜索引擎蜘蛛你网站所有页面的地址,搜索引擎通过它就可以知道你网站所有页面的信息。网站地图使用的网站地图协议是一个列出了网站所有URL信息的XML文件,这个协议的高度伸缩性可以适应任何大小的站点。它还可以列出每个url页面的其他详细信息(什么时候更新的,多长时间更新一次,相对与其他页面的权重值),通过这些,可以让搜索引擎更加智能的抓取站点。
网站地图还有一个好处就是,用户并不能通过一个页面接口访问网站整体构架有个很清楚的了解的时候(一般来讲,是用户通过连接导航不能到达特定的页面或者版块的时候)。网站地图对于搜索引擎有很大的帮助,但是它不不能取代搜索引擎通过蜘蛛人的方式来抓取页面。把网站地图提交给搜索引擎,可以帮助搜索引擎更好的来收录你的页面。
使用网站地图不能保证你的网站一定能被搜索引擎收录。同时也不会影响google对你的网站页面PR值的评判。
一、XML 站点地图格式
站点地图协议的格式有XML标记组成。所有的代码必须是utf-8编码。
示例如下:
<?xml version="1.0" encoding="UTF-8"?>
< urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
< url>
< loc>http://www.35joys.com/</loc>
< lastmod>2007-02-01</lastmod>
< changefreq>monthly</changefreq>
< priority>0.8</priority>
</url>
</urlset>
网站地图必须:
1.以<urlset>标记开头,以</urlset>结束
2. 每个url必须包含一个<url>条目作为父xml标记
3.每个<url>父标记必须包含一个<loc>作为子标记
二、XML标记定义:
可用的xml标记描述如下。 <urlset> 必需项
<url> 必需项 每个url条目的父标记 其他的都是这个标记的子标记
<loc> 必需项 页面的url。这个url必须以协议名称(如:http)开头,以斜线结束,且不能大于2048个 字符
<lastmod> 可选项 指明<loc>标记中指定的页面的更新日期。日期的格式必须符合w3c日期格式。例如:2007-02-01/2007/2007-02/2007-02-01T20:20:30+08:00
<changefreq> 可选项 指明该页面的更新频率。它告诉搜索引擎多长时间来抓取一次这个页面。可用得值有 always(一直更 新)/hourly(每小时更新一次)/daily(每天更新一次)/weekly(每周)/monthly(每月)/
yearly(每月)/never(从不更新)。需要指出的是,这些标记可以看作是对搜索引擎的建议而非命令。搜索引擎只会参考你的建议,也就是说,你指定为hourly更新的,搜索引擎可能一个月才抓取一次,就算你指定为never(从不更新)的,如果这个页面经常更新,搜索引擎也会经常来抓取的。
<priority> 可选项 指的是该页面相对于该站点其他页面的权重值,可用的值为0.0~1.0。这个值不会影该页面与其他站点页面之间的比较。它的目的就是告诉搜索引擎你的站点中那个页面比较重要,以此来作为抓取你站点页面频率的参考。 每个页面的默认权重为0.5,和<changefreq>同样的道理,你对页面分配的权重不会影响搜索引擎结果中你的网站页面的未知,它只是为了告诉搜索引擎你这个站点中那个页面比较重要,优先将该页面收录。同样,大家要注意的是,给所有的url页面分配很高的权重值并不能帮助你什么,因为这个值是相对你站内的页面之间的值。所有将所有的页面设为1.0和将所有的页面设为0.0是一样的。
编码规则:
xml里面必须是utf-8编码格式。任何特殊字符必须经过转换。
转换前 转换后
连接符 & &
单引号 ' '
双引号 " "
大于号 > >
小于号 < <
例如:
http://www.35joys.com/product.asp?id=5&class=1
在xml里面要这样写:
<loc>http://www.35joys.com/product.asp?id=5&class=1</loc>
三、站点地图索引文件
你可以提供多个网站地图文件,但是每个站点地图必须小于5万个url并且小于10MB(压缩前大小,如果要压缩站点地图文件,必须用gzip压缩工具)
如果你的列表大于5万个url,你可以创建多个站点地图文件。若你的站点有多个站点地图文件,多个站点地图文件要放在站点地图索引文件中。站点地图索引文件必须小于1000个站点地图列表。
站点地图索引文件样式:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84">
<sitemap>
<loc>http://www.35joys.com/sitemap1.xml</loc>
<lastmod>2007-02-01</lastmod>
</sitemap>
<sitemap>
<loc>http://www.35joys.com/sitemap2.xml</loc>
<lastmod>2007-02-01</lastmod>
</sitemap>
</sitemapindex>
四、网站地图的位置
站点地图的位置决定了那些url连接可以包含在这个xml文件中。总体规则是根目录下的网站地图文件可以包含该目录下的所有url文件。某个目录下的站点地图文件只能包含该目录下的url文件。举个例子,
http://ww.35joys.com/ 目录下的站点地图可以包含http://ww.35joys.com/images 和http://ww.35joys.com/admin 目录下的文件。而http://ww.35joys.com/images 目录下的站点地图只能包含该目下的文件,而不能包含http://ww.35joys.com/admin 目录下的文件
五、让你的网站地图变的有效
google用一个XML schema 来定义可以出现在站点地图中的元素和属性,你可以从下面的地址下载:
For Sitemaps: http://www.google.com/schemas/sitemap/0.84/sitemap.xsd
For Sitemap index files: http://www.google.com/schemas/sitemap/0.84/siteindex.xsd
为了使你的网站地图有效,并且不会和xml schema冲突,xml文件需要添加头,如果你用站点地图生成器,这些头会自动添加,如果你用其他工具来生成网站地图,xml文件的头要这样。
sitemap:
<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
<url>
...
</url>
</urlset>网站地图做好后,登录google的网站管理员工具,上传网站的地图文件。
站点地图生成器下载地址:点此下载
google网站管理员工具:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
以上关于sitemap介绍的文章为笔者魏天星翻译自google的官方网站,因为想了解相关的知识,又在google找不到中文的,索性一边看一边翻译了一下,错误在所难免,欢迎大家指正。
