如果博客是使用Hexo管理的,sitemap可以使用插件来生成。但对于一个内容管理网站,后端可能是express、koa之类的框架,这时sitemap就需要自己来生成了
Sitemap可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的Sitemap形式,就是XML文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。
<url>
<loc>http://www.jouypub.com/</loc>
<lastmod>2019-05-01</lastmod>
<changefreq>daily</changefreq>
<priority>0.5</priority>
</url>
loc:文章链接地址
lastmod:最后更新时间
changefreq:更新频率,daily/monthly
priority:权重
开源包:sitemap,地址: https://github.com/ekalinin/
npm install --save sitemap
代码中使用
const express = require('express')
const sm = require('sitemap');
router.get('/sitemap.xml', function (req, res) {
let pageRequest = Object.create({});
pageRequest.pageSize = -1;
pageRequest.pageNum = 1;
api.post('/article/list', pageRequest, function (result) {
let urls = [];
for (let article in result) {
urls.push({
url: article.url,
changefreq: 'daily',
lastmodrealtime: true,
priority: 1,
lastmod: article.updateTime
});
}
let sitemap = sm.createSitemap({
hostname: 'http://invest.jouypub.com',
cacheTime: 600000, // 600sec, cache purge period
urls: urls
});
sitemap.toXML(function (err, xml) {
if (err) {
console.log(err);
return res.status(500).end();
}
res.header('Content-Type', 'application/xml');
res.send(xml);
});
});
});
上面那种方法在文章数少时还能使用,如果有几千甚至几万篇文章,一次拉取的方式就不适合了,就需要把返回结果写入到文件中,一天更新一次。只需要只需要把
sitemap.toXML()
改成
fs.writeFileSync("app/assets/sitemap.xml", sitemap.toString());
即可。每次请求sitemap时读文件即可
让这个代码更加完善,可以同时生成首页、文章、单页面、分类和标签的 sitemap!Linux 定时任务+wget 定时生成 sitemap.xml,具体实现:将 sitemap.php 放到某个不为人知的目录,然后定时使用 wget 去请求这个文件
为了优化 SEO,生成 robots.txt 和 sitemap.xml 是必不可少的功能。Next.js 自身并不提供生成 robots.txt 和 sitemap.xml 的特性,所以需要自己实现。同样地,在 pages/ 目录下创建 robots.txt 文件。
为了爬虫, 在网站根目录创建robots.txt文件(utf-8),文件内容涉及四类键值对:User-agent,Disallow,Allow,Sitemap,支持正则, Disallow后没内容就是允许所有,sitemap四种写法:
内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!