火车头网站采集教程【图文】

浏览 发布时间 2010/09/27

继上一篇谷歌管理员工具【图文教程】之后,今天继续和大家聊聊,有关做站工具的使用教程,今天文章主题是:火车头网站采集教程,对于什么叫采集,大家肯定心里比较清楚了,我反正是个懒人,所以就和大家分享,懒人做网站的一点经验吧。

在网站采集工具当中,我比较常用的就属火车头了,原因有三点:

1、功能比较强大

因为采集本身的重复度很高,通过【替换】、【排除】、【屏蔽】等这些比较高级功能,可以帮助我们完成文章的伪原创,提高百度收录

2、免费

这点我想不用多说,大家也会心知肚明了吧。

3、资源丰富

因为火车头的论坛比较活跃,很多资源都是可以找到的,细到一条规则,大到某个CMS模块,统统都有。

好了,说了这么多好处,下面进入正文:火车头网站采集教程吧。

一、新建站点

火车头网站采集教程【图文】

站点名称可以自定义,我建议用实际网站名称,作为站点名称这样有利于日后管理。

在出来的站点属性标签中填写:

站点名:火车头网站采集教程
站点网地址:http://hi.baidu.com/seozy/blog
描述:火车头网站采集教程

二、整站内容规则

火车头网站采集教程【图文】

采集网址深度:1(http://hi.baidu.com/seozy/blog这个是列表页面,从列表页进去的才是我们要的内容,所以这里选1)

选择来源站编码:gb2312(查看被采集站点的原代码,<meta http-equiv=content-type content="text/html; charset=gb2312">)

采集页面测试,典型页面地址http://hi.baidu.com/seozy/blog/item/2e1b99d7334a65dba144dff0.html(从列表中选一个页面,测试,得到如下内容

【作者】: <a href="http://www.locoy.com" target="_blank">火车采集器</a>

【出处】:

【标题】: 再也不能吃的垃圾食物_seo章鱼     

【内容】: : 。。。这里省略)

现在编辑页面内容标签,左边看到的标题,内容,作者,时间出处。

标题:从测试页中可以看到,多余的“_seo章鱼”,屏蔽掉就可以了。

双击标题打开这个标签,在下面的内容排除中,添加,内容写  _seo章鱼   确定,确定 。

 

再测试一下,是不是得到结果

【标题】: 再也不能吃的垃圾食物

好的正确了。。

再来看看时间,

在测试结果最后一行

【时间】: 2008-10-23 22:30:22

这个是系统的时间,不是文章的时间。

页面中的时间是: 2008-10-23  14:41

查看html代码,(将测试结果的内容标签的代码全部copy到dreamweaver中查看比较方便)

<div class="date">2008-10-23  14:41</div>

而在整个html代码中, <div class="date"> 是唯一的,那么  <div class="date">  开头 ,  </div>  结束的就是我们要的时间了。。测试看看。

双击时间标签,左边点“通过采集得到数据” ,开始字符串   <div class="date">   结束字符串   </div>
确定,测试,得到的测试结果:

【时间】: 2008-10-23  14:41

时间弄好后,就到作者了。双击作者标签,系统自定义固定格式数据,固定的字符串,删除原来默认,写上blog作者名字 seo章鱼 确定

双击出处,自定义固定格式数据,固定的字符串,写上作者的blog地址 http://hi.baidu.com/seozy

最后是内容了。按照取得时间的方法,找到开头结束

<div id="blog_text" class="cnt">

</div></div>

因为内容各有不同,还有格式问题等原因,所以需要进行html标签排除,根据各模块和需要排除,常用到的有

链接

表格,行单元

字体

脚本

空格

框架

如果还有其他特别需要的

可以利用内容排除,替换。等高级功能。

本例子只需要选择h标签和层标签,span标签,

再查看内容标签里面是否有多余的,不需要的内容。如果有多余的,就编辑内容标签,如果没有,保险起见,可以多测试几个页面,防止考虑不周全。

ok如果完事了,保存

下面站点建设好了。开始建设任务。

选择刚才建设好的站点,点菜单上面的新建任务

在跳出来的页面中,顶头上,选择所属站点,“教程” 任务名字“教程任务”

开始采集地址,向导添加

在出来的添加开始采集地址中,选择批量多页。

观察下我们采集的地址有好几页的,但是这些页是有规则的

http://hi.baidu.com/seozy/blog/index/0

http://hi.baidu.com/seozy/blog/index/1

http://hi.baidu.com/seozy/blog/index/2

 

...

 

那么多页类似地址形式:

http://hi.baidu.com/seozy/blog/index/(*)

(*)这个就是通配符了。。就是一个变量
 

数字范围选择

0-2

间隔是1,倒序

添加,完成

得到

http://hi.baidu.com/seozy/blog/<0,2,1,true,false>

后面的<0,2,1,true,false>就是从0页到2页,加一,倒序采集,不补零的意思了。

这个时候,被采集页的内容我们设置好了。。列表页我们也设置了,那么还差什么呢?

就是被采集页面的地址,如何才列表页中获得呢?

和之前获得采集内容从后某段html之间提取一样,被采集页面的地址,也是从列表页面中提取出来的。。

例如http://hi.baidu.com/seozy/blog/index/0

查看代码,发现所有的被采集页面地址都是在<div id="m_blog" class="modbox">    和   <div id="page">中的。

将其填写到页面内选定区域采集网址

从<div id="m_blog" class="modbox">到<div id="page">

但是里面有很多连接,是不需要的,这个时候就要排除了。

文章内容页面的地址必须包含 html

开始测试采集网址,看采集的地址是否正确了。

一切按我们计划走。。

第二步到采集内容规则了。设置,(我们在站点已经设置好了。)测试。一切ok

第三步发布内容设置(dedecms5.1)

方式一,启动,第一在线post到网站全局设置,添加,选择dedecms5.1文章发布模块(如果是其他的或者没有的,请在论坛搜索),填写cms根地址(后台地址),在火车头内置浏览器中登陆(或者切换到传统模式登陆)

获取列表,选择需要发布的列表,填写配置名字,保存

在方式一的列表中,点选择分类,获取,选择列表。

保存。

一切大公告成,开始采集发布啦。(任务分布进行一定要选采集网站地址,采集内容,发布内容)

教程从最简单最基础的学起,里面说的都是很基本的操作。还有很多高级操作,在以后的学习和实践中会慢慢碰到的。。多看教程,多实践,万事搜索一下。

网站采集是一件需要足够耐心,认真一次设置,可以让你受益终身的,所以要认真点阅读哟。

文章作者:北京网站优化@红光(QQ:86541358)
文章地址:http://www.010wangzhanyouhua.com/locoy-acquisition/
尊重别人的劳动成果,你的劳动成果也一定会被尊重。
文章来源:除注明来自转载,其余全部为原创文章。
旨在和大家分享网站优化经验、普及网站优化知识。
如果你喜欢本站的文章,转载时请保留文章出处,谢谢。 var _bdhmProtocol = (("https:" == document.location.protocol) ? " https://" : " http://"); document.write(unescape("%3Cscript src='" + _bdhmProtocol + "hm.baidu.com/h.js%3F228e1f36afdcb394a9b26b873488ff28' type='text/javascript'%3E%3C/script%3E"));