采集操作使用详细说明
作者:
项目名称: 电脑入门 (注:随便写)
网站名称: it.com.cn (注:随便写)
网站地址: http://www.it.com.cn (注:随便写)
新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址。)
项目备注: 记得经常采集这个栏目。 (注:随便写)
二、项目编辑--采集目标源码
列表开始代码:(注:要找到唯一的)
列表结束代码:频道精选
列表索引分页:(注:这里有三种,<设置标签>、<批量生成>、<手动添加>)
1、设置标签:
下页开始标记:下页结束标记:>下一页 (注:要找到唯一的)
索引分页重定向: (注:不知何意,请老大指教!)
2、批量生成 (注:这里设置生成范围为 1 TO 5 是不行的,没index_1.html这个目标,有些网站是可以。)
原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
生成范围:2 To 5
3、手动添加(注:这里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
http://www.it.com.cn/edu/readme/index_2.html
http://www.it.com.cn/edu/readme/index_3.html
http://www.it.com.cn/edu/readme/index_4.html
http://www.it.com.cn/edu/readme/index_5.html
三、项目编辑-- 采集列表
链接开始代码: 链接结束代码: target=_blank (注:要找到唯一的)
链接特殊处理: 不作处理 重新定位 (注:不知何意,请老大指教!)
绝对链接字符: (注:不知何意,请老大指教!)
这是分析后所得到的新闻绝对链接地址:http://www.it.com.cn/f/edu/051/15/68987.htm 请查看是否正确。(注:点击后的地址是:http://127.0.0.1/Admin/target=_blank BUG???)
四、项目编辑--采集目标内容页源码
标题开始标记: 或:
正文开始标记: (注:要找到唯一的)
正文结束标记: (注:要找到唯一的)
作者设置: (注:这里就不说了,设置标签和采集正文的一样)
关键字词设置: (注:同上)
正文分页设置: (注:这里演示<设置标签>)
设置标签
下页开始标记:下页结束标记:>[下一页]
分页绝对链接: (注:感觉没什么用处?不知何意,请老大指教!)
五、项目编辑--属性设置
(注:到这一步显示出正文,说明测试采集目标成功,这里要注意的是:文中的图片显示不出来是正常的,发表后自然会显示出来)
六:项目编辑--文章属性 (注:自己设置啦~~~)
过滤选项: (注:建议全部打上勾)
satan_zero兄的【经验之谈】几个关键:
1. 请选择文章中独一无二、每篇必存的代码作为代码。这要看你的心思了,这关都通不过,
嘿嘿,还是去买本有讲HTML的书或者找个教程看看
2. 请在不要复制2005版中的代码作为标签。因为在代码视图中有些代码不可见,这应该是中鸟(嘿嘿)采集失败的原因,
譬如:2个字节的空格的代码 ,代码视图中就看不到。
解决办法:用记事本或者文本编辑器打开源代码看。
文件比较大,传到自己的空间里,分三部分下载:
http://www.itcfan.com/cj/1.part1.rar
http://www.itcfan.com/cj/2.part2.rar
http://www.itcfan.com/cj/3.part3.rar