热门排行
简介
火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等。此外,丰富的规则制定,内容替换功能,对Access,Mysql,MSsql的数据入库导出的支持,更可令你采集内容的时候得心应手,现在开始你可以抛弃过去重复乏味的手工添加工作了,请马上开始体验瞬间建站的乐趣吧!
火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。
软件功能特色
分布式高速采集
任务分配至多个客户端,同时运行采集,效率倍增。
多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
可选验证方式
可选择是否使用加密狗,随时保障数据安全。
全自动运行
无需人工值守操作,任务完成后自动关机。
替换功能
同义,近义词替换、参数替换,伪原创必备技能。
任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
采集监控系统
实时监控采集,确保数据的准确性。
支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
支持扩展
支持接口和插件扩展,满足各种采发需求。
更新日志
3.2版SP4更新主要内容[2008-01-18]
1、在任务中加入了[任务参数1]及[任务参数2]标签,可在任务右键菜单中修改,可直接用在WEB发布和数据库发布模块中
2、修改在线发布时的固定编码格式为任意编码可选的设置
3、增加了采网址、采内容、发内容分步操作的进度条显示
4、增加了一种新的标签格式:自增随机数字 可以生成以某数字开头的每次递增一随机数的数字,比如生成递增的时间戳
5、更新了下载文件类,进一步解决了对来源页检测和登录验证检测的文件下载的支持,增加了当前下载文件的查看功能
6、扩充了全局大小写的范围,采集分页需要大小写支持实例 //www.lwcool.com/lw/newsfile/2007/2/10/2007210_lwcool_10350.html
7、使用全新的SOCKET类 解决了服务器提交了协议冲突. Section=ResponseHeader Detail=CR 后面必须是 LF的问题,测试地址://biotech.org.cn/news/news/show.php?id=56773
8、修改数据库发布设置时没有将测试的标签加载到测试窗口里
9、加入了自动检测升级版本的功能并能得到自动更新软件列表, 自动下载最新文件的功能
10、加入了自动报告BUG及建议的功能
11、在标签规则的排除和替换中加入可上下移动记录的功能
12、修正了在发布时来源页地址中未解析标签内容的问题
13、在所属采集页中加入了除默认页外的(采集页地址)这个页面,实现了可以对地址中变量的提取
14、修改了导入网址时大文件界面反应迟钝的问题
15、修改了自动插入(*)等字符时自动替换掉已选中的字符串的功能
16、替换了自动摘要中多余的空格和换行
17、导入导出任务去掉了多次确认框
18、增加了当有任务正在运行时突然关闭程序的跳出确认框
19、加入了对整个站点采网址,采内容,发内容状态的编辑
20、改变了配置文件的编码,增进了对繁体版系统的支持
21、增加了采网址时重复次数达到多少后是否继续判断还是跳过网址采集的设置
22、取消了文件是否在html项的设置,改为自动判断下载单条还是多条
23、修正了下载图片的同时可以下载文件的功能
24、全局关键词替换加入了对标题标签的替换-sp3仅支持内容标签
25、修正了保存为csv文件多内容换行时格式出错和缩略图下一行保存的问题
26、修正了Unix等系统的服务器区分URL大小写造成无法采集地址小写后页面的问题 参考://www.sfda.gov.cn/WS01/CL0051/index.html
27、全面启用log4net,日志异常记录更为全面
28、加入了是否补全缩略图网址的设置,可以根据自定义规则利用缩略图标签来采集列表页的内容
29、内容替换里加入支持参数替换的功能,实现对内容格式的随意组合
30、加入了是否在任务运行停止后自动注销任务显示界面的设置,利于回收资源
31、获取拼音加入了只获取首字母的设置
32、可以对中文URL地址编码进行设置,支持更广的非ASCII码URL格式支持,如你好,“地址”.html