站长工具

关注公众号 jb51net

关闭
EditorTools(ET无人值守采集助手) v3.7 绿色版

EditorTools(ET无人值守采集助手) v3.7 绿色版

热门排行

简介

EditorTools3是一款功能强大的自动采集软件,该软件主要的功能就是帮助用户采集网络中的资源,全自动采集发布,静默工作无须人工干预;独立软件免除网站性能消耗;安全稳定,可长年累月不间断工作T,全自动监控,并且能整理信息,提供免费的文件下载,适用于绝大多数网站,稳定方便,长时间采集不消耗网站性能。支持任何网站和数据库的采集发布,软件内置了包括discuzX,phpwind9,dvbbs,dedecms,dede淘宝客,wordpress,phpcms,帝国cms,动易,新云,风讯,pbdigg,php168,bbsxp,phpbb,百度空间等常用系统的范例。本软件适合需要长期更新内容的网站使用,不需要你对现有论坛或网站做任何修改。您可以使用它采集网站中的应用、文章、图片、视频,并将采集的信息全部显示在软件中,支持一键下载采集的资源,他与一般的资源自动搜索软件不一样,在提供资源收集以外,还能自动连接到迅雷、快车、旋风等链接文件,从网址中访问下载站的资源,处理新浪、DZX等假地址图片等,功能非常丰富,无需人工值守,24小时自动实时监控目标,实时高效采集,昼夜不停为您提供内容更新。满足长期运行需求,让您彻底解放双手,让软件帮助您搜索网页上的各类资源,极大的节约了时间。ET采集,释放自由,易用、稳定、低耗,有需求的用户请下载体验!

EditorTools3(ET采集器)特色

1、开机自动运行ET:启动电脑进入系统后,自动运行ET程序;

2、ET启动后自动工作:ET启动运行后,自动执行上一次使用ET时勾选的工作方案,只有启用本项,才会自动保存当前勾选的工作方案;

3、启动后最小化:ET启动后,隐藏主窗口,只显示托盘图标;

4、忽略规则首尾空白:启用本项后,采集配置中的各个规则将自动去除首尾的空格、回车、换行等空白字符,以避免用户多输入空格或换行导致规则分析失败;如果用户需要利用空格或换行来确定规则的首尾边界,则请取消勾选;

5、方案执行间隔时间:在进行自动工作、选择多个方案时,一个方案的当前列表采集完后,间隔多久更换采集下一个方案;

6、访问网络超时时间:设定在访问网络时超过多久无响应则强制断开;

7、访问网络重试次数:设定在访问网络时遇到失败的自动重试次数,例如采集网页、下载文件、FTP上传等;

8、访问网页失败后自动重启ET:设定在访问网页失败一定次数后自动重启ET,以解决一些可能出现网络阻塞导致无法继续正常工作的问题;本功能仅在自动工作时生效,停止自动工作将重置失败计数,重试访问不计数。

软件功能

适用广泛

比较全能的采集软件,支持任意类型网站采集,适用率高达99.9%,支持发布到所有类型网站程序,更可以采集本地文件,免接口发布;

信息随心所欲

支持信息自由组合,通过强大的数据整理功能对信息深度加工,创造全新内容;

任意格式文件下载

不论静态或动态,不论是图片、音乐、电影、软件,又或者是PDF文档、WORD文档,甚至种子文件,只要你想;

伪原创

高速同近义词替换、多词随机替换、段落随机排序,助力内容SEO;

无限多级页面采集

无论垂直方向多层页面,还是平行方向复数分页,抑或AJAX调用页面,为你轻松采集;

自由扩展

开放的接口模式,可以自由二次开发,自定义任何功能,实现所有需求;

软件内置了包括discuzX,phpwind,dedecms,wordpress,phpcms,帝国cms,动易,joomla,pbdigg,php168,bbsxp,phpbb,dvbbs,typecho,emblog等大量常用系统的范例。

主要优势

1、工作记录:

该栏记录ET的每一步工作过程及状态,包括目录采集和文章处理两大部分,我们通过工作记录可以了解该次采集执行是否正确完成,或是出现了什么问题;当出现问题时,可以根据提示、结合信息栏的其他反馈内容,用户可以迅速准确地找到故障原因并予解决。

2、采集源码:

此栏显示执行过程中所采集的文章列表页、文章页面、文章分页等的网页源代码,利用此栏源代码,可以方便的进行规则测试、提供规则定制依据。

注意,某些网站会根据不同来访浏览器而显示不同的源代码,所以,ET的采集规则定制时,应以此栏的源代码为准,例如采集规则范例中的‘SMF 1.1.5’,其网站通过IE访问和ET采集获取到的源码就有区别。

3、分析数据:

此栏显示文章处理过程中的各个数据项信息,从分析到的原始代码,到整理后的代码,再到经过URL修正后的代码,用户通过查看此栏,可以了解设置的数据项分析规则是否准确、整理组规则是否完善、最终的信息是否符合自己的要求。

例如:当工作记录栏提示错误‘正文字数大于或小于发布设置’时,我们可以查看本栏的‘正文’数据项,了解具体是大于还是小于发布设置,原因是正常还是因为整理组设置不当,从而调整各个设置。

4、发送代码:

此栏显示ET向发布网站发送的数据,包括文章检查部分和文章发布部分;

用户可以通过此栏信息了解通过一系列分析、整理操作,最终向发布网站提交的数据,用以检查自己的采集规则数据项、发布规则的参数设置等是否正确、完整。

5、返回信息:

此栏显示ET向发布网站发送数据后发布网站的反馈,包括文章检查反馈和文章发布反馈;

通过查看此栏,我们可以清晰的了解当采集过程出现问题时的大部分原因。

一些接口在返回错误信息时,信息可能是HTML代码,不熟悉HTML代码的用户阅读比较吃力,点击WEB浏览按钮,可以在操作系统默认浏览器中方便的查看它们。

采集下载缩略图的方法

在ET中,我们可以从列表网页采集缩略图,也可以从文章网页采集缩略图。

一、从列表中采集缩略图

1、缩略图通常应用在文章列表页面,用于展示文章配图,我们可以在列表分析中,使用【缩略图标记】来采集它

使用标记后

2、然后在【缩略图数据项】中设置它的相关参数,注意,在ET2中,【缩略图数据项】中采集规则留空时,数据项的取值就是列表分析中【缩略图标记】的采集结果。在ET3中,默认是通过指定模式,选取数据项【列表缩略图】(即列表分析中【缩略图标记】的采集结果)作为缩略图的取值。

因为我们采集到缩略图通常是图片地址,所以,文件选项里勾选【作为文件网址】。

3、最后,设置文件下载。

4、最后,一定要在发布配置的发布项窗口中使用数据项标记给网站的缩略图参数赋值才会生效。

(上图是wordpres的图示,litpic是wordpress的缩略图参数名,其他网站缩略图参数名见接口说明书)

5、ET3支持多层列表,在多层列表中使用【缩略图标记】,将以最后一次使用【缩略图标记】的采集结果作为【缩略图数据项】的值。

二、从文章页面采集缩略图

1、列表分析不使用【缩略图标记】。

2、【缩略图数据项】要设置采集规则。

3、在采集页处,将【缩略图数据项】与采集的目标网页关联。

4、其他与从列表采集相同。

常见问题

1、什么是UserAgent?

是指网站网页通过userAgent来判断当前用户使用的是什么浏览器,并根据这个浏览器能够支持的情况提供相应的功能。浏览器在访问一个网页时通常会传送一个识别字串告诉网站它是什么浏览器软件。很多统计网站使用它来了解有多少用户使用什么版本的浏览器。

2、UserAgent在ET中有什么用?

某些网站会对来访浏览器进行限制,诸如防止搜索引擎爬虫、广告群发、机器人软件、或者其他非法访问等各种原因,导致采集失败,此时,需要对UserAgent进行设置,可以用识别字串冒充其他浏览器,例如:

QQ的USERAGENT:

Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)

FIREFOX3的USERAGENT:

Mozilla/5.0 (Windows; U; Windows NT 5.2; zh-CN; rv:1.9) Gecko/2008052906 Firefox/3.0

其他常用USERAGENT:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.590; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)

3、设置Useragent

在ET中设置UserAgent请参见 使用篇-操作第一步-设置UserAgent ;

五、DEDE发布提示“首页文件路径错误,无法创建文件”的解决办法

方法一、修改您的首页生成HTML路径,注意相对路径的区别;

方法二、 改接口,找到dede接口文件etpost.php中以下代码:

if($cfg_makeindex=='是'){

$pv = new PartView();

$row = $pv->dsql->GetOne("Select * From dede_homepageset");

$templet = str_replace("{style}",$cfg_df_style,$row['templet']);

//$homeFile = dirname(__FILE__)."/".$row['position'];

$homeFile = dirname(__FILE__)."/../".$row['position'];

$homeFile = str_replace("\\","/",$homeFile);

$homeFile = str_replace("//","/",$homeFile);

$fp = fopen($homeFile,"w") or die("首页文件路径错误,无法创建文件");

fclose($fp);

$pv->SetTemplet($cfg_basedir.$cfg_templets_dir."/".$templet);

$pv->SaveToHtml($homeFile);

$pv->Close();

}

$arc->Close();

return $reurl;

把代码

$homeFile = dirname(__FILE__)."/../".$row['position'];

替换为

$homeFile = dirname(__FILE__)."/".$row['position'];

即可。

更新日志

v3.7版本

1、新增内容:获取配置里添加了主列表网址的 HTTP Header 请求头设置栏。

2、优化内容:获取配置中的主列表网址、下级网址、多层列表网址以及获取页网址都支持新的 POST 提交格式,能更好地支持 POST 表单参数和 JSON 参数;原来的 “POST 优先模式” 不建议使用,新的 POST 格式用法可查看帮助内容。

3、优化内容:有道翻译 API 现在恢复使用,因为该 API 不再免费,所以请先去有道翻译平台注册。

4、优化内容:改进了获取页的兼容性,大家可尝试用它来调用第三方网站的 API。

大家还下载了