火车头采集器最新版是一款功能强大、实用性强、并且可以用来批量采集网页的数据采集器。支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。主要以数据抓取、处理、分析,挖掘为核心功能。
软件特色
1、分布式高速采集
任务分配至多个客户端,同时运行采集,效率倍增。
2、多识别系统
配备正文识别、中文分词识别、任意编码识别等多种识别系统,智能识别操作更轻松。
3、可选验证方式
可选择是否使用加密狗,随时保障数据安全。
4、全自动运行
无需人工值守操作,任务完成后自动关机。
5、替换功能
同义,近义词替换、参数替换,伪原创必备技能。
6、任意文件格式下载
图片、压缩文件、视频等任意格式的文件都能轻松下载。
7、采集监控系统
实时监控采集,确保数据的准确性。
8、支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
9、无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
10、支持扩展
支持接口和插件扩展,满足各种采发需求。
使用教程
火车头采集器是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序,软件包中包含有详尽的“火车采集器白皮书”以及使用教程,为了方便介绍,小编这里以采集文章标题为例说明其基本用法:
1、采集网址规则,点击添加
2、选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成
3、采集内容规则
双击【标题】,弹出标题编辑框
4、提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串
5、添加【html标签排除】【内容添加前后缀】,点击确定就可。
6、发布内容设置。启用方式二来保存采集结果。
文件名格式可以根据自己喜好,任意选择。
文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。
7、设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。
软件亮点
1、网址采集
火车采集器能通过网址采集标准的人物设定,迅速采集到所需要的网址信息。可手工录入、批量添加或者直接从文字导进网址,并且能够筛选去除重复的网址信息。
支持多级别网页页面网址的采集,多级别网址采集可以用网页页面剖析全自动获得详细地址、手动式填好标准两种形式。解决多级别分页查询中具体内容不一样,但详细地址同样页面网址采集,火车采集器设置权限GET,POST和ASPXPOST三种HTTP请求方法。
火车采集器支持网址采集检测,能够认证操控的准确性,防止实际操作不正确造成采集结论有误
2、具体内容采集
火车采集器能够通过对比网页源码,设置具体内容采集标准,精确采集到网站中较为散乱遍布内容数据,并支持多级别多张等繁杂网页页面里面的内容采集。
根据界定标识,能够把数据进行筛选采集,例如将文章文章的标题与文章正文分离采集。火车采集器配备了三种具体内容提取方法:前后左右提取、正则匹配获取、文章正文获取。选择性强,用户可依照应用实际需求挑选。
具体内容采集一样支持测试功能,可以选用一个典型性网页页面来测试项目采集的准确性,为了立即更改和进行下一步数据解决。
3、数据解决
针对采集过的信息数据,火车采集器能够对它进行一系列智能解决,使采集过的数据更符合我们自己的应用规范。主要包含:
1)标识过虑:滤掉中科数控没有用的空格符,连接等标识;2)更换:支持近义、词性转换;
3)数据变换:支持中译英、简转繁、转换成拼音字母等;
4)全自动引言、全自动中文分词:支持一键生成引言和全自动中文分词作用;
5)免费下载选择项:火车采集器支持随意格式文档检测免费下载,并能将相对性详细地址智能化补齐为绝对地址。
4、数据公布
火车采集器将数据采集下来之后默认设置将数据储存在当地数据库(sqlite、mysql、sqlserver),用户可根据自己的喜好挑选对数据的后期实际操作并完成数据公布,支持立即查询数据、在线发布数据和入数据库,并支持客户进行公布接口应用设计和开发。
依据数据库种类用专业软件打开可以立即查询数据,配备一个公布控制模块就可以将数据在线发布到网址,能设自动登录网址,获得频道目录等;假如记到客户自已的数据库文件,客户仅需写几个SQL句子,程序流程便会依照客户的SQL句子导进数据;储存为本地文件时支持当地SQL或文本文档(word、excel、html,txt)文件格式。
5、多个任务线程同步运作
火车采集器能选与此同时运作好几个每日任务,支持不一样网站或同一网站下不一样栏目的具体内容与此同时采集,可以有目的的调度任务。单独每日任务在采集内容与公布具体内容时均可以用线程同步运作,提高使用效率。
6、HTTP二级ip代理
火车采集器能通过二级ip代理的功效完成IP的拆换,避免因为IP被限制访问而造成的采集无法运行,客户先要获得一些代理商IP,再将代理商IP导进采集器中进行设定就可以。
7、方案资源管理器
火车采集器支持方案任务管理器,可以按时自动的开展采集公布,完成自动升级的功效,可以对添加任务计划内任务设定其实施的次数和运行的时间也,实行工作频率能选每星期、每日、每间距,也可根据客户需求自定corn关系式实行。
8、每日任务运作日志管理方法
火车采集器配备了采集视频监控系统,每日任务运作管理工具将采集监控模块形成记录信息拼装成日志内容,假如启动了自启动作用或者需要对程序执行情况实现监管,可以看一下每日任务运作日志中某一日期的时间内的运行状况,做具体剖析。
能够详细了解到任务取得成功总数、不成功总数,反复总数和用时等数据。
9、软件拓展
火车采集器支持PHP和C#软件拓展,能够帮助大家对采集的数据进行调整解决,进行客户更深层次的要求,很大的拓展了采集装置的作用。用户可依照插件开发指南自主开发需要软件,也可以用火车采集器官方网研发的一些软件网络资源。
火车采集器中配备了插件管理器,可以对软件目录进行监管和判断软件方式,支持软件检测。
更新日志
v10.21版本1.新增:ftp支持七牛云上传
2.新增:标签过滤新增内容日期过滤
3.新增:文件下载中保存目录和保存格式增加“[从X开始自增ID]”
4.新增:点击运行管理列表“状态”列可按任务运行状态排序,便于排查任务状态
5.提升:mysql支持8.0版本
6.修复:批量网址补0预览无效问题
7.修复:插件管理器文件下载插件模板增加操作方法
8.修复:同url文件再次下载时没有入库,导致发布缺少文件问题
9.修复:设置http请求头refer时文件探测下载生效,正式下载无效问题
10.修复:web发布模块登录验证码显示不全问题
11.修复:单次替换和批量替换中的“忽略大小写”设置无效问题
12.修复:勾选数据管理“已采”时,更改“已发”为勾选问题