设置好采集项目后我们接下来的工作就是开始采集了。
首先解释一下采集功能的运行情况,内容采集,顾名思义,就是从别的网站把信息采集添加到自己的网站上,网人系统采集功能运行概况基本如下:
您点击采集的连接后系统自动运行,首先获得待采集列表,然后打开第一个列表页获取源代码,通过分析取得此列表页的所有内容页地址,再打开第一个内容页面,通过分析源代码来取得需要的数据存入数据库,其实其它系统的采集功能也和这大同小异。
好了,费话不多说,下面开始采集体验吧。
一,启动采集,网人采集功能有以下三种采集触发方式
1,打开到采集项目列表页,选择你要采集的项目点击其后面的操作列的采集连接,此时系统自动开始采集;
2,如下图,如果您想同时采集多个项目,可以先选中您所有要采集的项目前的复选框,然后点击下面右边的批量采集。其中线程框中可以填写1-9的数字,如填2,将同时开启两个线程同时采集,这样将会大大提高采集效率,(不过这也得看你机器来,一般也只能开2-3个,像我机器 945主版,p4 3.0 1GDDRI 。。。同时开5个线程也只能刚刚够用,大家就按这个比例自己调整吧!:) ),后面的防打扰复选框选中后采集将在窗口中隐蔽的地方开启运行,这样你就可以边采集边同时做其它事了!! (这功能其它系统可是没有的哦!!)
3,定时采集,看字面也知道就是说设定一个固定的时间来采集内容,当然,这得在项目添加时选中了定时采集的复选框的项目才会在到了你设定的时间之后自动开始采集。 打开常规设置面版,里面有一个定时采集功能,点击后出现以下内容:
 当您按以上要求设定好定时采集时间后然后点击启动定时采集,这样,系统将在到了您设定的时间后自动启动采集功能(当然,现在也有一个问题,就是如果你启动了定时采集则不能关闭此管理界面的窗口了,如果关了则定时采集功能也将关闭,不过如果是自己有服务器的服务大可以在服务器上开一个IE窗口来专门运行此功能^.^)。
二,审核入库
当您的采集运行都完成后,您就可以对您所采集的内容进行入库操作了,当然,还有一种设置可以让所采集的内容自动入库,那就是在采集项目设置时的第一步中选中立即入库复选框。
点击采集管理下方的数据审理,然后选中您要入库的内容点击批量入库就OK。
三,历史记录
在数据审理右边有一个历史功能,点击进去后你所看到的都是您所采集过的数据,注意此数据一般不要清除,因为此功能的作用就是防止您重复采集,不过如果您对内容重复不在意的话,可以删除,当然你会在想那如果内容越来越多,数据库越来越大,那不会影响系统访问速度,这个您尽可放心,网人采集系统使用了和主系统分开的数据库设计,这样就保证了您不论采集了多少数据,有多少历史记录,也不会丝毫影响您的系统访问速度。
当然,如果您确实要删除,也可以在某个网站栏目内容采集完后将此栏目的内容清空一次,因为毕意不同一个网站的栏目重复的很少,除非被你采集的网站也是从人家网站上直接“考”来的。 |