在线体验 | 设为首页 | 加入收藏
分类信息 软著登字第 085270 号 登记号 2007SR19275
 首页 | 新闻 | 产品 | 购买 | 下载 | 模板 | 帮助 | 论坛  
当前位置:网人科技 >> 帮助中心 >> 功能说明 >> 正文
系统采集-项目设置
作者:佚名 来源:本站原创 点击数: 更新时间:2007年04月16日 

一、添加项目

(1)第一步

       1. 项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。

       2.所属栏目:采集的文章或广告属于哪个栏目。          

       3.所属地区:采集的内容属于哪个地区,文章可不填。

       4.目标页URL:待采集列表网页的网址。

       5.目标文档编码:采集目录网页所用的编码。

       6.是否列表分页采集: 

            书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。
         (1)批量生成
    如有些列表是这种形式:
    第一页http://www.it.com.cn/news/cyxw/yejie/index.html
    第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html
    第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html

    那么可以这设置:{$ID}是必须的
            首先填目标页URL为:http://www.it.com.cn/news/cyxw/yejie/index.html
    然后批量生成的那里请填:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html
    生成范围:2--3
    结果程序就会采集以下列表页的内容:
    http://www.it.com.cn/news/cyxw/yejie/index.html
    http://www.it.com.cn/news/cyxw/yejie/index_2.html
    http://www.it.com.cn/news/cyxw/yejie/index_3.html
    如图:
点此在新窗口浏览图片

    (2)手动添加

     输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。

      8、文章设置: 
            立即入库:选中的话,自动审核采集数据并发布到您的站点上。
            保存图片:选中的话,如果采集的内容正文中有图片,图片保存到本地。
            图片水印:选中的话,下载图片自动为图片添加水印。
            倒序采集:选中的话,等采集的内容时从最尾页最下面一条开始采集。
            定时采集:在定时采集帮助中详解。

      9.标签过滤:

            这里是常见的要过滤的html标签。
            ifrAme:如--<IFRAME SRC="广告地址">,比较常见的广告代码。
            Object:如--<Object 代码>代码</Object>,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。
            S cript:如--<s cript LANGUAGE="Javas cript1.1" SRC="广告地址"></s cript>,常见的广告代码。
            Font:如--<font style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、颜色等属性。
            A:如--<a href="http://pic.scuta.net">查看更多图片</a>,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。
            Html:将去掉内容中所有HTML代码,选中此项将降底内容的可看性。

(2)第二步

       1.列表开始/结束标记:

       平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的内容,有的这里没有设置好结果采集到其它内容去了。
               比如这是某一列表页面的主要部分代码:
                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr>
                       <td align="left" valign="top"><br>

                           <a href="News.asp?id=1" target="_blank>新闻标题</a><br>"
                           <a href="News.asp?id=2" target="_blank>新闻标题</a><br>"
                           ....省略
                           <a href="News.asp?id=50" target="_blank>新闻标题</a>                       </td>
                 </tr>
              </table>

     红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。
        2.链接开始/结束标记:
                           <a href="News.asp?id="1" target="_blank>新闻标题</a><br>"
        3.重定链接地址:
           如果待采集列表里的内容页地址不为完整的网址,如:
           <a href="News.asp?id=1" target="_blank">新闻标题</a><br>
           则请选择“重新链接位置”
               如:javas cript:Openwin("8785") 或 /show.asp?id=8785
               正确设置:http://www.wrmps.com/{$Url}.htmlhttp://www.wrmps.com/{$Url}
           如果待采集列表里的内容页地址为完整的网址,如:
           <a href="Http://www.wrmps.com/News.asp?id=1" target="_blank">新闻标题</a><br>
           则请选择“自动外理”

(3)第三步

        1.正文设置

    标题、正文、作者、来源、关键字... ... 等的设置同上,不想重复,这里就不说了。

        2.采样测试

    正确采样后完成添加操作。 

 

当然,网人采集功能还有一项比较重要的功能,数据过滤 ,使用此功能,可以过滤如SINA、SOHU等这些网站内容中的广告,具体设置也很简单,其它方法和上面说过的差不多,就不多说了。


关于我们 | 工作机会 | 联系我们 | 法律条款 | 许可协议 | 付款方式 | 友情连接 
Copyright © 2004-2008 wangren.Net All Rights Reserved. 湘ICP备06014944号 
网人科技,中国最大的分类信息系统、地方生活门户平台开发商 电话:010-87806973 QQ:309066881