ASP300源码

网站首页 > .NET源码 > 新闻文章 > 风车通用Web采集程序在线版 v1.5.3

风车通用Web采集程序在线版 v1.5.3

  • 更新日期:2008-02-22
  • 语言编码:.NET源码
  • 软件大小:356K
  • 下载用户:免费下载
  • 无官方网站 无演示
  • 最新热门源码

    源码简介

    v1.5.3.41751
    增加:对动态网页地址包含中文参数的编码处理
    改善:修正了.net2.0环境下的安装运行问题
    增加:增加了图片文字水印功能
    增加:在线自动升级更新功能
    改善:修正文件已存在,但大小为0时不重新下载的问题
    增加:运行状态中删除采集历史成功的提示
    改善:当入库接口配置不正确时查看采集结果报错的问题
    改善:修正了内容分页时数据不能入库的问题 2008-2-19
    改善:修正页面中包含重复相同图片的下载问题 2008-2-19
    增加:增加了每个内容项规则的高级过滤设置 2008-2-20
    功能特点:
    ******************************************
    1、采用asp.net开发,运行于IIS下。
    2、可根据入库设置,自动挂接到现有的网站系统,与现有系统实现无缝集成,补充或替换现有系统的采集程序。
    3、采集调度,即计划任务,可为每个采集规则设定时间定时重复采集,多个采集任务可同时运行,到了设定时间采集程序在Web服务器后台自动执行,真正实现了无须人工干预的自动更新。
    4、可自动归类,对采集的信息实现自动分类,当目标分类不存在时可自动创建该分类,也可通过分类映射将目标分类与当前网站内容分类进行合并。无需为每个类别建立一个采集任务。
    5、采集规则设定简单易懂,程序具有2种运行方式,前台运行或后台定时运行。
    6、可实现多级网页深度的采集,比如内容分页、部分信息在另外的页面、小说连载等类型的有主从表关联的信息采集。
    7、独创的断点续采,目标网站有更新,采集程序才进行采集,仅采集更新的部分,效率高。 此功能对采集连载性质的网站特别有用,比如连载小说、连续剧等。
    8、自动下载相关的外部文件到本地服务器或替换为远程路径,比如图片、FLASH、下载文件等,无需再手工上传到服务器。
    9、支持采集模型的定义,可根据需要定义任意要采集的数据项,每个模型还可包含子模型。
    10、自动识别绝大多数采集站的网页编码。比如常见的:GB2312,GBK,UTF-8,windows-1252,iso646-us等。
    11、支持从列表页采集缩略图及其他附加信息。
    12、多线程异步采集,采集效率高,占用服务器资源较低。
                      

    下载地址

    下载地址已转移到新版网站,请点击左上角-首页,在新版网站搜索此套源码的标题进行下载。
    你可能还喜欢