`
wangwei3
  • 浏览: 118101 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
heritrix抓取下来的东西,其实就和下载器下载下来一样。 我们必须用自己的方法去抽取出一些有用的信息 恩,以前一直用htmlparser提取,虽然简便易用。可是维护起来是一个大麻烦而且编写程序的成本很高!等等!!! 现在做这个采用了新的思路,  html——>XML or XHTML(整个HTML转为XML) --> XSLT提取——>最终XML(需要的最终数据的XML) 这个要做的就是转换,工具很多目前我用的是 jtidy,可以很方便简洁的把HTML转为XHTML或者XML,然后在学习一下XSLT来配置模板提取。 这样一来,代码简洁维护起来简便。如果开发一个界面XML提取 ...
heritrix job太多,却想要合并怎么办? 很简单 1.合并seeds文件,把多个job的seed拷到一起 2.合并Scheduler里面的正则 3.合并recover.gz 4.合并mirror里面下载下来的文件 关于recover.gz,可以调用heritrix自带的工具类RecoveryJournal
采用哪个继续抓取会遇到一些小问题, 1.recover.gz在每次启动的时候会删除原有的,然后重建。丢失以前所存储的链接! 2.每次启动的时候,会丢失很多页面,因为heritrix抓取过的页面是不会在抓取,这样的话也不会在解析,比如报价这类页面,那我们就无法更新了! 3.如何启动heritrix的UI 第一个问题只要改一下order.xml 下面几个值这样设置 <string name="recover-path"></string> recover.gz的绝对路径   <boolean name="checkpoint-co ...
抓取的时候死机或者意外停止时很正常的事情 不过遇到这类问题不用担心,heritrix提供了一个方法,就是Based on a recovery 这个就是在原有的基础上继续抓取,可是他又一个缺点 就是每次抓取都是一个新的job统计起来确实很麻烦!! 原理大家也都知道,heirtrix把所有获取的链接都放入recover.gz这个文件,里面存储了不同的格式 "F+ 进入调度器里的URL,还待处理。如果恢复的话,会重新将该URL放入调度器 "Fd " "Fe "从BDB数据库里排放URI,然后用于去抓取 "Ff " 失败了的ur ...
我们常常会遇到一个问题,就是明明别人网站链接这么多,为什么我们抓取到的却这么少? 或者说抓取速度如此蜗牛?下载到的链接都不是我们想要的? 下面我们一点点来解决! 下载到的链接太少  其实是域限制太窄,比如限制在DecidingScope这样的话,如果入口散列在其他的二级域名的话,我们就无法抽取到这个链接,导致我们下载到的东西太少 个人建议用BroadScope 可是如果用了broadscope的话,下载到的东西又太多,因为他没有做任何限制!好多东西都不是我们想要的,比如js,css,jpg等等 我们需要扩展它的接口Extractor或者Scheduler 不过拓展这个接口是个很麻烦的问题,her ...
1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy { private static final Logger logger = Logger .getLogger(ELFHashQueueAssignmentPolicy.class.getName()); private static String DEFAULT_CLASS_KEY = "de ...
如果需要定制,就需要在eclipse下面安装运行。安装步骤: 一、需求文件     heritrix-1.41.3-src.zip     heritrix-1.14.3.zip     在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载 二、准备     把下载的两个文件分别解压到不同的目录中 三、在eclipse中新建一个java appliction     分别把heritrix-1.14.3.zip的解压文件中的conf,webapps,lib文件夹拷到工程中     ...
Global site tag (gtag.js) - Google Analytics