`
chuan9966
  • 浏览: 46420 次
文章分类
社区版块
存档分类
最新评论

2013-05-14期-Spring定时加入索引内容

 
阅读更多

applicationContext-jobs.xml 定时器配置

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"   
   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
   xmlns:task="http://www.springframework.org/schema/task"     
    xsi:schemaLocation="http://www.springframework.org/schema/beans 
    http://www.springframework.org/schema/beans/spring-beans.xsd         
     http://www.springframework.org/schema/task 
     http://www.springframework.org/schema/task/spring-task-3.2.xsd" 
     default-lazy-init="true">  

   <!-- 定时器配置 
    task:executor/@pool-size:可以指定执行线程池的初始大小、最大大小 
    task:executor/@queue-capacity:等待执行的任务队列的容量 
    task:executor/@rejection-policy:当等待队已满时的策略,分为丢弃、由任务执行器直接运行等方式 
   -->
    <task:scheduler id="scheduler" pool-size="10" />  
    <task:executor id="executor" keep-alive="3600" pool-size="100-200" 
    queue-capacity="500" rejection-policy="CALLER_RUNS" /> 
    <task:annotation-driven executor="executor" scheduler="scheduler" />
</beans>

创建Job.java,(注意:@Component 这个注解一定要加上,不然定时器不会执行)

package com.searchengine.job;

import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.document.Document;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;

import com.searchengine.core.SearchEngineCore;
import com.searchengine.core.SearchObject;
import com.searchengine.util.PackContentObject;
import com.searchengine.util.WebContent;
@Component
public class Job {


    /*
    一个cron表达式有至少6个(也可能7个)有空格分隔的时间元素。

    按顺序依次为
    秒(0~59)
    分钟(0~59)

    小时(0~23)

    天(月)(0~31,但是你需要考虑你月的天数)

    月(0~11)

    天(星期)(1~7 1=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT)

    7.年份(1970-2099)

    其中每个元素可以是一个值(如6),一个连续区间(9-12),一个间隔时间(8-18/4)(/表示每隔4小时),
    一个列表(1,3,5),通配符。由于"月份中的日期"和"星期中的日期"这两个元素互斥的,必须要对其中一个设置?.

    0 0 10,14,16 * * ? 每天上午10点,下午2点,4点
    0 0/30 9-17 * * ?   朝九晚五工作时间内每半小时
    0 0 12 ? * WED 表示每个星期三中午12点 
    "0 0 12 * * ?" 每天中午12点触发 
    "0 15 10 ? * *" 每天上午10:15触发 
    "0 15 10 * * ?" 每天上午10:15触发 
    "0 15 10 * * ? *" 每天上午10:15触发 
    "0 15 10 * * ? 2005" 2005年的每天上午10:15触发 
    "0 * 14 * * ?" 在每天下午2点到下午2:59期间的每1分钟触发 
    "0 0/5 14 * * ?" 在每天下午2点到下午2:55期间的每5分钟触发 
    "0 0/5 14,18 * * ?" 在每天下午2点到2:55期间和下午6点到6:55期间的每5分钟触发 
    "0 0-5 14 * * ?" 在每天下午2点到下午2:05期间的每1分钟触发 
    "0 10,44 14 ? 3 WED" 每年三月的星期三的下午2:10和2:44触发 
    "0 15 10 ? * MON-FRI" 周一至周五的上午10:15触发 
    "0 15 10 15 * ?" 每月15日上午10:15触发 
    "0 15 10 L * ?" 每月最后一日的上午10:15触发 
    "0 15 10 ? * 6L" 每月的最后一个星期五上午10:15触发 
    "0 15 10 ? * 6L 2002-2005" 2002年至2005年的每月的最后一个星期五上午10:15触发 
    "0 15 10 ? * 6#3" 每月的第三个星期五上午10:15触发

    有些子表达式能包含一些范围或列表

    例如:子表达式(天(星期) )可以为 “MON-FRI”,“MON,WED,FRI”,“MON-WED,SAT”

    “*”字符代表所有可能的值

    因此,“*”在子表达式(月 )里表示每个月的含义,“*”在子表达式(天(星期) )表示星期的每一天



    “/”字符用来指定数值的增量

    例如:在子表达式(分钟)里的“0/15”表示从第0分钟开始,每15分钟

             在子表达式(分钟)里的“3/20”表示从第3分钟开始,每20分钟(它和“3,23,43”)的含义一样


    “?”字符仅被用于天(月)和天(星期)两个子表达式,表示不指定值

    当2个子表达式其中之一被指定了值以后,为了避免冲突,需要将另一个子表达式的值设为“?”



    “L” 字符仅被用于天(月)和天(星期)两个子表达式,它是单词“last”的缩写

    但是它在两个子表达式里的含义是不同的。

    在天(月)子表达式中,“L”表示一个月的最后一天

    在天(星期)自表达式中,“L”表示一个星期的最后一天,也就是SAT

    如果在“L”前有具体的内容,它就具有其他的含义了

    例如:“6L”表示这个月的倒数第6天,“FRIL”表示这个月的最一个星期五

    注意:在使用“L”参数时,不要指定列表或范围,因为这会导致问题





    字段      允许值     允许的特殊字符
    秒       0-59        , - * /
    分       0-59        , - * /
    小时      0-23        , - * /
    日期      1-31        , - * ? / L W C
    月份      1-12 或者 JAN-DEC     , - * /
    星期      1-7 或者 SUN-SAT      , - * ? / L C #
    年(可选)       留空, 1970-2099       , - * /
    */


    /**
     *  Function:更新索引内容
     *  @author JLC
     */
    //@Scheduled(fixedDelay = 5000)   5秒更新一次
    @Scheduled(cron = "0 0/1 * * * ?")  //一分钟更新一次
    public void doUpdateIndexData(){
        SearchEngineCore  se = SearchObject.getInstance().getLuceneContext("search");
         List<Document> docList = getWebContentDocuments();
         for(Document doc:docList){
             try{
                 se.getTw().addDocument(doc);
                 se.commitIndex();
                 se.refreshData();
                 se.getNRTManager().maybeRefresh();
             }catch(Exception e){
                 e.printStackTrace();
             }
         }
         System.out.println("定时抓取完毕");
    }

    /**
     *  Function:抓取网页内容
     *  @author JLC
     *  @return
     */
    public static List<Document>  getWebContentDocuments(){
        List<Document> docs = new ArrayList<Document>();
        WebContent wc = new WebContent();
        Document doc1 = PackContentObject.convertContentToDoc(wc.getContentFromSite("http://news.163.com"));
        docs.add(doc1);
        Document doc2 = PackContentObject.convertContentToDoc(wc.getContentFromSite("http://news.sohu.com/"));
        docs.add(doc2);
        return docs;
    }
}

此次添加索引内容会引起内容重复,下一篇将结合MySql数据库添加,更新索引

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics