1.修改ArticleMapper.xml
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN"
"http://mybatis.org/dtd/mybatis-3-mapper.dtd">
<mapper namespace="com.searchengine.dao.ArticleDao">
<!-- 取得内容列表 -->
<select id="getContentList" resultType="contentObject" >
SELECT * FROM article
</select>
<!-- 取得需要更新的内容列表 -->
<select id="getUpdateContentList" resultType="contentObject" >
SELECT * FROM article where flag=1
</select>
<insert id="insertArticle" parameterType="contentObject" useGeneratedKeys="true" keyProperty="id">
insert article(title,content,createDate,flag) value (#{title},#{content},#{createDate},1)
</insert>
<!-- 更新标识位 -->
<update id="updateArticleFlag" >
update article set flag = 0 where flag=1
</update>
</mapper>
2.修改ArticleDao.java
public interface ArticleDao {
/**
* Function:取得所有文章内容
* @author JLC
* @return
*/
public List<ContentObject> getContentList();
/**
* Function:取得要更新的文章内容
* @author JLC
* @return
*/
public List<ContentObject> getUpdateContentList();
/**
* Function:新增内容
* @author JLC
* @param article
*/
public void insertArticle(ContentObject article);
/**
* Function:更新标识位
* @author JLC
*/
public void updateArticleFlag();
}
3.修改ContentObject.java
public class ContentObject extends BaseObject{
/**
*
*/
private static final long serialVersionUID = 9165845707595907325L;
private Long id;
/**
* 状态 1已更新 0未更新
*/
private int flag=1;
/**
* 内容标题
*/
private String title;
/**
* 内容详细信息
*/
private String content;
/**
* 内容创建时间
*/
private Date createDate = new Date();
public String getTitle() {
return title;
}
public void setTitle(String title) {
this.title = title;
}
public String getContent() {
return content;
}
public void setContent(String content) {
this.content = content;
}
public Date getCreateDate() {
return createDate;
}
public void setCreateDate(Date createDate) {
this.createDate = createDate;
}
public Long getId() {
return id;
}
public void setId(Long id) {
this.id = id;
}
public int getFlag() {
return flag;
}
public void setFlag(int flag) {
this.flag = flag;
}
@Override
public String toString() {
return ReflectionToStringBuilder.toString(this);
}
}
4.修改PackContentObject.java
/**
* 转换内容对象为Document对象
* @param ct
* @return
*/
public static Document convertContentToDoc(ContentObject ct){
Document doc = new Document();
//Field.Store.YES 表示存储内容
doc.add(new LongField("id", ct.getId(), Field.Store.YES));
doc.add(new StringField("title", ct.getTitle(), Field.Store.YES));
doc.add(new TextField("content", ct.getContent(),Field.Store.YES));
doc.add(new LongField("createDate",new Date().getTime(),Field.Store.YES));
return doc;
}
5.修改ContentService.java
public interface ContentService {
/**
* Function:取得内容列表
* @author JLC
* @return
* @throws Exception
*/
public List<ContentObject> getContentList() throws Exception;
/**
* Function:保存文章内容
* @author JLC
* @param article
* @throws Exception
*/
public void saveArticle(ContentObject article)throws Exception;
}
6.修改ContentServiceImpl.java
public class ContentServiceImpl implements ContentService {
@Autowired
private ArticleDao articleDao;
public void setArticleDao(ArticleDao articleDao) {
this.articleDao = articleDao;
}
public List<ContentObject> getContentList() throws Exception {
return articleDao.getContentList();
}
public void saveArticle(ContentObject article) throws Exception {
if(article!=null)
articleDao.insertArticle(article);
}
}
7.修改SearchAction.java
@Action(
value = "add",
results = { @Result(name = SUCCESS, type="redirect", location = "/index.jsp") }
)
public String addContent() throws Exception {
try{
contentService.saveArticle(contentObj);
}catch(Exception e){
e.printStackTrace();
}
return SUCCESS;
}
8.修改Job.java
public class Job {
@Autowired
private ArticleDao articleDao;
/*
一个cron表达式有至少6个(也可能7个)有空格分隔的时间元素。
按顺序依次为
秒(0~59)
分钟(0~59)
小时(0~23)
天(月)(0~31,但是你需要考虑你月的天数)
月(0~11)
天(星期)(1~7 1=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT)
7.年份(1970-2099)
其中每个元素可以是一个值(如6),一个连续区间(9-12),一个间隔时间(8-18/4)(/表示每隔4小时),
一个列表(1,3,5),通配符。由于"月份中的日期"和"星期中的日期"这两个元素互斥的,必须要对其中一个设置?.
0 0 10,14,16 * * ? 每天上午10点,下午2点,4点
0 0/30 9-17 * * ? 朝九晚五工作时间内每半小时
0 0 12 ? * WED 表示每个星期三中午12点
"0 0 12 * * ?" 每天中午12点触发
"0 15 10 ? * *" 每天上午10:15触发
"0 15 10 * * ?" 每天上午10:15触发
"0 15 10 * * ? *" 每天上午10:15触发
"0 15 10 * * ? 2005" 2005年的每天上午10:15触发
"0 * 14 * * ?" 在每天下午2点到下午2:59期间的每1分钟触发
"0 0/5 14 * * ?" 在每天下午2点到下午2:55期间的每5分钟触发
"0 0/5 14,18 * * ?" 在每天下午2点到2:55期间和下午6点到6:55期间的每5分钟触发
"0 0-5 14 * * ?" 在每天下午2点到下午2:05期间的每1分钟触发
"0 10,44 14 ? 3 WED" 每年三月的星期三的下午2:10和2:44触发
"0 15 10 ? * MON-FRI" 周一至周五的上午10:15触发
"0 15 10 15 * ?" 每月15日上午10:15触发
"0 15 10 L * ?" 每月最后一日的上午10:15触发
"0 15 10 ? * 6L" 每月的最后一个星期五上午10:15触发
"0 15 10 ? * 6L 2002-2005" 2002年至2005年的每月的最后一个星期五上午10:15触发
"0 15 10 ? * 6#3" 每月的第三个星期五上午10:15触发
有些子表达式能包含一些范围或列表
例如:子表达式(天(星期) )可以为 “MON-FRI”,“MON,WED,FRI”,“MON-WED,SAT”
“*”字符代表所有可能的值
因此,“*”在子表达式(月 )里表示每个月的含义,“*”在子表达式(天(星期) )表示星期的每一天
“/”字符用来指定数值的增量
例如:在子表达式(分钟)里的“0/15”表示从第0分钟开始,每15分钟
在子表达式(分钟)里的“3/20”表示从第3分钟开始,每20分钟(它和“3,23,43”)的含义一样
“?”字符仅被用于天(月)和天(星期)两个子表达式,表示不指定值
当2个子表达式其中之一被指定了值以后,为了避免冲突,需要将另一个子表达式的值设为“?”
“L” 字符仅被用于天(月)和天(星期)两个子表达式,它是单词“last”的缩写
但是它在两个子表达式里的含义是不同的。
在天(月)子表达式中,“L”表示一个月的最后一天
在天(星期)自表达式中,“L”表示一个星期的最后一天,也就是SAT
如果在“L”前有具体的内容,它就具有其他的含义了
例如:“6L”表示这个月的倒数第6天,“FRIL”表示这个月的最一个星期五
注意:在使用“L”参数时,不要指定列表或范围,因为这会导致问题
字段 允许值 允许的特殊字符
秒 0-59 , - * /
分 0-59 , - * /
小时 0-23 , - * /
日期 1-31 , - * ? / L W C
月份 1-12 或者 JAN-DEC , - * /
星期 1-7 或者 SUN-SAT , - * ? / L C #
年(可选) 留空, 1970-2099 , - * /
*/
/**
* Function:更新索引内容
* @author JLC
*/
//@Scheduled(fixedDelay = 5000) 5秒更新一次
@Scheduled(cron = "0 0/1 * * * ?") //一分钟更新一次
public void doUpdateIndexData(){
SearchEngineCore se = SearchObject.getInstance().getLuceneContext("search");
//List<Document> docList = getWebContentDocuments();
List<Document> docList = getDBContentDocuments();
for(Document doc:docList){
try{
se.getTw().updateDocument(new Term("id",doc.get("id")), doc);
se.getTw().addDocument(doc);
se.commitIndex();
se.refreshData();
se.getNRTManager().maybeRefresh();
articleDao.updateArticleFlag();
}catch(Exception e){
e.printStackTrace();
}
}
System.out.println("定时抓取完毕");
}
/**
* Function:抓取网页内容
* @author JLC
* @return
*/
public List<Document> getWebContentDocuments(){
List<Document> docs = new ArrayList<Document>();
WebContent wc = new WebContent();
Document doc1 = PackContentObject.convertContentToDoc(wc.getContentFromSite("http://news.163.com"));
docs.add(doc1);
Document doc2 = PackContentObject.convertContentToDoc(wc.getContentFromSite("http://news.sohu.com/"));
docs.add(doc2);
return docs;
}
/**
* Function:抓取数据库内容
* @author JLC
* @return
*/
public List<Document> getDBContentDocuments(){
List<Document> docs = new ArrayList<Document>();
//内容列表
List<ContentObject> contentList = articleDao.getUpdateContentList();
for(ContentObject cobj:contentList){
Document doc = PackContentObject.convertContentToDoc(cobj);
docs.add(doc);
}
return docs;
}
public void setArticleDao(ArticleDao articleDao) {
this.articleDao = articleDao;
}
}
9.修改article表
create database if not exists `test`;
USE `test`;
DROP TABLE IF EXISTS `article`;
CREATE TABLE `article` (
`id` bigint(20) NOT NULL auto_increment,
`title` varchar(50) default NULL,
`content` text,
`createdate` datetime default NULL,
`flag` int(11) default NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
10.启动应用进入 http://localhost:8080/searchengine/addcontent.jsp 添加内容到数据库 一分钟后会更新到lucene索引库中,搜索结果如下
分享到:
相关推荐
ajax实现无刷新对数据库的添加、删除、修改等操作,测试通过。
水木清华社区招聘信息抓取并存入数据库,每一小时自动更新一次。 水木的招聘信息更新频繁,但是访问速度实在是很慢,于是就想不如把数据抓下来。 后面可能添加别的招聘网站的数据。 使用了Jsoup抓取...
主要介绍了Linux 下使用shell脚本定时维护数据库,本文通过案例分析给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
springboot小说阅读网站,多线程抓取小说数据(单本或者批量),持久化到MySQL数据库,能定时跟源站数据同步=小说定时更新。通过jsoup采集数据到mysql数据,redis作为缓存框架,减轻服务器压力。部署在linux,网站UI套...
将中国天气网近六天(因为有些城市提供的接口只有五天数据,所以我暂时取5天,程序里...程序的缺点在于,暂时还没写注释,面向对象还未体现,没有实现每天定时抓取的性能,需要人工每天手动运行程序抓取数据。。。。。
基于Python和Echarts职位画像系统,使用Scrapy抓取职位招聘数据,使用Django+echarts完成数据可视化。 环境安装配置 建议直接安装anconda,然后git clone后进入项目目录,执行pip install -r requirements.txt ...
Mongodb:Mongodb数据库存放抓取并且有效的代理,如需扩展,结合对应数据库api; Schedule:计划任务,爬虫的启动,添加代理,测试代理,定时检测代理; Api:代理池的外部接口,利用flask简单实现。
然后我们把云函数上传还有数据库上传 右键uniCloud里面的cliudfunctions目录选择上传所有云函数 右键uniCloud里面的database目录选择上传 然后我们配置订阅通知定时任务,首先我们到uniCloud界面 然后点击云函数然后...
2、创建数据库,如 news,执行database.sql创建表,更改配置文件Config/mysql.toml 3、编辑文件 Html/js/blog/globalConfig.js const ServerIp = 'http://{your_domain}:9090' // 替换成服务器域名 4、部署定时任务/...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
自动同步NC基础数据档案表到本地mysql数据库,开箱即用,在现有项目中已正常使用中。 基础数据档案表有: 物料 定时读库抓取bd_material表最新(增、改)数据,并批处理更新系统中基础表数据 物料分类 定时读库抓取...
springboot【小说阅读网站】,多线程抓取小说数据(单本或者批量),持久化到MySQL数据库,能定时跟源站数据同步=小说定时更新。通过jsoup采集数据到mysql数据,redis作为缓存框架,减轻服务器压力。部署在linux,网站...
使用jsoup抓取一个页面,把...最近我试了一下用 JSOUP 抓取虾米音乐网站的虾米歌单中的歌曲歌词,把抓取的内容存储到mysql数据库中。用过都知道JSOUP 是支持css select (CSS选择器),后续可以改进为定时任务处理。
爬取太频繁会被知乎返回429(too many request),应对的策略是挂代理,一种方法是使用专业的云代理服务(有点贵),另一种是[自建代理池],定时爬取互联网上免费代理ip。最后数据使用sql server存储, 最后对数据进行...
下文为各位介绍一个PHP定时任务通过CURL图片的抓取例子,希望例子对大家帮助,基本思路就是通过一个URL连接,将所有图片的地址抓取下来,然后循环打开图片,利用文件操作函数下载下来,保存到本地,并且把图片的alt属性也...
随着移动互联网的快速发展和 5G 技术的投入建设,信息在社会发展中起着至关重 ...数据库,以“百度新闻”为爬取对象,实现定时自动抓取指定范围的网页信息并存储到 后台数据库中,并使用 hashlib 模块过滤重复数据。
这个Java项目是一个网络爬虫,也称为网络蜘蛛,旨在自动地从互联网上抓取网页内容并进行处理。该网络爬虫具有以下主要功能: 网页抓取:通过指定的起始URL,网络爬虫会递归地抓取网页内容,包括HTML、CSS、...
以前写的Python抓取股票资料的项目,因为效率太低后来没有用了,用python跑完一圈大概要几十分钟,没法使用,但是当python的demo还是不错的,这个demo用到的技能包括数据库操作,定时任务,用BeautifulSoup爬虫,...
4. **变化识别**:通过对比前后两次抓取的内容差异,识别出页面内容的更新。 5. **通知机制**:在检测到内容变化时,通过邮件、短信或其他即时通讯工具通知用户。 6. **用户界面**:提供友好的用户界面供用户设定...
cydia-deb Python抓取cydia威锋源和178源的deb插件,并提供web访问端。...代码中没有定时抓取的设计,我也不想加了。 这样弄的也心烦了,都好几个月没搞了。想着就这样把,今天是心血来潮把代码上传到GitHub了。