`
fhqibjg
  • 浏览: 53967 次
  • 性别: Icon_minigender_1
  • 来自: 湖南
社区版块
存档分类
最新评论

java web页面数据抓取

    博客分类:
  • java
阅读更多

java抓取数据后,写入本地文件

	public static void main(String[] args){
		 URL url = null;
		 String path = null;
		 String filePath = null;
		try {
			 url =  new URL("http://publish.it168.com/2005/0915/20050915022401.shtml");
			 URLConnection urlCon = url.openConnection();
			 BufferedReader bufReader = new BufferedReader(new InputStreamReader(urlCon.getInputStream(),"gbk"));
			 
			 SimpleDateFormat formatter = new SimpleDateFormat("yyyyMMdd");
			 String dateString = formatter.format(new Date());
			 
			 SimpleDateFormat formatter1 = new SimpleDateFormat("HHmmss");
			 String dateString1 = formatter1.format(new Date());
			 
			 path = "e:/webDataGather/"+dateString;
			 File dirFile =new File(path);
			 if(!(dirFile.exists()))
				 dirFile.mkdirs();
		     
			 filePath = path+"/"+dateString1+".html";
			 BufferedWriter bufWriter = new BufferedWriter(new  FileWriter(filePath));
			 
			 copy(bufReader, bufWriter);
			 
			 bufReader.close();
			 bufWriter.close();
			 Show(filePath,"C:/Program Files/360/360se3/360SE.exe");
			
			
		} catch (Exception e) {
			e.printStackTrace();
		}
		
		
	}
	
	public static void copy(BufferedReader read,BufferedWriter write) throws IOException{
		String str;
		StringBuilder dataStr = new StringBuilder();
		while((str=read.readLine())!=null){
			dataStr.append(str);
		}
		write.write(dataStr.toString());
		
		Pattern p = Pattern.compile("<table>.*</table>");
		Matcher m = p.matcher(dataStr.toString());
		while(m.find()){
			System.out.println(m.group());
			write.write(m.group());
		}
		
	}
	
	public static void Show(String url, String urliexplore) {
		try {
			Runtime rr = Runtime.getRuntime();
			rr.exec(urliexplore + " " + url);
		} catch (Exception er) {
		}
	}

 

 

分享到:
评论

相关推荐

    java RS232串口通讯(电子天平数据抓取)

    使用网页读取串口电子秤的重量,使用插件方式&JS方式实现, 在网页的特定地方显示当前通过RS232链接的电子秤上的重量数据。 我的博客 java RS232串口通讯上有对此有相关方法,希望能对大家有帮助。

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    导致htmlunit无法直接感知到需要等待Kissy发起的请求完成,通过等待页面加载解析内容判断处理实现此类页面数据抓取。 基于页面滚动的AJAX请求页面抓取: 诸如淘宝/天猫的商品详情页面会基于页面滚动发起...

    [其他类别]WebSpider蓝蜘蛛网页抓取v5.1_webspider.zip

    这个项目是一个基于Java语言开发的Web应用程序,采用SSM(Spring+SpringMVC+MyBatis)或SSH(Spring+SpringMVC+Hibernate)框架进行开发,使用MySQL作为数据存储,JSP作为页面开发。 项目的目标是构建一个高效、可靠...

    javaURL抓取知乎explore页面上热门问题和回答的爬虫程序.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    java抓取网页源码-ldspider:链接数据网络的爬虫

    java抓取网页源码介绍 LDSpider项目为关联数据网络提供了一个网络爬行框架。 爬取关联数据网络的要求和挑战不同于常规的网络爬行,因此 LDSpider 项目提供了一个网络爬虫,适用于从关联数据网络中遍历和收集内容。 ...

    ## WebSpider蓝蜘蛛网页采集

    1.2. 产品主要功能特点: 可以定制采集网址与栏目 可以定制网页数据结构化解析,精准,纯数据,无垃圾 支持翻页采集、分页采集:对于列表页,支持翻页,可以抓取到所有列表页中的数据;对于正文页,可以对分页显示的...

    WebScrapper:简单的网页抓取工具 (JAVA)

    -v - 有关数据抓取时间的信息; -w - 网页上提供的单词出现的次数; -c - 每个网页的字符数 -e - 包含给定单词的句子 将数据处理结果分别打印到每个 Web 资源和所有资源的总输出。 没有 3d 方库

    基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引

    基于Apache Nutch和Solr以及Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容爬取、解析、清洗、持久化、全文检索等处理

    sns-crm:社交网络数据抓取,以及CRM系统

    社交网络数据抓取,以及CRM系统基于Java实现。项目内容项目简介项目起因本项目主要服务于社交网络数据抓取替代架构。项目框架sns-dao :数据接口层sns-hdfs :HDFS服务层sns-parser :页面解析层sns-core :系统sns-...

    天气预报Web Services

    自己封装的一个天气预报Web Services,天气数据由新浪天气预报页面抓取。可以自己修改一下作为一个单独的获取天气预报的Java类。天气数据为xml格式,需要Dom4j支持。

    公司天气预报前后台源码(原创)JAVA MYSQL

    公司天气预报前后台源码(原创)JAVA MYSQL,由于各种变动,这个项目可能不会发行了。...WEB页面端也进行了仔细得配置,很少出现显示不清的BUG。测试,几部手机测试过,但是没有经过正规的测试部门的测试,呵呵。

    Java爬虫入门——使用Jsoup解析HTML页面.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    java爬虫项目实战源码

    Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人...

    SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架

    SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架。希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发...并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

    Jxbrowser-demo.zip

    web动态页面数据获取demo----------------------------------------------------------------------------------------------------------------------------------------

    WebScraper:抓取随机(或非随机)维基百科页面并存储它找到的单词的工具。 这个想法是然后以 reddit.comrdataisbeautiful 风格显示有关这些词的数据

    WebScraper(超级原名) 该项目的目标是从随机(或非随机)网页上刮下单词,并将它们显示在 reddit.com/r/dataisbeautiful 风格的漂亮图表中。 有一天,我突然想到了这个项目的想法,虽然并不完全有用,但最终看起来...

    计算机网络安全web漏洞扫描工具

    一种Java脚本自动分析仪支持Ajax安全测试和Web 2.0应用软件。 行业最先进和最深入的SQL注入和跨站点脚本测试 强大的可视化功能使得测试网页表单和密 码变很容易 广泛的报告设施,包括签证的PCI遵守情况报告 多线程...

    Java开源的下一代社区平台Symphony.zip

    简介 Symphony([ˈsɪmfəni],n... Latke:Java Web 框架 NetBeans:全宇宙暂时排名第三的 IDE IntelliJ IDEA:全宇宙暂时排名第二的 IDE 下一代的社区系统,为未来而构建 标签:java社区 symphony

    数据集-《Google Play应用程序》

    Web抓取了近11K Play Store应用的数据来分析Android市场。 虽然许多公共数据集(如Kaggle等)提供苹果App Store数据,但很少有对应的数据集可用于网络上任何地方的Google Play Store应用程序。在深入挖掘后,我发现...

Global site tag (gtag.js) - Google Analytics