`
aerchi
  • 浏览: 427306 次
  • 性别: Icon_minigender_1
  • 来自: 昆明
文章分类
社区版块
存档分类
最新评论

Java 提取链接内容及标题

阅读更多

String httpTag= "<a\\b([^>]+)(.*?)</a>";
//String linkHref= "(?:HREF\\s*=\\s*(?:\")([^\"]*)\"|'([^']*)'|([^'\">\\s]+))";
String linkHref= "HREF\\s*=\\s*(?:\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+))";
// String linkHref= "(<a[\\s+]*([^> h]|h(?!ref\b))*href[\\s+]*=[\\s+]*[( '|\ ")]?)([^(\\s+| '|\ ")]*)([^> ]*> ) ";
String linkTitle ="(?:>)(.*)(?:</a>$)";

pathHtml=ie.frame(id,"main").div(id,"PathPanel").html().toString();
//println("LINK is : "+pathHtml);

pattern = Pattern.compile(httpTag, Pattern.CASE_INSENSITIVE);
matcher = pattern.matcher(pathHtml);

while (matcher.find())
{
// int start = matcher.start();
// int end = matcher.end();
// String pureUrl = pathHtml.substring(start, end);
// System.out.println(" match Str is : "+pureUrl);
// println("1: "+matcher.group().length());
// println("2 : "+matcher.groupCount());
// println("22555 --> "+matcher.group(2));
lastLinkHtml=matcher.group();

}
println("Link content: "+lastLinkHtml);
patternCon = Pattern.compile(linkHref, Pattern.CASE_INSENSITIVE);
//patternCon = Pattern.compile(linkTitle, Pattern.CASE_INSENSITIVE);
matcherCon = patternCon.matcher(lastLinkHtml);

while (matcherCon.find())
{
// int start = matcherCon.start();
// int end = matcherCon.end();
// String pureUrl = pathHtml.substring(start, end);

linkValue=matcherCon.group(1);

}
println("link value is: "+linkValue);

  1. importjava.util.regex.*;
  2. publicclassRegExpParseHTML{
  3. /**
  4. *@paramargs
  5. */
  6. publicstaticvoidmain(String[]args){
  7. //TODOAuto-generatedmethodstub
  8. Stringhtml="<ahref=\"http://www.autohome.com.cn/780/\"style=\"text-decoration:none;\"target=\"_blank\"title=\"[D]大众UP频道\">[D]大众UP频道</a>";
  9. Stringhref=parseHref(html);
  10. System.out.println(href);
  11. }
  12. publicstaticStringparseHref(Stringhtml)
  13. {
  14. Stringregex="<a[\\s]+href[\\s]*=[\\s]*\"([^<\"]+)\"";
  15. //Stringregex="[^.]";
  16. Patternp=Pattern.compile(regex,Pattern.CASE_INSENSITIVE);
  17. Matcherm=p.matcher(html);
  18. StringBufferret=newStringBuffer();
  19. while(m.find())
  20. {
  21. ret.append(m.group(1));
  22. }
  23. returnret.toString();
  24. }
  25. }

查看原文

痴人硕梦-->Aerchi
分享到:
评论

相关推荐

    java正则表达式提取html中的信息

    java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的

    房产数据爬虫java 房天下.zip

    这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。...

    使用Java创建一个网络爬虫

    网络爬虫是一种用于自动获取网页上信息和数据的程序。在这个实战博客中,我们将创建一个简单的Java网络爬虫...为了演示,我们将爬取一个示例网站上的标题和链接。这个项目将展示如何使用Java来构建一个基本的网络爬虫。

    一个可以抓取网页特定内容的爬虫

    该程序是一个简单的网络爬虫,使用Java的Jsoup库来抓取指定网页的标题和链接,并根据用户输入的关键词提取包含关键词的标题和链接。程序的主要功能如下: 1.提示并获取用户输入要爬取的网页URL和关键词:使用 System...

    Java爬虫示例:实现信息抓取的完整源码+爬虫示例源码

    通过使用Jsoup库,我们可以轻松地连接到目标网页,并提取出感兴趣的内容,比如网页标题、链接等。该爬虫示例展示了如何获取网页的基本信息,并可以根据需求进行扩展,例如抓取特定标签下的内容、持久化数据到数据库...

    疯狂JAVA讲义

    1.2 Java的竞争对手及各自优势 4 1.2.1 C#简介和优势 4 1.2.2 Ruby简介和优势 4 1.2.3 Python的简介和优势 5 1.3 Java程序运行机制 5 1.3.1 高级语言的运行机制 6 1.3.2 Java程序的运行机制和JVM 6 1.4 开发...

    java提取网页源码表格数据-scrapers:来自网络的刮刀列表

    java提取网页源码表格数据刮板 来自网络的刮刀列表。 使用 . 它将展示整个列表,轻松导航到他们的优缺点,同时还提供指向各自网站的链接。 请通过添加链接、添加优点/缺点、标题或其他任何您认为有帮助的内容来做出...

    基于Java实现网络爬虫(蜘蛛)

    信息解析: 使用Jsoup等HTML解析库解析网页内容,提取信息需要的信息,如标题、内容、链接等。 数据存储: 可以将解析后的数据存储到数据库或文件中,用于后续分析和处理。 遍历深度: 可以设定爬取网页的深度和范围...

    Java开发实战1200例(第1卷).(清华出版.李钟尉.陈丹丹).part3

    注:本系列图书的第I、II卷再版时均相应改名为《xxx开发实例大全》(基础卷)及(提高卷),但内容基本无变化,需要的童鞋可自由匹配查找。 内容简介  《Java开发实战1200例》分为I、II两卷共计1200个例子,包括了开发...

    开源 免费 java CMS FreeCMS 1.4

    信息:标题,内容,摘要。 栏目:名称,描述。 评论:内容。 网上调查:名称,调查说明,调查选项。 13.移动信息功能,可把信息从一个栏目移动到另一个栏目。 13.复制信息功能,可把信息从一个栏目复制到另一个栏目。...

    开源 免费 java CMS FreeCMS用户手册1.4

    信息:标题,内容,摘要。 栏目:名称,描述。 评论:内容。 网上调查:名称,调查说明,调查选项。 13.移动信息功能,可把信息从一个栏目移动到另一个栏目。 13.复制信息功能,可把信息从一个栏目复制到另一个栏目。...

    开源 免费 java CMS freecms-src-1.4

    信息:标题,内容,摘要。 栏目:名称,描述。 评论:内容。 网上调查:名称,调查说明,调查选项。 13.移动信息功能,可把信息从一个栏目移动到另一个栏目。 13.复制信息功能,可把信息从一个栏目复制到另一个栏目。...

    java留言板前后端功能页面的实现.zip

    查看留言列表的时候需要组合条件查询,包括标题,时间段(起止日期),支持分页查询, 后期在项目中加入dwr框架实现ajax ...mysql文本链接: https://pan.baidu.com/s/1WSKebyjth6NDOzrIigLuew 提取码: 7p5m

    爬虫程序java源代码

    主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的...

    javapms门户网站源码

    添加或修改文章时,可设置文档所属栏目、标题、外部链接、副标题、标题颜色、短标题、自动Tag标签、摘要、来源、来源链接、作者、文档类型、文档属性、推荐、置顶、缩略图、文档内容、内容显示模板、发布时间等,...

    data-mpg:提取并发送您的MonPetitGazon冠军的球员

    为此,必须使用他的帐户连接到该站点。 打开浏览器的网络调试器,然后查看HTTP请求的标头。 您将在“请求标题”-&gt;“授权”中找到令牌。 使用例 调用提取器的示例: java -jar mpg-extract.jar mpg.csv __LEAGUE_...

    java开源源码下载-Open-Source-Systems-Issues-Quality-Analysis:问题下载是一个轻量级的Java应

    在编写问题时,IssuesDownload用于连接到GitHub。 要在编译后运行该应用程序,只需运行应已编译的.jar文件。 该过程完成后,.csv文件应在.jar文件目录中包含发行信息。 请注意:.jar文件运行时,它将覆盖jar文件目录...

Global site tag (gtag.js) - Google Analytics