String httpTag= "<a\\b([^>]+)(.*?)</a>";
//String linkHref= "(?:HREF\\s*=\\s*(?:\")([^\"]*)\"|'([^']*)'|([^'\">\\s]+))";
String linkHref= "HREF\\s*=\\s*(?:\"([^\"]*)\"|'([^']*)'|([^'\">\\s]+))";
// String linkHref= "(<a[\\s+]*([^> h]|h(?!ref\b))*href[\\s+]*=[\\s+]*[( '|\ ")]?)([^(\\s+| '|\ ")]*)([^> ]*> ) ";
String linkTitle ="(?:>)(.*)(?:</a>$)";
pathHtml=ie.frame(id,"main").div(id,"PathPanel").html().toString();
//println("LINK is : "+pathHtml);
pattern = Pattern.compile(httpTag, Pattern.CASE_INSENSITIVE);
matcher = pattern.matcher(pathHtml);
while (matcher.find())
{
// int start = matcher.start();
// int end = matcher.end();
// String pureUrl = pathHtml.substring(start, end);
// System.out.println(" match Str is : "+pureUrl);
// println("1: "+matcher.group().length());
// println("2 : "+matcher.groupCount());
// println("22555 --> "+matcher.group(2));
lastLinkHtml=matcher.group();
}
println("Link content: "+lastLinkHtml);
patternCon = Pattern.compile(linkHref, Pattern.CASE_INSENSITIVE);
//patternCon = Pattern.compile(linkTitle, Pattern.CASE_INSENSITIVE);
matcherCon = patternCon.matcher(lastLinkHtml);
while (matcherCon.find())
{
// int start = matcherCon.start();
// int end = matcherCon.end();
// String pureUrl = pathHtml.substring(start, end);
linkValue=matcherCon.group(1);
}
println("link value is: "+linkValue);
-
importjava.util.regex.*;
-
-
-
publicclassRegExpParseHTML{
-
-
/**
-
*@paramargs
-
*/
-
publicstaticvoidmain(String[]args){
-
//TODOAuto-generatedmethodstub
-
Stringhtml="<ahref=\"http://www.autohome.com.cn/780/\"style=\"text-decoration:none;\"target=\"_blank\"title=\"[D]大众UP频道\">[D]大众UP频道</a>";
-
Stringhref=parseHref(html);
-
System.out.println(href);
-
}
-
-
publicstaticStringparseHref(Stringhtml)
-
{
-
Stringregex="<a[\\s]+href[\\s]*=[\\s]*\"([^<\"]+)\"";
-
//Stringregex="[^.]";
-
Patternp=Pattern.compile(regex,Pattern.CASE_INSENSITIVE);
-
-
Matcherm=p.matcher(html);
-
-
StringBufferret=newStringBuffer();
-
while(m.find())
-
{
-
ret.append(m.group(1));
-
}
-
-
returnret.toString();
-
}
-
-
-
-
}
查看原文
痴人硕梦-->Aerchi
分享到:
相关推荐
java实现用正则表达式的方法提取html中的信息,可以提取标题,正文,链接等。经过运行,没问题的
这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。...
网络爬虫是一种用于自动获取网页上信息和数据的程序。在这个实战博客中,我们将创建一个简单的Java网络爬虫...为了演示,我们将爬取一个示例网站上的标题和链接。这个项目将展示如何使用Java来构建一个基本的网络爬虫。
该程序是一个简单的网络爬虫,使用Java的Jsoup库来抓取指定网页的标题和链接,并根据用户输入的关键词提取包含关键词的标题和链接。程序的主要功能如下: 1.提示并获取用户输入要爬取的网页URL和关键词:使用 System...
通过使用Jsoup库,我们可以轻松地连接到目标网页,并提取出感兴趣的内容,比如网页标题、链接等。该爬虫示例展示了如何获取网页的基本信息,并可以根据需求进行扩展,例如抓取特定标签下的内容、持久化数据到数据库...
1.2 Java的竞争对手及各自优势 4 1.2.1 C#简介和优势 4 1.2.2 Ruby简介和优势 4 1.2.3 Python的简介和优势 5 1.3 Java程序运行机制 5 1.3.1 高级语言的运行机制 6 1.3.2 Java程序的运行机制和JVM 6 1.4 开发...
java提取网页源码表格数据刮板 来自网络的刮刀列表。 使用 . 它将展示整个列表,轻松导航到他们的优缺点,同时还提供指向各自网站的链接。 请通过添加链接、添加优点/缺点、标题或其他任何您认为有帮助的内容来做出...
信息解析: 使用Jsoup等HTML解析库解析网页内容,提取信息需要的信息,如标题、内容、链接等。 数据存储: 可以将解析后的数据存储到数据库或文件中,用于后续分析和处理。 遍历深度: 可以设定爬取网页的深度和范围...
注:本系列图书的第I、II卷再版时均相应改名为《xxx开发实例大全》(基础卷)及(提高卷),但内容基本无变化,需要的童鞋可自由匹配查找。 内容简介 《Java开发实战1200例》分为I、II两卷共计1200个例子,包括了开发...
信息:标题,内容,摘要。 栏目:名称,描述。 评论:内容。 网上调查:名称,调查说明,调查选项。 13.移动信息功能,可把信息从一个栏目移动到另一个栏目。 13.复制信息功能,可把信息从一个栏目复制到另一个栏目。...
信息:标题,内容,摘要。 栏目:名称,描述。 评论:内容。 网上调查:名称,调查说明,调查选项。 13.移动信息功能,可把信息从一个栏目移动到另一个栏目。 13.复制信息功能,可把信息从一个栏目复制到另一个栏目。...
信息:标题,内容,摘要。 栏目:名称,描述。 评论:内容。 网上调查:名称,调查说明,调查选项。 13.移动信息功能,可把信息从一个栏目移动到另一个栏目。 13.复制信息功能,可把信息从一个栏目复制到另一个栏目。...
查看留言列表的时候需要组合条件查询,包括标题,时间段(起止日期),支持分页查询, 后期在项目中加入dwr框架实现ajax ...mysql文本链接: https://pan.baidu.com/s/1WSKebyjth6NDOzrIigLuew 提取码: 7p5m
主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的...
添加或修改文章时,可设置文档所属栏目、标题、外部链接、副标题、标题颜色、短标题、自动Tag标签、摘要、来源、来源链接、作者、文档类型、文档属性、推荐、置顶、缩略图、文档内容、内容显示模板、发布时间等,...
为此,必须使用他的帐户连接到该站点。 打开浏览器的网络调试器,然后查看HTTP请求的标头。 您将在“请求标题”->“授权”中找到令牌。 使用例 调用提取器的示例: java -jar mpg-extract.jar mpg.csv __LEAGUE_...
在编写问题时,IssuesDownload用于连接到GitHub。 要在编译后运行该应用程序,只需运行应已编译的.jar文件。 该过程完成后,.csv文件应在.jar文件目录中包含发行信息。 请注意:.jar文件运行时,它将覆盖jar文件目录...