本站业务范围:1、PC端软件开发、网站开发 2、移动端APP、网站、微信接口、微商城开发 3、视频教程、课程设计和辅导 4、单片机开发 5、串口通讯调试
 当前位置:文章中心 >> Asp.net专题(WCF/WPF/WF)
立即购买视频教程 解析html的C#类库HtmlAgilityPack
夜鹰教程网 来源:www.yyjcw.com 日期:2017-11-5 13:12:15
解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript、jquery解析html)。

这篇文章不能解决你的问题?我们还有相关视频教程云课堂 全套前端开发工程师培训课程

微信号:yyjcw10000 QQ:1416759661  远程协助需要加QQ!

业务范围:视频教程|程序开发|在线解答|Demo制作|远程调试| 点击查看相关的视频教程

技术范围:全端开发/前端开发/webapp/web服务/接口开发/单片机/C#/java/node/sql server/mysql/mongodb/android/。 



在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例] )都有提到一个解析html的C#类库HtmlAgilityPack,

今天终于有时间整理一下,并把Demo分享一下。

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript、jquery解析html)。截止到本文发表时,HtmlAgilityPack的最新版本为 1.4.6。下载地址:http://htmlagilitypack.codeplex.com/。最新版本支持Linq to Objects ( LINQ to Xml ).

准备:

如果你有安装Nuget的话,可以直接查找安装即可。

下载后解压缩后有3个文件,这里只需要将其中的HtmlAgilityPack.dll(程序集)、HtmlAgilityPack.xml(文档,用于Visual Studio 2008中代码智能提示和帮助说明之用)引入解决方案中即可使用,无需安装任何东西,非常好用。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中,几乎都是以HtmlDocument类为主线的,这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档,而HtmlDocument类操作的是html文档(其实也可以操作xml文档),它们的操作方式都是基于Dom,所不同的是后者取消了诸如GetElementsByTagName这样的方法,强化了GetElementById方法(在HtmlDocument中可以直接使用,而XmlDocument则不可以)。

HtmlAgilityPack中定位节点基本上都用Xpath表达式,Xpath表达式的参考文档可见:http://www.w3school.com.cn/xpath/xpath_syntax.asp。自行学习。

不过可以先用几个简单就可以。比如,我们用到最多可能就是针对某个元素(div)、或者某个class属性的div、或者某个id的div,或者以什么开头的div,

类似这样的Xpath还是比较简单的。

Xpath举几个例子,下面的代码中我们就会用到:

"//comment()"在XPath中表示“所有注释节点”

1、获取网页title:doc.DocumentNode.SelectSingleNode("//title").InnerText;
解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。


2、获取所有的超链接:doc.DocumentNode.Descendants("a")


3、获取name为kw的input,也就是相当于getElementsByName():
           var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

解释:"//input[@name='kw']"也是XPath的语法,表示:name属性等于kw的input标签。

//li/h3/a[@href]:所有li下面的h3包含a超级链接有href属性才符合。有的a可能是支持的js事件

//div[starts-with(@class,'content_single')]:所有符合条件的div,并且它的class是由字符串content_single 开头的。

//标示获取documet下的所有符合条件。/div标示从根目录开始的符合条件的。


以上是准备工作。下面说一下HtmlAgilityPack读取web页面,并解析的方法步骤。

1.读取url:

               HtmlAgilityPack.HtmlWeb hw = new HtmlAgilityPack.HtmlWeb();

               HtmlAgilityPack.HtmlDocument doccc = hw.Load(url);//是你需要解析的url

               ArrayList ImagePtahs = GetHrefs(doccc);

这里可能会遇到2个问题。

一个是编码问题,一个是gzip不支持的问题。

首先编码问题解决办法:就是不用HtmlAgilityPack去获取Url的data数据,自己获取了。大家可能就问了:我自己获取了他不给我解析那?

没事,他不会那么笨的。谁的肉不是吃啊?

方法如下:


             WebProxy proxyObject = new WebProxy(IP, port);//这里我是用的代理。

               //向指定地址发送请求

              HttpWebRequest HttpWReq = (HttpWebRequest)WebRequest.Create(url);

               HttpWReq.Proxy = proxyObject;

               HttpWReq.Timeout = 10000;

               HttpWebResponse HttpWResp = (HttpWebResponse)HttpWReq.GetResponse();              

               StreamReader sr = new StreamReader(HttpWResp.GetResponseStream(), System.Text.Encoding.GetEncoding("UTF-8"));              

               //注意上面的编码了吗??

               HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

               doc.Load(sr);

               int res = CheckIsGoodProxy(doc); //这是我解析的函数,还没到那一步。不解释了。

               sr.Close();

               HttpWResp.Close();

               HttpWReq.Abort();


另一个问题就是很奇怪了。gzip的问题开启了gzip压缩的网页请求时会报错。报错信息为“gzip”不是受支持的编码名。

在谷歌上搜索了半天,终于找到解决方案,而且不必更换HttpRequest或WebClient进行请求。同时还可以用此方法设置cookie,render伪装等等。。。
解决后代码如下:在你发起请求的是修改一下。


HtmlWeb webClient = new HtmlWeb();

HtmlAgilityPack.HtmlWeb.PreRequestHandler handler = delegate(HttpWebRequest request)

{

      request.Headers[HttpRequestHeader.AcceptEncoding] = "gzip, deflate";

      request.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip;

      request.CookieContainer = new System.Net.CookieContainer();

      return true;

};

webClient.PreRequest += handler;

HtmlDocument doc = webClient.Load(this.getUrl());

可能最新版本的HtmlAgilityPack会修复这个问题吧。期待中。

2.用Xpath解析。

这一步就比较简单了。就用Xpath选出你想要的数据,遍历他们,取出他们的value即可。

实例代码:


   private ArrayList GetHrefs(HtmlAgilityPack.HtmlDocument _doc)

       {

           try

           {

               Images = new ArrayList();

               HtmlNodeCollection hrefs = _doc.DocumentNode.SelectNodes("//li/h3/a[@href]");

                  HtmlNodeCollection hrefs2 = _doc.DocumentNode.SelectNodes("//div[starts-with(@class,'content_single')]");

               if (hrefs == null)

                   return new ArrayList();

               foreach (HtmlNode href in hrefs)

               {

                   //  Images.Add(href.Attributes["src"].Value);

                   string hreff = href.Attributes["href"].Value;// 排除  博海拾贝第二百零二期】吃完薯条寂寞了

                   string title = href.Attributes["title"].Value;

                 if (title.IndexOf("邪恶") >= 0)

                   {

                       continue;

                   }

                   if (title.IndexOf("恶搞") >= 0)

                   {

                       continue;

                   }

                   if (title.IndexOf("雷人") >= 0)

                   {

                       continue;

                   }

                   ///执行数据保存的逻辑

               }

}

catch (Exception ex)

           {

               ShowLogMsg("出错了:"+ex.Message+ex.StackTrace);

               return new ArrayList();

           }

       }



每一个Htmlnode,你要获取他的数据用这个方法:  img.Attributes["src"].Value


整个过程就是这样的简单。大家有不明白或者有问题可以留言交流。
复制链接 网友评论 收藏本文 关闭此页
上一条: 远程服务器返回错误: (500) 内部服…  下一条: C#异步编程
夜鹰教程网成立于2008年,目前已经运营了将近 13 年,发布了大量关于 html5/css3/C#/asp.net/java/python/nodejs/mongodb/sql server/android/javascript/mysql/mvc/easyui/vue/echarts原创教程。 我们一直都在坚持的是:认证负责、一丝不苟、以工匠的精神来打磨每一套教程,让读者感受到作者的用心。我们默默投入的时间,确保每一套教程都是一件作品,而不是呆板的文字和视频! 目前我们推出在线辅导班试运营,模式为一对一辅导,教学工具为QQ。我们的辅导学科包括 java 、android原生开发、webapp开发、商城开发、C#和asp.net开发,winform和物联网开发、web前端开发,但不仅限于此。 普通班针对的是国内学员,例如想打好基础的大学生、想转行的有志青年、想深入学习的程序员、想开发软件的初学者或者业余爱好者等。 就业办针对即将毕业上岗的大四学生,或者打算转行的初级开发工程师。 留学生班针对的是在欧美、加拿大、澳洲、日本、韩国、新加坡等地留学的中国学子,目的是让大家熟练地掌握编程技能,按时完成老师布置的作业,并能顺利地通过考试。 详细咨询QQ:1416759661   夜鹰教程网  基于角色的权限管理系统(c-s/b-s)。
  夜鹰教程网  基于nodejs的聊天室开发视频教程
  夜鹰教程网  Git分布式版本管理视频教程
  夜鹰教程网  MVC+EasyUI视频教程
  夜鹰教程网  在线考试系统视频教程
  夜鹰教程网  MongoDB视频教程。
  夜鹰教程网 Canvas视频教程
  夜鹰教程网 报表开发视频教程
  推荐教程/优惠活动

  热门服务/教程目录

  夜鹰教程网  新手必看,详细又全面。
  夜鹰教程网  购买教程  夜鹰教程网  在线支付-方便
  夜鹰教程网  担保交易-快捷安全   夜鹰教程网  闪电发货
  夜鹰教程网  电话和QQ随时可以联系我们。
  夜鹰教程网 不会的功能都可以找我们,按工作量收费。

客服电话:153 9760 0032

购买教程QQ:1416759661  
  热点推荐
表单提交中get和post方式的区别有…
解决ASP中UTF-8与GB2312编码转换乱…
asp数组中REDIM的用法(动态数组)…
生成html的新方法ASP
ASP字符串函数大全
ASP生成Word文件的代码
ASP中Randomize随机函数的使用
十天学会ASP教程之第一天:安装调…
自定义的asp日期格式化函数
防范ASP网站漏洞的八大法则之一
十天学会ASP教程之第二天:表单传…
asp中关于从utf8页面到gb2312页面…
ASP教程:实现长文章分页功能
IIS6架设网站的问题总结
五分钟打开 allow_url_fopen 的最…
  尊贵服务
夜鹰教程网 承接业务:软件开发 网站开发 网页设计 .Net+C#+VS2008+MSsql+Jquery+ExtJs全套高清完整版视频教程
  最近更新
C# Json数据中的特殊字符导致页面…
博客园是有开发博客查询相关的接口…
C#里面的ref和out区别
C#调用API让声卡发出声音
.NET使用反射读取用户自定义的枚举…
.net操作SqlServer数据库增删改查…
如何将WCF服务部署到远程服务器
对WebApi 实现服务端信息的监控
用WCF生成Restful风格的接口返回 …
只有一个地址如何调用WCF服务
WCF简介
搭一个简单的wcf服务
WCF配置说明
WCF传输的数据量过大问题的解决方…
asp.net大文件分块上传文件秒传断…
  工具下载  需要远程协助? 

sql2008视频教程 c#视频教程

VIP服务:如果您的某个功能不会做,可以加我们QQ,给你做DEMO!

JQUERY  Asp.net教程

MVC视频教程  vs2012
.NET+sql开发
手机:15397600032 C#视频教程下载
微信小程序 vue.js高级实例视频教程

教程咨询QQ:1416759661


这篇文章不能解决你的问题?我们还有相关视频教程云课堂 全套前端开发工程师培训课程

微信号:yyjcw10000 QQ:1416759661  远程协助需要加QQ!

业务范围:视频教程|程序开发|在线解答|Demo制作|远程调试| 点击查看相关的视频教程

技术范围:全端开发/前端开发/webapp/web服务/接口开发/单片机/C#/java/node/sql server/mysql/mongodb/android/。 



关于我们 | 购买教程 | 网站建设 | 技术辅导 | 常见问题 | 联系我们 | 友情链接

夜鹰教程网 版权所有 www.yyjcw.com All rights reserved 备案号:蜀ICP备08011740号3