夜鹰教程网-程序员的加油站
 当前位置:文章中心 >> Asp.net专题(WCF/WPF/WF)
使用HtmlAgilityPack解析HTML
夜鹰教程网 来源:www.yyjcw.com 日期:2017-11-3 10:46:11
Html解析神器-HtmlAgilityPack,轻松快捷的帮助你解析html页面内容。

Html解析神器-HtmlAgilityPack,轻松快捷的帮助你解析html页面内容。

HtmlAgilityPack是一个开源的解析HTML元素的类库,是一个轻量化的插件。使用它来解析html网页中的元素非常便捷,甚至可以和js,jq操作媲美。下面来说说怎样添加它到项目中。


  1. 使用NuGet来添加该类库

    搜索ScrapySharp,搜索出结果后然后点击安装。


    2.png2.png


2.如何使用

通过页面url和编码格式来加载html页面所有内容

 string pageUrl = url;
            WebClient wc = new WebClient();
            byte[] pageSourceBytes = wc.DownloadData(new Uri(pageUrl));
            string pageSource = Encoding.GetEncoding("gb2312").GetString(pageSourceBytes);

然后解析

 HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(pageSource);
 
            HtmlNodeCollection keyNodes = doc.DocumentNode.SelectNodes("//div[@class='test']");
            List keyWords = new List();  
            return doc.ToString();


HtmlNodeCollection keyNodes = doc.DocumentNode.SelectNodes("//div[@class='test']");这个就是获取页面中类名为的div(是一 个可以遍历的数组型)。同理,利用此方法可以获取类型为其他的div或者a元素或者img元素等等,也可以获取id为test的其他元素,以此类推。

获取元素后取值只需要调用innerText即可。


3.其他方法

1)public IEnumerable Ancestors()
 
获取当前节点的父节点列表(不包含自身)。
 
2)public IEnumerable Ancestors(string name)
 
以指定一个名称来获取父节点的列表(不包含自身)。
 
3)public IEnumerable AncestorsAndSelf()
 
获取当前节点的父节点列表(包含自身)。
 
4)public IEnumerable AncestorsAndSelf(string name)
 
以指定一个名称来获取父节点的列表(包含自身)。
 
获取子节点的系列方法:
 
1)public IEnumerable DescendantNodes()
 
获取当前节点下的所有子节点的列表,包括子节点的子节点(不包含自身)。
 
public IEnumerable DescendantNodesAndSelf()
 
获取当前节点下的所有子节点的列表,包括子节点的子节点(包含自身)。
 
public IEnumerable Descendants()
 
获取当前节点下的直接子节点的列表(不包含自身)。
 
public IEnumerable DescendantsAndSelf()
 
获取当前节点下的直接子节点的列表(包含自身)。
 
public IEnumerable Descendants(string name)
 
获取当前节点下的以指定名称的子节点列表。
 
public IEnumerable DescendantsAndSelf(string name)
 
获取当前节点下的以指定名称的子节点的列表(包含自身)。
 
public HtmlNode Element(string name)
 
获取第一个符合指定名称的直接子节点的节点元素。
 
public IEnumerable Elements(string name)
 
获取符合指定名称的所有直接子节点的节点列表。
 
public HtmlNodeCollection SelectNodes(string xpath)
 
获取符合指定的xpath的子节点列表。
 
public HtmlNode SelectSingleNode(string xpath)
复制链接 网友评论 收藏本文 关闭此页
上一条: C#6.0新功能  下一条: .net高效代码的价值远远超出你想象
夜鹰教程网成立于2008年,目前已经运营了将近 13 年,发布了大量关于 html5/css3/C#/asp.net/java/python/nodejs/mongodb/sql server/android/javascript/mysql/mvc/easyui/vue/echarts原创教程。 我们一直都在坚持的是:认证负责、一丝不苟、以工匠的精神来打磨每一套教程,让读者感受到作者的用心。我们默默投入的时间,确保每一套教程都是一件作品,而不是呆板的文字和视频! 目前我们推出在线辅导班试运营,模式为一对一辅导,教学工具为QQ。我们的辅导学科包括 java 、android原生开发、webapp开发、商城开发、C#和asp.net开发,winform和物联网开发、web前端开发,但不仅限于此。 普通班针对的是国内学员,例如想打好基础的大学生、想转行的有志青年、想深入学习的程序员、想开发软件的初学者或者业余爱好者等。 就业办针对即将毕业上岗的大四学生,或者打算转行的初级开发工程师。 留学生班针对的是在欧美、加拿大、澳洲、日本、韩国、新加坡等地留学的中国学子,目的是让大家熟练地掌握编程技能,按时完成老师布置的作业,并能顺利地通过考试。 详细咨询QQ:1416759661   夜鹰教程网  基于角色的权限管理系统(c-s/b-s)。
  夜鹰教程网  基于nodejs的聊天室开发视频教程
  夜鹰教程网  Git分布式版本管理视频教程
  夜鹰教程网  MVC+EasyUI视频教程
  夜鹰教程网  在线考试系统视频教程
  夜鹰教程网  MongoDB视频教程。
  夜鹰教程网 Canvas视频教程
  夜鹰教程网 报表开发视频教程
  热点推荐
表单提交中get和post方式的区别有…
解决ASP中UTF-8与GB2312编码转换乱…
asp数组中REDIM的用法(动态数组)…
生成html的新方法ASP
ASP字符串函数大全
ASP生成Word文件的代码
ASP中Randomize随机函数的使用
十天学会ASP教程之第一天:安装调…
自定义的asp日期格式化函数
防范ASP网站漏洞的八大法则之一
十天学会ASP教程之第二天:表单传…
asp中关于从utf8页面到gb2312页面…
ASP教程:实现长文章分页功能
IIS6架设网站的问题总结
五分钟打开 allow_url_fopen 的最…
  最近更新
C# Json数据中的特殊字符导致页面…
博客园是有开发博客查询相关的接口…
C#里面的ref和out区别
C#调用API让声卡发出声音
.NET使用反射读取用户自定义的枚举…
.net操作SqlServer数据库增删改查…
如何将WCF服务部署到远程服务器
对WebApi 实现服务端信息的监控
用WCF生成Restful风格的接口返回 …
只有一个地址如何调用WCF服务
WCF简介
搭一个简单的wcf服务
WCF配置说明
WCF传输的数据量过大问题的解决方…
asp.net大文件分块上传文件秒传断…

关于我们 | 网站建设 | 技术辅导 | 常见问题 | 联系我们 | 友情链接

夜鹰教程网 版权所有 www.yyjcw.com All rights reserved 备案号:蜀ICP备08011740号3