C#遍历html字符串各个节点(mshtml) _Asp.net专题(WCF/WPF/WF)

夜鹰教程网-程序员的加油站

·设为首页·加入收藏

本站首页技术文章全套前端云课堂智慧校园

你好，欢迎来到夜鹰网！【去购买教程】

当前位置：文章中心 >> Asp.net专题(WCF/WPF/WF)

C#遍历html字符串各个节点(mshtml)

夜鹰教程网来源：www.yyjcw.com 日期：2017-10-27 11:10:47

在项目里引用了mshtml.dll，并且引用命名空间：using mshtml;

首先，参数html就是html文本内容（里面有markup标记和显示文本等等）

其次，getHtmlDisplayContent这个函数就是获取html里浏览器上可看到的内容，即从源码中取出显示文本。

最后，traverseNodes是个人写的一个遍历各个节点的一个小小递归程序，没考虑效率什么的，只是想知道怎么使用IHtmlDocument2和IHtmlDocument3接口

Note：当html文档不规范时，比如在<!Document....之前还有别的标记或者符号时，加载工作受到严重影响，此时估计是解析不出来了，我开始还不知道为什么解析有些html时卡住了，原来是因为这些html文档在html标记前有\n\n\n....等。。。

private static string getHtmlDisplayContent(string html)

{

string cont = "";

mshtml.HTMLDocumentClass oc = new mshtml.HTMLDocumentClass();

mshtml.IHTMLDocument2 doc2 = oc;

doc2.write(html);

mshtml.IHTMLDocument3 HTMLDocument = (mshtml.IHTMLDocument3)doc2;

traverseNodes(HTMLDocument.documentElement, ref cont);

//mshtml.IHTMLTitleElement title = (mshtml.IHTMLTitleElement)doc2.title;

/* cont += doc2.title.ToString();

mshtml.IHTMLBodyElement body = (mshtml.IHTMLBodyElement)doc2.body;

if (body.text!=null)

cont += body.text.ToString();

* */

doc2.close();

return cont;

}

private static void traverseNodes(mshtml.IHTMLElement parentNode,ref string cont)

{

if (parentNode.innerText!=null)

cont += parentNode.innerText;

mshtml.IHTMLElementCollection nodes = (IHTMLElementCollection)parentNode.children;

IEnumerator ienum= nodes.GetEnumerator();

while (ienum.MoveNext())

{

IHTMLElement node = (IHTMLElement)ienum.Current;

traverseNodes(node,ref cont);

}

复制链接网友评论收藏本文关闭此页

上一条：直接调用、委托与反射调用的性能… 下一条：浅析c#权限管理

夜鹰教程网成立于2008年，目前已经运营了将近 13 年，发布了大量关于 html5/css3/C#/asp.net/java/python/nodejs/mongodb/sql server/android/javascript/mysql/mvc/easyui/vue/echarts原创教程。我们一直都在坚持的是：认证负责、一丝不苟、以工匠的精神来打磨每一套教程，让读者感受到作者的用心。我们默默投入的时间，确保每一套教程都是一件作品，而不是呆板的文字和视频！目前我们推出在线辅导班试运营，模式为一对一辅导，教学工具为QQ。我们的辅导学科包括 java 、android原生开发、webapp开发、商城开发、C#和asp.net开发，winform和物联网开发、web前端开发，但不仅限于此。普通班针对的是国内学员，例如想打好基础的大学生、想转行的有志青年、想深入学习的程序员、想开发软件的初学者或者业余爱好者等。就业办针对即将毕业上岗的大四学生，或者打算转行的初级开发工程师。留学生班针对的是在欧美、加拿大、澳洲、日本、韩国、新加坡等地留学的中国学子，目的是让大家熟练地掌握编程技能，按时完成老师布置的作业，并能顺利地通过考试。详细咨询QQ：1416759661 夜鹰教程网