C# WebBrowser控件 模拟登录 抓取数据

时间:2023-03-09 00:53:01
C# WebBrowser控件 模拟登录 抓取数据

一、问题点:

1、模拟登录后,如果带有嵌套的iframe嵌套,不好读取iframe内容,可以直接指定iframe抓取网址

2、C# 清除WebBrowser控件的Session和Cookie

参考文档:http://www.360doc.com/content/14/0810/12/9200790_400769010.shtml

代码如下:

        [DllImport("wininet.dll",SetLastError = true)]
private static extern bool InternetSetOption(IntPtr hInternet, int dwOption, IntPtr lpBuffer, int lpdwBufferLength); private void timer_Tick(object sender, EventArgs e)
{
InternetSetOption(IntPtr.Zero,,IntPtr.Zero,);
if (this.webBrowser.Document != null)
{
this.webBrowser.Document.Cookie.Remove(, this.webBrowser.Document.Cookie.Count() - );
}
string[] cookies = System.IO.Directory.GetFiles(Environment.GetFolderPath(Environment.SpecialFolder.Cookies));
foreach (string currentFile in cookies)
{
try
{
System.IO.File.Delete(currentFile);
}
catch { }
}
this.webBrowser.Navigate(SysInfo.WEBURL);
}

3、IHTMLDocument2 的引用 引用--COM--Microsoft HTML Object Library

二、模拟登录

模拟无验证码登录,用WebBrowser比较简单,为登录用户和密码赋值,然后模拟点击登录按钮即可

                    this.webBrowser.Document.GetElementById("user").SetAttribute("value", "user");
this.webBrowser.Document.GetElementById("password").SetAttribute("value", "password");
this.webBrowser.Document.InvokeScript("SetCookie");
for (int i = ; i < ; i++)//等待1秒,进行登录
{
Thread.Sleep();
}
HtmlElement btnLogin = this.webBrowser.Document.GetElementById("login");
btnLogin.InvokeMember("Click");
for (int i = ; i < ; i++)//等待0.5秒,进行跳转
{
Thread.Sleep();
}
this.webBrowser.Navigate(SysInfo.DATAURL);

三、抓取数据

指定抓取网址,载入之后,获取元素值

HtmlElement div = this.webBrowser.Document.GetElementById("style1");

参考博客:C#中的WebBrowser控件的使用

参考博客:C#中利用WebBrowser控件,获得HTML源码