以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Dot NET,C#,ASP,VB 』  (http://bbs.xml.org.cn/list.asp?boardid=43)
----  [求助]XMLHTTP急呀!!!求各位多多帮忙了啊!  (http://bbs.xml.org.cn/dispbbs.asp?boardid=43&rootid=&id=9702)


--  作者:bqlzx
--  发布时间:9/2/2004 5:22:00 PM

--  [求助]XMLHTTP急呀!!!求各位多多帮忙了啊!
把网页的源文件用XMLHTTP取出来,放到一个字符串里。截取我想要取值的那一部分。也就是以<tr ...开头的到</tr>的那一部分。放到XmlDocument里。用他来对<td></td>进行取我真正想要的值。

程序功能描述:
远程抓取网页数据,然后对网页数据进行剥离,提取网页上的表格中的数据,存入数据库中。
举例:
1)网页网址如下:
http://cring.zmcc.com.cn/CRBT/servlet/ControlerServlet/CRBTRing/Search?searchInfo=070001&searchType=1

该网页的源文件中的需要被读取的部分代码如下:

'-------------------------------------------------------
<table width="580" border="0" cellspacing="0" cellpadding="2">
  <tr height="1">
    <td colspan="9" background="/images/dot_line_bg.gif"></td>
  </tr>
  <tr height="20" bgcolor="#f1f1f1">
    <td class="no">No.</td>
    <td>曲名</td>
    <td>歌手</td>
    <td>提供商</td>
    <td>人气</td>
    <td>价格</td>
    <td>试听</td>
    <td>设置</td>
    <td>赠送</td>
  </tr>
    
  <tr height="1">
    <td colspan="9" background="/images/dot_line_bg.gif"></td>
  </tr>
  <tr bgcolor="#FFFFFF">
    <td class="no">070001</td>
    <td>十年</td>
    <td>陈奕迅              </td>
    <td>深圳腾讯    </td>
    <td>
      161744
    </td>
    <td>
      ¥3.0
    </td>
    <td>
      <a href="#" onClick="prelisten('/RingAsfFile/107/000/00/preview/01.asf');return false;"><img alt=试听 src="/images/icon_listen.gif" border="0" align="middle"></a>
    </td>
    <td>
      
            <a href=# onClick="javascript:alertinfo('1');"> <img alt="设置" src="/images/icon_config.gif" width="7" height="16" border="0"></a>
      
    </td>
    <td>
          
            <a href=# onClick="javascript:alertinfo('1');"> <img alt="赠送" src="/images/icon_donate.gif" border="0"></a>
          

    </td>
  </tr>
    
  <tr height="1">
    <td colspan="9" background="/images/dot_line_bg.gif"></td>
  </tr>
</table>
'--------------------------------------------------------

我的设计思路是如下步骤:
1)读取网页的整个源文件。
2)截取table表格这部分html。
3)循环分析tr;
4)分析每个tr,对tr中的每个td中的数据进行截取。

实现的开发工具:c#+asp.net
具体技术是:xmlhttp

遇到的问题:
目前已经读取了整个网页的所有html,但不会对其中的tr和td进行数据的提取。也就是说,不会进行截取tr、td中的数据的代码编写。

如果知道,请指教。
*****************************************************************
private void Button1_Click(object sender, System.EventArgs e)
{
   XMLHTTPClass xmlhttp=new XMLHTTPClass();
   string serverUrl="http://cring.zmcc.com.cn/CRBT/servlet/ControlerServlet/CRBTRing/Search?searchInfo=070001&searchType=1";
   xmlhttp.open("GET",serverUrl,false,null,null);
   xmlhttp.send(null);
   string  takehtml=xmlhttp.responseText;
   //接下来要对获取到的网页数据进行提取,即把表格中的数据列给拆分出来,然后存入数据库中
   //俺不知道其中关键的拆分代码这么写。
}



--  作者:tiediy
--  发布时间:10/17/2004 3:08:00 PM

--  
用正则表达式
--  作者:pcnetman
--  发布时间:8/18/2005 7:52:00 PM

--  
还有解码问题,分析是小事.
--  作者:godshen
--  发布时间:5/9/2006 7:29:00 PM

--  
JavaScript 正则太弱了!!呵呵,偶认为是这样的
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
46.875ms