以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Web挖掘技术 』 (http://bbs.xml.org.cn/list.asp?boardid=69) ---- 目前互联网上公布出来的正文提取算法,大家可以综合比较下 (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=84314) |
-- 作者:kg_1997 -- 发布时间:4/16/2010 12:02:00 PM -- 目前互联网上公布出来的正文提取算法,大家可以综合比较下 正文一般应该是网页中最长的部分,如何抽取正文,这部分是最为核心的。因为如果不能很好的提取原有文章的内容和样式,那么搜索出来的东西就会惨不忍睹.根本就没有使用价值。 在做正文抽取模块之前曾经参考过很多抽取模式,有配置模版的,有搞视觉匹配的.有搞关键字识别的.挨个做了分析首先配置摸版是不太现实的,因为在搜索技术资讯的时候,根本不知道会搜索到哪个网站,也根本没精力去配置摸版。所以这个行不通。基于视觉效果的分析,这个难度比较大,而且只适合于规范的网站,而现在很多网站根本不规范,广告链接漫天飞.人家都把最好的位置留给广告了.而且我一直怀疑这个模式的可行性,它只是一个善意的推测.所以这方面没做过多尝试。 ======================================== 目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 猎兔网页正文提取 PHP版网页正文提取 网页正文提取分析(DEMO) 个人认为http://61.128.196.27/txt 这个提取最牛,基本上无论什么页面都能提取出来,而且能有效的保持原文风格、图片、链接。
|
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
7,824.219ms |