新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 Web挖掘技术 』 → web 挖掘工具一览,及详细介绍 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 70533 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: web 挖掘工具一览,及详细介绍 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     pennyliang 帅哥哟,离线,有人找我吗?白羊座1979-4-7
      
      
      威望:8
      等级:大二期末(C++考了100分!)
      文章:266
      积分:1911
      门派:Lilybbs.net
      注册:2005/3/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给pennyliang发送一个短消息 把pennyliang加入好友 查看pennyliang的个人资料 搜索pennyliang在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看pennyliang的博客楼主
    发贴心情 web 挖掘工具一览,及详细介绍

    1)MALLET

    A Machine Learning for Language Toolkit
    http://mallet.cs.umass.edu/
    “an integrated collection of Java code useful for statistical natural language processing, document classification, clustering, information extraction, and other machine learning applications to text”
    Minimally documented but has lots of stuff:
    Building feature vectors
    Various classification methods (Naïve Bayes, max-ent, boosting, winnowing)
    Evaluation: precision, recall, F1, etc.
    N-grams
    Selecting features using information gain
    They have some examples of front-end code


       收藏   分享  
    顶(1)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/9/10 17:29:00
     
     pennyliang 帅哥哟,离线,有人找我吗?白羊座1979-4-7
      
      
      威望:8
      等级:大二期末(C++考了100分!)
      文章:266
      积分:1911
      门派:Lilybbs.net
      注册:2005/3/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给pennyliang发送一个短消息 把pennyliang加入好友 查看pennyliang的个人资料 搜索pennyliang在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看pennyliang的博客2
    发贴心情 
    2)MinorThird
    http://minorthird.sourceforge.net/
    “a collection of Java classes for storing text, annotating text, and learning to extract entities and categorize text”
    Documentation seems to be pretty good: comprehensive Javadocs, tutorial, FAQ…
    Has the concept of “spans” (sequences of words) that can be extracted and classified based on content or context
    Stored documents can be annotated in independent files using TextLabels (denoting, say, part-of-speech and semantic information)
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/9/10 17:30:00
     
     pennyliang 帅哥哟,离线,有人找我吗?白羊座1979-4-7
      
      
      威望:8
      等级:大二期末(C++考了100分!)
      文章:266
      积分:1911
      门派:Lilybbs.net
      注册:2005/3/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给pennyliang发送一个短消息 把pennyliang加入好友 查看pennyliang的个人资料 搜索pennyliang在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看pennyliang的博客3
    发贴心情 
    3)Weka
    http://www.cs.waikato.ac.nz/~ml/weka/
    “Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.”
    Has a GUI
    Extensive documentation
    Website lists a number of compatible datasets (regression and classification problems)
    Also lists many Weka-related projects
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/9/10 17:30:00
     
     pennyliang 帅哥哟,离线,有人找我吗?白羊座1979-4-7
      
      
      威望:8
      等级:大二期末(C++考了100分!)
      文章:266
      积分:1911
      门派:Lilybbs.net
      注册:2005/3/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给pennyliang发送一个短消息 把pennyliang加入好友 查看pennyliang的个人资料 搜索pennyliang在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看pennyliang的博客4
    发贴心情 
    4)CLUTO
    http://www-users.cs.umn.edu/~karypis/cluto/
    “a software package for clustering low- and high-dimensional datasets and for analyzing the characteristics of the various clusters”
    Partitional, agglomerative and graph-partitioning algorithms
    Various similarity/distance metrics
    Many options/tools for visualizing and summarizing clustering results
    Claims to scale to hundreds of thousands of objects in tens of thousands of dimensions
    wCluto: web-based application built on CLUTO
    gCluto: cross-platform graphical application
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/9/10 17:31:00
     
     pennyliang 帅哥哟,离线,有人找我吗?白羊座1979-4-7
      
      
      威望:8
      等级:大二期末(C++考了100分!)
      文章:266
      积分:1911
      门派:Lilybbs.net
      注册:2005/3/11

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给pennyliang发送一个短消息 把pennyliang加入好友 查看pennyliang的个人资料 搜索pennyliang在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看pennyliang的博客5
    发贴心情 
    5)MG4J:
    http://mg4j.dsi.unimi.it/
    “a collaborative effort aimed at providing a free Java implementation of inverted-index compression techniques; as a by-product, it offers several general-purpose optimised classes, including fast & compact mutable strings, bit-level I/O, fast unsynchronised buffered streams, (possibly signed) minimal perfect hashing for very large strings collections, etc.”
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/9/10 17:31:00
     
     rainbow7 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2006/10/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给rainbow7发送一个短消息 把rainbow7加入好友 查看rainbow7的个人资料 搜索rainbow7在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看rainbow7的博客6
    发贴心情 
    thank Y
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/10/9 14:20:00
     
     eviltear 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:13
      积分:114
      门派:XML.ORG.CN
      注册:2006/4/6

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给eviltear发送一个短消息 把eviltear加入好友 查看eviltear的个人资料 搜索eviltear在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看eviltear的博客7
    发贴心情 
    狂赞一下
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/10/10 17:42:00
     
     zhengger 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:22
      积分:209
      门派:GOOGLEBBS.NET
      注册:2006/10/13

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给zhengger发送一个短消息 把zhengger加入好友 查看zhengger的个人资料 搜索zhengger在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看zhengger的博客8
    发贴心情 
    多谢,顺便恭喜一下楼主。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/10/13 22:40:00
     
     jin 帅哥哟,离线,有人找我吗?狮子座1987-8-18
      
      
      等级:大一(高数修炼中)
      文章:12
      积分:108
      门派:XML.ORG.CN
      注册:2006/8/14

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jin发送一个短消息 把jin加入好友 查看jin的个人资料 搜索jin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看jin的博客9
    发贴心情 
    晕。。又是英文
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/1/17 14:03:00
     
     fqcx23 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:2
      积分:67
      门派:XML.ORG.CN
      注册:2007/5/29

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fqcx23发送一个短消息 把fqcx23加入好友 查看fqcx23的个人资料 搜索fqcx23在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看fqcx23的博客10
    发贴心情 
    谢谢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/5/31 14:07:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/3 6:51:43

    本主题贴数29,分页: [1] [2] [3]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    1,445.313ms