新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → OntoSCORM:一个基于领域本体的知识搜索引擎 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 694845 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: OntoSCORM:一个基于领域本体的知识搜索引擎 举报  打印  推荐  IE收藏夹 
       本主题类别: E-learning | 信息检索    
     addcplus 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:11
      积分:226
      门派:XML.ORG.CN
      注册:2005/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给addcplus发送一个短消息 把addcplus加入好友 查看addcplus的个人资料 搜索addcplus在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看addcplus的博客11
    发贴心情 

    以下是引用fengguier在2006-5-30 11:38:00的发言:
    您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!

    可以,你用email给我联系吧

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 19:29:00
     
     addcplus 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:11
      积分:226
      门派:XML.ORG.CN
      注册:2005/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给addcplus发送一个短消息 把addcplus加入好友 查看addcplus的个人资料 搜索addcplus在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看addcplus的博客12
    发贴心情 
    以下是引用MerryZhang在2006-5-30 9:23:00的发言:
    除了Lucene还有其它的全文搜索引擎吗?

    www.sourceforge.org  上可以搜索到吧,不光有开源全文索引工具,开源spdier也有

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 19:36:00
     
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客13
    发贴心情 
    我自己做了一个用ICTCLAS做分词的汉语Analyzer,建完索引后,大多数词在查询时没有问题,但是某几个词在查询时却是错的。比如我对三个不同的句子建了索引,其中有一句是“上海交通大学微电子学院法兰西”,查询“法兰西”这个词的时候,其他两个句子也在结果里面。

    然后我找到了这个工具:http://www.getopt.org/luke/。它可以查看索引文件里Term和Document的映射关系,结果我发现Term“法兰西”对应了三个Document(我把上面所说的三个句子作为三个Document建索引)。

    最后我用的WebLucene的两字分词,也就是lz所说的CJKAnalyzer。我个人感觉CJKAnalyzer建的索引文件太大,但是它支持的查询更多,比如对“中华人民共和国”建索引,查询的时候可以查“中华”,而如果用ICTCLAS分词建索引的话,这种查询是不支持的。

    请问lz所说的不稳定是什么情况?有没有碰到过和我同样的情况?
    以下是引用jpz6311whu在2006-5-27 22:51:00的发言:
    有一个疑问:
    问中说采用了中科院的分词系统ICTCLAS,并做了JNI移植到java。
    但是又说它不够稳定,实际上用的是另外的CJKAnalyzer。
    请问那么到底用了ICTCLAS没有,用在哪个地方?
    另外,lucene的索引和检索要求Analyzer一致,既然Query用的是CJKAnalyzer,那么索引的时候也是用的CJKAnalyzer吗?那ICTCLAS分词体现在哪个地方?


    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 19:51:00
     
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客14
    发贴心情 
    为什么不选择Lucene呢?
    以下是引用MerryZhang在2006-5-30 9:23:00的发言:
    除了Lucene还有其它的全文搜索引擎吗?

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 19:57:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客15
    发贴心情 
    以下是引用csdncannon在2006-5-30 19:51:00的发言:
    我自己做了一个用ICTCLAS做分词的汉语Analyzer,建完索引后,大多数词在查询时没有问题,但是某几个词在查询时却是错的。比如我对三个不同的句子建了索引,其中有一句是“上海交通大学微电子学院法兰西”,查询“法兰西”这个词的时候,其他两个句子也在结果里面。

    然后我找到了这个工具:http://www.getopt.org/luke/。它可以查看索引文件里Term和Document的映射关系,结果我发现Term“法兰西”对应了三个Document(我把上面所说的三个句子作为三个Document建索引)。

    最后我用的WebLucene的两字分词,也就是lz所说的CJKAnalyzer。我个人感觉CJKAnalyzer建的索引文件太大,但是它支持的查询更多,比如对“中华人民共和国”建索引,查询的时候可以查“中华”,而如果用ICTCLAS分词建索引的话,这种查询是不支持的。

    请问lz所说的不稳定是什么情况?有没有碰到过和我同样的情况?
    [quote]以下是引用jpz6311whu在2006-5-27 22:51:00的发言:
      有一个疑问:
      问中说采用了中科院的分词系统ICTCLAS,并做了JNI移植到java。
      但是又说它不够稳定,实际上用的是另外的CJKAnalyzer。
      请问那么到底用了ICTCLAS没有,用在哪个地方?
      另外,lucene的索引和检索要求Analyzer一致,既然Query用的是CJKAnalyzer,那么索引的时候也是用的CJKAnalyzer吗?那ICTCLAS分词体现在哪个地方?
      
    [/quote]



    您所说的这个“法兰西”的问题,我觉得是Analyzer设计的问题,而不是ICTCLAS分词的问题。
    中科院现在提供免费使用的ICTCLAS是2002年年的初步成果,有不少bug,要想修改的话可以改改c++源代码重新编译成dll,再用jni调用。后来他们提供的商业版本应该会健壮得多,但是卖得也是很贵的说。如果免费的给大家用得爽了,谁还去买商业版本的呢?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 20:22:00
     
     tjw228 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:29
      积分:191
      门派:XML.ORG.CN
      注册:2005/10/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给tjw228发送一个短消息 把tjw228加入好友 查看tjw228的个人资料 搜索tjw228在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看tjw228的博客16
    发贴心情 
    请发我一份吧,我的email:
    tjw@zjbti.net.cn
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 21:59:00
     
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客17
    发贴心情 
    你的意思是说我的Analyzer写的有问题?

    但是我用我的Analyzer进行分词以后,我把那个句子的tokenStream打印出来了,“法兰西”确实是分成一个词的。而用Luke看到索引文件中“法兰西”确实是作为一个Term的,只是它的对于另外两个Document的IDF(Inverse Document Frequency)值算错了,其他的值都没问题,导致算出来的相关度值过大,所以另外两个句子也包含在结果集里面了。

    希望您能说得具体些,我苦于找不到问题的所在啊

    以下是引用jpz6311whu在2006-5-30 20:22:00的发言:
    您所说的这个“法兰西”的问题,我觉得是Analyzer设计的问题,而不是ICTCLAS分词的问题。
    中科院现在提供免费使用的ICTCLAS是2002年年的初步成果,有不少bug,要想修改的话可以改改c++源代码重新编译成dll,再用jni调用。后来他们提供的商业版本应该会健壮得多,但是卖得也是很贵的说。如果免费的给大家用得爽了,谁还去买商业版本的呢?

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 22:21:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客18
    发贴心情 
    我当然希望能和你讨论,但是你描述的不是很详细。基于你所说的,我只能建议说在lucene源代码里面设置几个调试断点看看idf的值到底是多少,大概就是Similarity.java里面吧。
    如果你想深入讨论,起码要把你所测试的三个句子贴出来,然后分词结果贴出来,然后把idf的具体值贴一下吧。没有这些数据,你就这样泛泛的一说,我真的没办法弄清楚。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 22:37:00
     
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客19
    发贴心情 
    理解

    我的代码在别处,机器关了,没法拿到代码

    一会就帖上来

    以下是引用jpz6311whu在2006-5-30 22:37:00的发言:
    我当然希望能和你讨论,但是你描述的不是很详细。基于你所说的,我只能建议说在lucene源代码里面设置几个调试断点看看idf的值到底是多少,大概就是Similarity.java里面吧。
    如果你想深入讨论,起码要把你所测试的三个句子贴出来,然后分词结果贴出来,然后把idf的具体值贴一下吧。没有这些数据,你就这样泛泛的一说,我真的没办法弄清楚。

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/31 11:04:00
     
     csdncannon 帅哥哟,离线,有人找我吗?
      
      
      威望:1
      等级:大三(研究MFC有点眉目了!)
      文章:70
      积分:621
      门派:XML.ORG.CN
      注册:2006/2/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给csdncannon发送一个短消息 把csdncannon加入好友 查看csdncannon的个人资料 搜索csdncannon在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看csdncannon的博客20
    发贴心情 
    主要代码如下:
    //添加Document
    doc1.add( Field.Text("content", "巴拿马和美国都是国家地区汉族是一个民族") ) ;
    doc2.add( Field.Text("content", "上海民族交通大学微电子学院陈进法兰西") ) ;
    doc3.add( Field.Text("content", "在中华人民共和国") ) ;

    //写Document
    IndexWriter writer = new IndexWriter("index", new ChineseAnalyzer(), true);
    writer.addDocument( doc1 ) ;
    writer.addDocument( doc2 ) ;
    writer.addDocument( doc3 ) ;
    writer.addDocument( doc4 ) ;
    writer.addDocument( doc5 ) ;
    writer.optimize() ;
    writer.close() ;

    //检索
    Searcher searcher = new IndexSearcher("index");
    Analyzer analyzer = new ChineseAnalyzer();
    Query q = QueryParser.parse("法兰西","content", analyzer );

    //输出结果
    System.out.println( hits.length() ) ;
    while(++i < hits.length() )
        {
         System.out.println( hits.doc(i).get("content")) ;
              
        }

    查询“法兰西”时结果:
    2
    上海民族交通大学微电子学院陈进法兰西
    在中华人民共和国

    “法兰西”在“在中华人民共和国”中对应的IDF(图片另外打开会清楚些)

    此主题相关图片如下:
    按此在新窗口浏览图片

    Term的排名

    此主题相关图片如下:
    按此在新窗口浏览图片

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/31 11:23:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/3/28 10:33:53

    本主题贴数102,分页: [1] [2] [3] [4] [5]... [11]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    109.375ms