新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 Web挖掘技术 』 → 求教!关于句子相似度的计算方法 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 7062 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 求教!关于句子相似度的计算方法 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     worchengrui 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:59
      门派:XML.ORG.CN
      注册:2008/3/26

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给worchengrui发送一个短消息 把worchengrui加入好友 查看worchengrui的个人资料 搜索worchengrui在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看worchengrui的博客楼主
    发贴心情 求教!关于句子相似度的计算方法

    我是新人,最近看一篇paper,关于用pagerank算法生成文本摘要的文章。
    其中有关于句子相似度的计算方法,论文上没说很详细,就是用common tokens的数量除以句子长度,但是没有具体讲如何计算相似度,有没有比较了解的高人,麻烦指教一下!谢谢!

       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/3/26 19:04:00
     
     Cappuccin0 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:56
      门派:XML.ORG.CN
      注册:2008/3/28

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给Cappuccin0发送一个短消息 把Cappuccin0加入好友 查看Cappuccin0的个人资料 搜索Cappuccin0在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看Cappuccin0的博客2
    发贴心情 
    以下是引用worchengrui在2008-3-26 19:04:00的发言:
    我是新人,最近看一篇paper,关于用pagerank算法生成文本摘要的文章。
    其中有关于句子相似度的计算方法,论文上没说很详细,就是用common tokens的数量除以句子长度,但是没有具体讲如何计算相似度,有没有比较了解的高人,麻烦指教一下!谢谢!

    如果只是计算文字层面上的相似度的话可以利用最大公共子序列(就是上面你提到的common tokens)的长度除以总长度就可以。

    但是这样就会有一个问题,例如一个网页的标题可能是 “Intel CPU xxxx型号  --  某某商城特价”,这个标题和本身商品的标题“Intel CPU xxxx型号”的相似度可能会很低。这类情况如果你可以确定句子可能的样本空间,例如上例中的商品名称的话,可以用这个样本空间来构造一个训练集,然后利用词汇的TFIDF构造向量后计算输入值和标值的偏移量来量化两者的相似程度~~

    再bt一点,如果你需要确定的是“apple”和"banana"之间的距离的话,那就只有从语意上面来分析了。英文的可以基于wordnet来做,中文的话估计貌似还没有很好的词典可以直接用~~~

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/3/31 0:08:00
     
     zjfxx2901 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究汇编)
      文章:33
      积分:211
      门派:XML.ORG.CN
      注册:2008/3/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给zjfxx2901发送一个短消息 把zjfxx2901加入好友 查看zjfxx2901的个人资料 搜索zjfxx2901在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看zjfxx2901的博客3
    发贴心情 
    ok
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/4/2 15:31:00
     
     zeng16107 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:2
      积分:66
      门派:XML.ORG.CN
      注册:2007/11/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给zeng16107发送一个短消息 把zeng16107加入好友 查看zeng16107的个人资料 搜索zeng16107在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看zeng16107的博客4
    发贴心情 
    现在我也在做一个类似的。不过是获取一张网页的摘要
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/5/15 20:32:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/19 23:09:52

    本主题贴数4,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms