以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术 』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  求教!关于句子相似度的计算方法  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=60487)


--  作者:worchengrui
--  发布时间:3/26/2008 7:04:00 PM

--  求教!关于句子相似度的计算方法
我是新人,最近看一篇paper,关于用pagerank算法生成文本摘要的文章。
其中有关于句子相似度的计算方法,论文上没说很详细,就是用common tokens的数量除以句子长度,但是没有具体讲如何计算相似度,有没有比较了解的高人,麻烦指教一下!谢谢!
--  作者:Cappuccin0
--  发布时间:3/31/2008 12:08:00 AM

--  
以下是引用worchengrui在2008-3-26 19:04:00的发言:
我是新人,最近看一篇paper,关于用pagerank算法生成文本摘要的文章。
其中有关于句子相似度的计算方法,论文上没说很详细,就是用common tokens的数量除以句子长度,但是没有具体讲如何计算相似度,有没有比较了解的高人,麻烦指教一下!谢谢!

如果只是计算文字层面上的相似度的话可以利用最大公共子序列(就是上面你提到的common tokens)的长度除以总长度就可以。

但是这样就会有一个问题,例如一个网页的标题可能是 “Intel CPU xxxx型号  --  某某商城特价”,这个标题和本身商品的标题“Intel CPU xxxx型号”的相似度可能会很低。这类情况如果你可以确定句子可能的样本空间,例如上例中的商品名称的话,可以用这个样本空间来构造一个训练集,然后利用词汇的TFIDF构造向量后计算输入值和标值的偏移量来量化两者的相似程度~~

再bt一点,如果你需要确定的是“apple”和"banana"之间的距离的话,那就只有从语意上面来分析了。英文的可以基于wordnet来做,中文的话估计貌似还没有很好的词典可以直接用~~~


--  作者:zjfxx2901
--  发布时间:4/2/2008 3:31:00 PM

--  
ok
--  作者:zeng16107
--  发布时间:5/15/2008 8:32:00 PM

--  
现在我也在做一个类似的。不过是获取一张网页的摘要
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
62.500ms