中文XML论坛 - 专业的XML技术讨论区--显示贴子

以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Web挖掘技术』   (http://bbs.xml.org.cn/list.asp?boardid=69)
----  求教！关于句子相似度的计算方法  (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=60487)

--  作者：worchengrui
--  发布时间：3/26/2008 7:04:00 PM

--  求教！关于句子相似度的计算方法
我是新人，最近看一篇paper,关于用pagerank算法生成文本摘要的文章。
其中有关于句子相似度的计算方法，论文上没说很详细，就是用common tokens的数量除以句子长度，但是没有具体讲如何计算相似度，有没有比较了解的高人，麻烦指教一下！谢谢！

--  作者：Cappuccin0
--  发布时间：3/31/2008 12:08:00 AM

--

以下是引用worchengrui在2008-3-26 19:04:00的发言：
我是新人，最近看一篇paper,关于用pagerank算法生成文本摘要的文章。
其中有关于句子相似度的计算方法，论文上没说很详细，就是用common tokens的数量除以句子长度，但是没有具体讲如何计算相似度，有没有比较了解的高人，麻烦指教一下！谢谢！

如果只是计算文字层面上的相似度的话可以利用最大公共子序列（就是上面你提到的common tokens）的长度除以总长度就可以。

但是这样就会有一个问题，例如一个网页的标题可能是 “Intel CPU xxxx型号 -- 某某商城特价”，这个标题和本身商品的标题“Intel CPU xxxx型号”的相似度可能会很低。这类情况如果你可以确定句子可能的样本空间，例如上例中的商品名称的话，可以用这个样本空间来构造一个训练集，然后利用词汇的TFIDF构造向量后计算输入值和标值的偏移量来量化两者的相似程度~~

再bt一点，如果你需要确定的是“apple”和"banana"之间的距离的话，那就只有从语意上面来分析了。英文的可以基于wordnet来做，中文的话估计貌似还没有很好的词典可以直接用~~~

--  作者：zjfxx2901
--  发布时间：4/2/2008 3:31:00 PM

--
ok

--  作者：zeng16107
--  发布时间：5/15/2008 8:32:00 PM

--
现在我也在做一个类似的。不过是获取一张网页的摘要

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

62.500ms