以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 Web挖掘技术 』 (http://bbs.xml.org.cn/list.asp?boardid=69) ---- 求教!关于句子相似度的计算方法 (http://bbs.xml.org.cn/dispbbs.asp?boardid=69&rootid=&id=60487) |
-- 作者:worchengrui -- 发布时间:3/26/2008 7:04:00 PM -- 求教!关于句子相似度的计算方法 我是新人,最近看一篇paper,关于用pagerank算法生成文本摘要的文章。 其中有关于句子相似度的计算方法,论文上没说很详细,就是用common tokens的数量除以句子长度,但是没有具体讲如何计算相似度,有没有比较了解的高人,麻烦指教一下!谢谢! |
-- 作者:Cappuccin0 -- 发布时间:3/31/2008 12:08:00 AM --
如果只是计算文字层面上的相似度的话可以利用最大公共子序列(就是上面你提到的common tokens)的长度除以总长度就可以。 但是这样就会有一个问题,例如一个网页的标题可能是 “Intel CPU xxxx型号 -- 某某商城特价”,这个标题和本身商品的标题“Intel CPU xxxx型号”的相似度可能会很低。这类情况如果你可以确定句子可能的样本空间,例如上例中的商品名称的话,可以用这个样本空间来构造一个训练集,然后利用词汇的TFIDF构造向量后计算输入值和标值的偏移量来量化两者的相似程度~~ 再bt一点,如果你需要确定的是“apple”和"banana"之间的距离的话,那就只有从语意上面来分析了。英文的可以基于wordnet来做,中文的话估计貌似还没有很好的词典可以直接用~~~ |
-- 作者:zjfxx2901 -- 发布时间:4/2/2008 3:31:00 PM -- ok |
-- 作者:zeng16107 -- 发布时间:5/15/2008 8:32:00 PM -- 现在我也在做一个类似的。不过是获取一张网页的摘要 |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
62.500ms |