中文XML论坛--文本分类问题[求助]

新书推介：《语义网技术体系》
作者：瞿裕忠，胡伟，程龚

XML论坛

W3CHINA.ORG讨论区

计算机科学论坛

SOAChina论坛

Blog

开放翻译计划

新浪微博

首页

软件下载

资料下载

核心成员

帮助

>> The future of AI, is the future of computer

[返回] 中文XML论坛 - 专业的XML技术讨论区 → 计算机理论与工程 → 『人工智能 :: 机器学习|数据挖掘|进化计算』 → 文本分类问题[求助]

◇查看新帖 ◇ 用户列表 ◇

(订阅本版)

您是本帖的第 3353 个阅读者　　

*	贴子主题：文本分类问题[求助]	举报打印推荐 IE收藏夹
	本主题类别:

surfsads

  等级：大一新生
  文章：1
  积分：52
  门派：XML.ORG.CN
  注册：2012/3/20

姓名：(无权查看)
城市：(无权查看)
院校：(无权查看)

	楼主

文本分类问题[求助]

我把训练文档集根据TFIDF向量化如 Documenti=(TFIDF1,TFIDF2,TFIDF3...TFIDFn),
Documenti为第i个文档, TFIDFn为第n个字的TFIDF值
然後打算用cosine similarity计算新文档和训练文档集每个文档的相似度
我想知道的是,新文档的向量是以什麽值构成的呢?
必须同样以TDIDF构成的吗,如NewDi=(TFIDF1,TFIDF2,TFIDF3...TFIDFn)
但我不知道怎样计算新文档每个字的TFIDF中的IDF.
我看过维基百科的TF-IDF
其中 idfi = log {|语料库中的文件总数| / |包含词语的文件数目|}
对於要进行分类的新文档来说, [语料库中的文件总数]是 1,还是训练文档总数+1?
也就是说,对新文档来说,所谓的[语料库中的文件总数]会否包含训练集的文档?
请求解答,谢谢

收藏分享
顶(0)

2012/3/20 3:15:00

GoogleAdSense

  等级：大一新生
  文章：1
  积分：50
  门派：无门无派
  院校：未填写
  注册：2007-01-01

	广告

2025/8/9 10:32:37

本主题贴数1，分页： [1]

管理选项：修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	46.875ms