新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → 关于分词系统 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 156701 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 关于分词系统 举报  打印  推荐  IE收藏夹 
       本主题类别: 信息检索    
     ChouBill 帅哥哟,离线,有人找我吗?处女座1978-9-10
      
      
      威望:4
      等级:大三暑假(参加全国数模竞赛拿了一等奖)
      文章:124
      积分:774
      门派:XML.ORG.CN
      注册:2004/4/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ChouBill发送一个短消息 把ChouBill加入好友 查看ChouBill的个人资料 搜索ChouBill在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问ChouBill的主页 引用回复这个贴子 回复这个贴子 查看ChouBill的博客楼主
    发贴心情 关于分词系统

    很多朋友们要基于Java的分词接口,我上传了一个在:
    http://www.chentian.com/doc/fenci.rar

    这个是基于中科院分词系统开发,功能上没有任何改进,增加了Java支持,原始系统在www.nlp.org.cn.


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    欢迎访问真人CS枪战论坛
    http://www.gunwar.cn

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/2 16:48:00
     
     cquzjh 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究汇编)
      文章:30
      积分:255
      门派:XML.ORG.CN
      注册:2004/6/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给cquzjh发送一个短消息 把cquzjh加入好友 查看cquzjh的个人资料 搜索cquzjh在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看cquzjh的博客2
    发贴心情 
    收到,谢谢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/2 19:29:00
     
     torrent 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:9
      积分:123
      门派:XML.ORG.CN
      注册:2004/5/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给torrent发送一个短消息 把torrent加入好友 查看torrent的个人资料 搜索torrent在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看torrent的博客3
    发贴心情 
    以下是引用ChouBill在2004-11-2 16:48:18的发言:
    很多朋友们要基于Java的分词接口,我上传了一个在:
    http://www.chentian.com/doc/fenci.rar

    这个是基于中科院分词系统开发,功能上没有任何改进,增加了Java支持,原始系统在www.nlp.org.cn.


    我用eclipse编译通不过,classes目录下编译好的类也运行不了。基本上是抛出ClassLoader异常。是dll的原因么?
    对jni不熟悉,惭愧!请指教

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/10 10:27:00
     
     ChouBill 帅哥哟,离线,有人找我吗?处女座1978-9-10
      
      
      威望:4
      等级:大三暑假(参加全国数模竞赛拿了一等奖)
      文章:124
      积分:774
      门派:XML.ORG.CN
      注册:2004/4/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ChouBill发送一个短消息 把ChouBill加入好友 查看ChouBill的个人资料 搜索ChouBill在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问ChouBill的主页 引用回复这个贴子 回复这个贴子 查看ChouBill的博客4
    发贴心情 
    不好意思,我是用D版Jbuilder 9开发的。其实这个Java包中其他的都没有什么用,最关键的部分是:ICTCLAS.java,这个文件里面定义了DLL的三个接口函数:
      public synchronized native boolean init(int i, int j);
      public synchronized native String paragraphProcess(String sParagraph);
      public synchronized native boolean fileProcess(String source,String target);
    这三个是最重要的。

    我把ICTCLAS类做成了一个单例,是因为我不知道多例并发这个DLL会出现什么问题。如下:
      public synchronized static ICTCLAS getInstance(){
        if (instance==null){
          instance = new ICTCLAS();
        }
        return instance;
      }

    那么调用的时候,只需要
    ICTCLAS ict = ICTCLAS.getInstance();
    System.out.println(ict.paragraphProcess("巴拿马和美国都是国家地区,汉族是一个民族。"))
    就可以看到结果了

    ----------------------------------------------
    欢迎访问真人CS枪战论坛
    http://www.gunwar.cn

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/10 12:16:00
     
     torrent 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:9
      积分:123
      门派:XML.ORG.CN
      注册:2004/5/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给torrent发送一个短消息 把torrent加入好友 查看torrent的个人资料 搜索torrent在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看torrent的博客5
    发贴心情 
    衷心感谢ChouBill!

    我说错了,不是编译通不过,而是运行时抛出异常如下:

    java.lang.UnsatisfiedLinkError: no ICTCLAS in java.library.path
     at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1491)
     at java.lang.Runtime.loadLibrary0(Runtime.java:788)
     at java.lang.System.loadLibrary(System.java:834)
     at com.xjt.nlp.word.ICTCLAS.<clinit>(ICTCLAS.java:37)
    Exception in thread "main"

    由此看来是不认dll。我不知道这个dll文件应该怎么处理(或放到什么地方),另外,data目录想必是个词库吧,它又应当怎么配置呢??

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/10 17:11:00
     
     ChouBill 帅哥哟,离线,有人找我吗?处女座1978-9-10
      
      
      威望:4
      等级:大三暑假(参加全国数模竞赛拿了一等奖)
      文章:124
      积分:774
      门派:XML.ORG.CN
      注册:2004/4/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ChouBill发送一个短消息 把ChouBill加入好友 查看ChouBill的个人资料 搜索ChouBill在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问ChouBill的主页 引用回复这个贴子 回复这个贴子 查看ChouBill的博客6
    发贴心情 
    在Jbuilder环境下,我也慢慢试了好多目录,最后确定把这个DLL放在工程的根目录下,Data目录永远和DLL文件平级.

    我没有用过eclipse, 但我想也需要慢慢试验才能找到答案,你可以一次多试几个可疑的目录,成功后再逐个删除.

    ----------------------------------------------
    欢迎访问真人CS枪战论坛
    http://www.gunwar.cn

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/11 9:22:00
     
     torrent 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(猛啃高等数学)
      文章:9
      积分:123
      门派:XML.ORG.CN
      注册:2004/5/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给torrent发送一个短消息 把torrent加入好友 查看torrent的个人资料 搜索torrent在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看torrent的博客7
    发贴心情 
    再次感谢!!已经运行成功了!!!呵呵
    不过我还是有一点疑问,就是dll中api使用方式与中科院的文档说明有些不符,例如:init()方法的参数。

    请ChouBill好事做到底,提供此dll的api说明文档或使用心得(我是不是太贪了??),我的e-mail:torrent2001@163.com

    向ChouBill致敬!!!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/11 10:46:00
     
     ChouBill 帅哥哟,离线,有人找我吗?处女座1978-9-10
      
      
      威望:4
      等级:大三暑假(参加全国数模竞赛拿了一等奖)
      文章:124
      积分:774
      门派:XML.ORG.CN
      注册:2004/4/1

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给ChouBill发送一个短消息 把ChouBill加入好友 查看ChouBill的个人资料 搜索ChouBill在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问ChouBill的主页 引用回复这个贴子 回复这个贴子 查看ChouBill的博客8
    发贴心情 
    因为免费版没有DLL提供,所以这个DLL是在分词.exe系统的源代码上改的,接口也和中科院的文档有些不一样.因为我觉得中科院提供的接口太多,用起来比较麻烦. 全部改动如下:

    init函数:中科院的DLL没有参数,我提供两个参数,i=nOutputFormat,j=nOperateType,i和j的取值范围都是{0,1,2},有兴趣你可以改变一下init的方式试试看.

    ICTCLAS_API bool ICTCLAS_SetOutputFormat(int nOutputFormat);
    ICTCLAS_API bool ICTCLAS_SetOperType(int nOperateType);
    这两个函数我把它删除掉了,因为已经在init中设置好了.

    ICTCLAS_API bool ICTCLAS_SentenceProcess(char *sSentence,unsigned int nResultCount,char **sResult);经过试验,我认为这个函数和pargraphProcess差不多,所以和paragraphProcess合并成一个函数.

    ICTCLAS_API bool ICTCLAS_FileProcess(char *sSourceFilename,char *sResultFilename);这是最不稳定的一个函数,当文件过大时容易产生错误. 这个错误并不是我造成的, 因为同一个文件试验原有系统也会出错,我没有修改这个错误,也不打算用这个函数,因为文件可以转换为段落,然后用paragraphProcess函数解析就可以,但是我仍然保留了这个函数.

    exit()函数,我认为太麻烦,不是每次都记得要exit(),干掉了

    改动后我经过多线程长时间并发测试,发现paragraphProcess函数是比较稳定的,做论文和学习是足够用了.最后,再次申明, 千万不要将本代码用于商业用途.

    ----------------------------------------------
    欢迎访问真人CS枪战论坛
    http://www.gunwar.cn

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/11 14:57:00
     
     saleemlz 帅哥哟,离线,有人找我吗?
      
      
      等级:大三(面向对象是个好东东!)
      文章:131
      积分:725
      门派:XML.ORG.CN
      注册:2003/12/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给saleemlz发送一个短消息 把saleemlz加入好友 查看saleemlz的个人资料 搜索saleemlz在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看saleemlz的博客9
    发贴心情 
    哦,用的是ICTCLAS啊,分词效果还是不错。但是若扩充他的data文件夹中的数据就更好了。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/15 12:08:00
     
     wh_wh 美女呀,离线,快来找我吧!魔羯座1982-1-11
      
      
      等级:大一(高数修炼中)
      文章:11
      积分:146
      门派:XML.ORG.CN
      注册:2004/9/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给wh_wh发送一个短消息 把wh_wh加入好友 查看wh_wh的个人资料 搜索wh_wh在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看wh_wh的博客10
    发贴心情 
    收到,谢谢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/11/17 21:26:00
     
     GoogleAdSense魔羯座1982-1-11
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/20 18:34:49

    本主题贴数63,分页: [1] [2] [3] [4]... [7]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    109.375ms