基于模式匹配的军事演习情报信息抽取术 2009
信息抽取技术可分为三类:基于自然语言处理(Natural Language Processing,NLP)的方式、基于模式匹配的方式和基于统计学习的方式。基于统
计学习的方式主要有HMM、最大熵、最大熵隐马尔可夫、条件随机域等。由于以统计为主的方法只有在大量训练语料的前提下才能取得较好的效果,因此在目前成熟语料少、标注难度大的情况下,尚不占主导地位。本文是基于模式匹配的事件抽取。模式学习系统:基于人工语料标注的IE模式学习系统;基于人工语料分类的IE模式学习系统;基于种子模式的自举IE模式学习系统和基于WordNet及语料标注的IE模式学习系统。本文在信息抽取的不同环节采用层次自动分类方法进行待抽取文本筛选;采用基于种子模式的自举方法,结合领域词典进行军事演习组块识别;采用基于语料标注的方法进行事件属性模式学习获取。
1、获取网络每日新闻
2、分类
3、组块识别 与军事演习有关的动词目前由用户手工提供,时问采用确定状态有穷自动机进行识别,地点和国家主要采用现有词典,而武器、部队等则采用基于模式软匹配的方法进行识别。模式软匹配的基本思想是:一个待匹配实体模式如果能与已有模式完全匹配(称为硬匹配),那么即认为这是一个名实体名称。如果不匹配,可以计算其与每类模式的代表模式的最大相似度,如果超过一定阈值T,则可以将其输出(称为软匹配),认为是一个名实体名称,同时将此实体模式加人模式库,重新聚类并抽取每类的代表模式,以达到自动生成实体组成模式的目的。
给了模式的表示方式。
可应用于互联网的自学习中文关键词抽取算法 2002
提出了一种特征值的权重算法,如果出现词a是词b的一部分的情况,用信息熵取舍
基于同现度和自学习的中文字符组合发现 2007
发现组合词,先是判断是否是合法词,然后计算带权同现度迭代判断是否加入词典
Towards Urban Phenomenon Sensing by Automatic Tagging of Tweets 2012
这种研究分为两步:过滤或分类和决策。试图发现一种方法,不使用外部的资源(wordnet之类的),只使用twitter的内容。用户自己贴的标签hashtag可以 使用。本文专注过滤或分类步,因为无监督的不容易有好效果,关注有监督或半监督。试图实现自动标记数据语料。hashtag的缺点:稀,与主题不贴切,领域重叠。还有一个研究twitter的问题是过时。
相关研究:监督,无监督,半监督。一些基于或改进流行的无监督主题模型LDA的研究(无监督)。如果没有其他的数据源,只靠tweet内容本身并没有很好地分类到标签的效果,对于探究潜在的主题比较有效,对给定标签的内容效果不好。标记版的LDA,LLDA(半监督),准确率有提高到62%。本文试图对LLDA更多控制以达到更高准确率。
搭配词:首先过滤掉连接词、人称代词等等,然后寻找频率高的双字词,用一个大小为4的滑动窗口,计算所有候选词的平均距离和方差,最后用似然比进行独立假设检验。过滤由于松散耦合造成的噪音:只选择一半以上是被选中的bigram的tweet。使用χ2特征选择方法选择单字词,用朴素贝叶斯分类,使用拉普拉斯平滑方法处理看不到的特征空间。模型更新:搜集使用最新标签的tweet并且它的作者至少有过一次使用最流行的标签作为验证tweet,如果验证tweet的分类正确率低于一个阀值,我们将使用一组新的训练tweet重新训练,也考虑最近的阶段的tweet。达到88.26%正确率。