自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
语义分析,指的是将给定的自然语言(包括篇章和句子)转化为反映其意义的某种形式化表示,也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通。
语义分析,它建立在依存理论基础上,是深层的语义分析理论。它融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含意思。语义分析提取句子中所有的修饰词与核心词对间的语义关系,且修饰词与核心词对覆盖了句子中所有的词,即句子中的每一个词都有其核心节点(除了整个句子的核心节点外)。语义分析是处理词级别、短语级别、从句级别以及句子级别的语义结构的过程。它是面向整个句子的,而不仅是句子中主要谓词与其论元之间的语义关系,还含有非主要谓词包含的语义信息,如数量(quantity)、属性(attribute)和频率(frequency)等。
而在中文语义分析的过程中会遇到许多问题,主要涉及的问题如:
1、 核心词表问题:许多分词算法都需要有一个核心的(通用、与领域无关的)词表。凡在该词表中的词,分词时就应该切分出来。但对于哪些词应当收进核心词表,目前尚无一个标准;
2、词的变形问题:汉语中的动词和形容词有些可以产生变形结构;
3、词缀的问题:如语素“者”在现代汉语中单用是没有意义的,因此“作者”、“成功者”、“开发者”内部不能切开。
4、汉语自动分词规范须支持各种不同目标的应用,但不同目标的应用对词的要求是不同甚至是矛盾的。
NLPIR文本搜索与挖掘系统是灵玖软件经过多年研发的一款针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。它充分的解决了上面中文语义分析所遇到的问题。
NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
NLPIR文本搜索与挖掘系统主要功能介绍
1)中英文混合分词功能:自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。
2)关键词提取功能:采用交叉信息熵的算法自动计算关键词,包括新词与已知词,下面是对十八届三中全会报告部分内容的关键词提取结果。
3)新词识别与自适应分词功能:从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
4)用户专业词典功能:可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
5)微博分词功能:对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。