本博客是国科大2019年春季刘洋老师自然语言处理课程的笔记。
教材-《统计自然语言处理》。

预备知识

语言学 vs 计算语言学:语言学指对语言的科学研究,语音和文字是语言的两个基本属性。计算语言学为建立形式化的计算模型来处理自然语言,
自然语言理解:探索人类语言的思维本质。
HLT(human language technology):人类语言技术。

三大语系

屈折语:用词的形态变化表示语法关系,如英文。
黏着语:词内有专门表示语法意义的附加成分,经常会有一句话只有两三个词,但每个词会特别长,如日语。
孤立语:形态变化少,语法关系靠词序和虚词表示,如中文。

研究内容

  • 机器翻译
  • 信息检索
  • 自动文摘
  • 问答系统 Q-A
  • 信息过滤
  • 信息抽取
  • 文档分类
  • 情感分类

中文词法分析:1、分词 2、词法标注 3、命名实体识别

nlp应用平台

云孚科技
standford sentimnet analysis
清华九歌
microsoft-CaptionBot

基本问题

  • 形态学(Morphology):词是由有意义的基本单位-词素构成的,词素:词根、前缀、后缀、词尾(eg. recreation,图书馆:图-书-馆)
  • 句法(Syntax):研究句子结构成分之间的相互关系和组成句子序列的规则。
  • 语义(senmantics):如何从句子中的词和句子的语法结构来推测句子的意义
  • 语用(Pragmatics):研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。
  • 语音学(Phonetics):

困难

  • 大量歧义:词性歧义、结构歧义、语义歧义

基本研究方法

  • 规则方法,基于规则、符号,知识库+推理系统->nlp系统(归约、推导、歧义消解);理论基础:Chomsky文法理论。
  • 统计方法,经验主义(emperical baseed):对大规模预料数据中人们所实际使用的额普通语句的统计。语料库+统计模型->nlp系统

期刊&会议

ACL,EEMNLP,COLING,NAACL,IJCNLP

文献综述作业写法:
1、问题定义
2、主要方法

数学基础

概率论
线性代数
离散数学、图论


Post Date: 2019-09-05

版权声明: 本文为原创文章,转载请注明出处