本博客是国科大2019年春季刘洋老师自然语言处理课程的笔记。
教材-《统计自然语言处理》。
预备知识
语言学 vs 计算语言学:语言学指对语言的科学研究,语音和文字是语言的两个基本属性。计算语言学为建立形式化的计算模型来处理自然语言,
自然语言理解:探索人类语言的思维本质。
HLT(human language technology):人类语言技术。
三大语系
屈折语:用词的形态变化表示语法关系,如英文。
黏着语:词内有专门表示语法意义的附加成分,经常会有一句话只有两三个词,但每个词会特别长,如日语。
孤立语:形态变化少,语法关系靠词序和虚词表示,如中文。
研究内容
- 机器翻译
- 信息检索
- 自动文摘
- 问答系统 Q-A
- 信息过滤
- 信息抽取
- 文档分类
- 情感分类
- …
中文词法分析:1、分词 2、词法标注 3、命名实体识别
nlp应用平台
云孚科技
standford sentimnet analysis
清华九歌
microsoft-CaptionBot
基本问题
- 形态学(Morphology):词是由有意义的基本单位-词素构成的,词素:词根、前缀、后缀、词尾(eg. recreation,图书馆:图-书-馆)
- 句法(Syntax):研究句子结构成分之间的相互关系和组成句子序列的规则。
- 语义(senmantics):如何从句子中的词和句子的语法结构来推测句子的意义
- 语用(Pragmatics):研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。
- 语音学(Phonetics):
困难
- 大量歧义:词性歧义、结构歧义、语义歧义
基本研究方法
- 规则方法,基于规则、符号,知识库+推理系统->nlp系统(归约、推导、歧义消解);理论基础:Chomsky文法理论。
- 统计方法,经验主义(emperical baseed):对大规模预料数据中人们所实际使用的额普通语句的统计。语料库+统计模型->nlp系统
期刊&会议
ACL,EEMNLP,COLING,NAACL,IJCNLP
文献综述作业写法:
1、问题定义
2、主要方法
数学基础
概率论
线性代数
离散数学、图论
Post Date: 2019-09-05
版权声明: 本文为原创文章,转载请注明出处