Python自然语言处理(中文)

上传:hdl88868153 浏览: 70 推荐: 0 文件:PDF 大小:4.28MB 上传时间:2019-09-24 05:06:32 版权申诉
Python自然语言处理(中文) O'REILLY 经典之作中文版!PYTHON自然语言处理中文翻译作者: Steven bird, Ewan Klein& Edward Loper英文版出版社: OREILLY翻译:陈涛(weibo.com/chentaol999)译者的话作为一个自然语言处理的初学者,看书看到“训练模型”,这模型那模型的,一直不知道模型究竞是什么东西。看了这夲书,从预处理数据到提取特征集,训练模型,测试修改等,步一步实际操作了之后,才对模型一词有了直观的认识(算法的中间结果,存储在计算中的一个个pk1文件,测试的时候直接用,前面计算过的就省了)。以后听人谈“模型”的时侯也有了底气。当然,模型还有很多其他含义。还有动词的“配价”、各种搭配、客观逻辑对根据文法生成的句子的约束如何实现?不上机动手做做,很难真下领悟。自然语言处理理论书很多,讲实际操作的不多,能讲的这么系统的更少。从这个角度讲,本书是目前世界上最好的自然语言处理实践教程。初学者若在看过理论之后能精读本书,必定会有获益。这也是翻译本书的目的之本书是译者课佘英文翻译练习,抛砖引玉。书中存在很多问题,尤其是第10章命题逻辑和一阶逻辑推理在自然语言处理中的应用。希望大家多多指教。可以在微博上找到我(weibo.com/chentao199)。虽然读中文翻译速度更快,但直接读原文更能了解作者的本意。原书作者在书的最后列出了迫切需要帮助改进的条目,对翻译本书建议使用目标语言的例子,目前本书还只能照搬英文的例子,希望有志原者能加入本书的中文化进程中,为中文自然语言处理做出贡献。将本书作学习和研究之用,欢迎传播、复制、修改。山寨产岀请留下详者姓名和微博。用于商业目的,请与原书版权所有者联系,译者不承担由此产生的责仟。译者2012年4月7日PYTHON自然语言处理从输入法联想提小(pre果你对开发Web应用、分析多种语言的新dictive text)、 email过滤到自闻来源或者收集濒危语言感兴趣,或者仅仅动文本摘要、机器翻译,大对以程序员的视角看人类语言如何运作好量的语言相关的技术都离不奇,你将发现《 PYTHON自然语言处理》开自然语言处理的支持,而这本书提供了自不仅迷人而且极其有用。然语言处理非常方便的入门指南。通过它,你将学到如何写能处理人量非结构化文本“少有的一本书,用如此清晰的方法如的 Python程序。你将获得有丰富标注的涵此优美整洁的代码处理如此复杂的问盖语言学各种数据结构的数据集,而且你将题…这是一本从中可以学习自然语言处学到分析书面文档内容和结构的主要算法。理的。”通过大量的例子和联系,《 PYTHON自-Ken get然语言处理》将会帮助你:MCW Technologies高级顾问●从非结构化文本中提取信息,无论是猜测主题还是识别“命名实体Steven bird是墨尔本大学计算机科学●分析文本的语言学结构,包括文法和语和软件工程系副教授,宾夕法尼亚大学语言义分析学数据联盟高级研究助理。●访问流行的语言学数据集,包括WordEwan Klein是爱丁堡大学信息学院语Ne和 tree banks技术教授。●整合从语言学到人工智能的多个领域Edward Loper是宾夕法尼业大学基的技术机器学习的自然语言处理方向的刚毕业的通过使用 Python程序设计语言和自然博上,现在是波上顿的 bBn Technologies语言工只包(NTLK)的开源函数库,本书的研究员将帮助你获得自然语言处理的实际经验。如oreilly.comUS s44.99CAN 3569Safarie》 Free on line editI5BN:978-0-596-51649-9for 45 days withBooks online purchase of this book.Details on last pagePYTHON自然语言处理Steven Bird, Ewan Klein d Edward LoperO REILLY北京·剑桥·法纳姆·科隆·塞瓦斯托波尔·台北·东京Python自然语言处理by Steven Bird, Ewan Klein, and Edward LoperCopyright o 2009 Steven Bird, Ewan Klein, and Edward Loper. All rights reservedPrinted in the unitcd statcs of americaO'Rcilly Mcdia, Inc H /, 1005 Gravenstcin Highway North, Scbastopol, CA 95472叮以购买O’ Reilly出版的书用」教育、尚业或者销售推广使用。大多数图书都有网络版(htp:/ my. safaribooksonlinc com)。更多的信息请联系我们的企业机构销售部门:(800)998-9938orcorporalel_@aoreilly.com.o编辑: Julie steele索引编者: Ellen Troutman Zaig制作编辑: Loranah dimant封面设计: Karen Montgomery拷贝编辑: Gcncvicvc d'’ Entremont内页设计: David futato校对: Loranah dimant插画: Robert romano版本说明:2009年六月:第一版Nuts hell handbook, the Nutshell handbook标忐,以及O’ Reilly标忐是O’ Reilly media,lnc的注册商标。《 PYTHON自然语言处理》,露脊鲸图案以及相关的商品外观是O’Relly Media,Ine的商标。制造商和经销商为了区分他们的产品而声明一些名称为商标。这些名称也出现在本书中,O’ Reilly media.ine:知道这是商标,使用盖帽或者小的盖帽来印刷。在本书编写过程中已经采取一切可能的预防措施,所以出版商和作者对书中的错误和遗漏以及使用此书包含的信息所造成的损害不承担责任。ISBN:978-0-596-51649-9[M]1244726609目录PYTHON自然语言处理中文翻译.…译者的话PYTHON自然语言处理3目录前读者15强调16你将学到什么?16篇章结构.16为什么仗用 Python?软件安装需求18自然语言工具包(NLTK).18教师请看19本书使用的约定20仗用例子代码20Salario联机丛书.21如何联系我们.致谢22版22第1章语言处理与 Python1.1语言计算:文木和单词Python入门NLIK入门搜索文本.计数词汇.281.2近观 Python:将文木当做词链表30链表.……30索引列表.32变量字符串.3513计算语言:简单的统计.36频率分布·;4·;·+;··∴36细粒度的选择词词语搭配和双连词( bigrams)…计数其他东西3914回到 Python:决策与控制,41条件41对每个元索进行操作嵌套代码块.·······4:;·;;.;···········“·;.·.·····43条件循环.41.5自动理解自然语言45词意消歧…指代消解自动生成语言机器翻译………………………………47人机对话系统文木的含义NIP的局限性41.6小结501.7深入阅读…………501.8练习.第2章获得文木语料和词汇资源…..542.1获取文本语料库.54古腾堡语料库.,着····网络和聊大文木布朗语料库路透社语料片.59就职演说语料库.标注文本语料斥.在其他语言的语料库········62文本语料库的结构载入你自己的语料斥.6522条件频率分布.…条件和事件.66按文体计数词汇绘制分布图和分布表.67使用欢连词生成随机文本23更多关于 Python:代码重用70使用文本编辑器创建程序.70函数70模块.2.4词典资源词汇列表语料库···················································.73发音的词典比较词表782.5 WordNet79意义与同义词79WordNet的层次结构…81更多词汇关系语义相似度.832.6小结2.7深入阅读852.8练857第3章加工原料文本.3.1从网络和硬盘访问文本88电子书.··········4+·:;·················4;.·.·····处理的HTML90处理搜索引擎的结果读取木地文件.···“············4::;·····················+:·:············从PDF、 MS Word及其他二进制格式中提取文本93捕获用户输入…NP的流程.…933.2字符串:最底层的文本处理94字符串的基木操作…95输出字符串访问单个字符访问子字符串.98更多的字符串操作.,着····链表与字符串的差异.3.3使用 Unicode进行文字处理100什么是 Unicode?100从文件中提取已编码文本…101在 Python中使用本地编码3.4使用止则衣达式检测词组搭配.104使用基本的元字符104沱围与闭包…1053.5正则表达式的有益应用提取字符块107在字符块上做更多事情查找词干1·t.109搜索已分词文本1103.6规范化文本.…….…..11词干提取器l12词形归并.3.7用正则表达式为文本分词113词的简单方法..114NLTK的正则表达式分词器·······························115分词的进一步问题1l638分割116断句.···4:·;·+116分词l173.9格式化:从链表到字符串.120从链表到字符串120字符串与格式…120排列122将结果写入文件.文本换行1243.10小结1243.11深入阅读1253.12练习126第4章编写结构化程序314.1回到基}.…131赋值.……………………131等式133条件语句4,2序列l34序列类型上的操作·····“··“135合并不同类型的序列136产生器表达式1384.3风格的问题.138Python代码风格.138过程风格与声明风格.139计数器的一些合理用途14144函数:结构化编程的基础142函数的输入和输出!142参数传递……143变量的作用域参数类型检查145功能分解.…145文档说明函数1474.5更名关于两数*+作为参数的函数148累计函数149高阶函数1·t参数的命名1504.6程序开发…152Python模块的结构多模块程序误差源头154调试技术155防御性编程.···················································1564.7算法设计..157157权衡空间与时间..159动态规划16148 Python厍的样例……………163Matplotlib绘图工具163Netw orkⅩl65CSV166其他 Python库167
上传资源
用户评论