读书笔记

NLTK基础教程用nltk和python库构建机器学习应用笔记与勘误

书籍 • 李魔佛发表了文章 • 0 个评论 • 3482 次浏览 • 2018-11-13 13:55 • 来自相关话题

勘误：
1. 第6页：
lst[0:2]
这个应该是list的前2位，不是前3位。（不应该啊，这么基础的都会错）
输出是1,2

2. 第25页
wlem.lemmatize('ate') 改为
wlem.lemmatize('ate','v’)
需要手工添加一个动词v，才能够识别到词性的原型。

查看全部

勘误：
1. 第6页：
lst[0:2]
这个应该是list的前2位，不是前3位。（不应该啊，这么基础的都会错）
输出是1,2

2. 第25页
wlem.lemmatize('ate') 改为
wlem.lemmatize('ate','v’)
需要手工添加一个动词v，才能够识别到词性的原型。

[读后笔记] python网络爬虫实战（李松涛）

书籍 • 李魔佛发表了文章 • 0 个评论 • 4024 次浏览 • 2017-12-14 11:28 • 来自相关话题

用了大概一个早上的时间，就把这本书看完了。
前面4章是基础的python知识，有基础的同学可以略过。
scrapy爬虫部分，用了实例给大家说明scrapy的用法，不过如果之前没用过scrapy的话，需要慢慢上机敲打代码。
其实书中的例子都是很简单的例子，基本没什么反爬的限制，书中一句话说的非常赞同，用scrapy写爬虫，就是做填空题，而用urllib2写爬虫，就是作文题，可以自由发挥。

书中没有用更为方便的requests库。内容搜索用的最多的是beatifulsoup，对于xpah或者lxml介绍的比较少。因为scrapy自带的response就是可以直接用xpath，更为方便。

对于scrapy的中间和pipeline的使用了一个例子，也是比较简单的例子。

书中没有对验证码，分布式等流行的反爬进行讲解，应该适合爬虫入门的同学去看吧。

书中一点很好的就是代码都非常规范，而且即使是写作文的使用urllib2，也有意模仿scrapy的框架去写，需要抓取的数据独立一个类，类似于scrapy的item，数据处理用的也是叫pipleline的方法。
这样写的好处就是，每个模块的功能都一目了然，看完第一个例子的类和函数定义，后面的例子都是大同小异，可以加快读者的阅读速度，非常赞。（这一点以后自己要学习，增加代码的可复用性）

很多页面url现在已经过期了，再次运行作者的源码会返回很多404的结果。
失效的项目：
金逸影城
天气预报
获取代理：http://proxy360.com

本书的一些错误的地方：
1. 获取金逸影城的spider中，所有关于movie的拼写都拼错为moive了。这个属于英语错误。
2. 在testProxy.py 代码中，由于在同一个类中，一直在产生线程，最后导致线程过多，不能再产生线程。程序会中途退出。
File "C:\Python27\lib\threading.py", line 736, in start
_start_new_thread(self.__bootstrap, ())
thread.error: can't start new thread
可以修改成独立函数的形式，而不是类函数。

待续。查看全部

  File "C:\Python27\lib\threading.py", line 736, in start

    _start_new_thread(self.__bootstrap, ())

thread.error: can't start new thread

可以修改成独立函数的形式，而不是类函数。

待续。

NLTK基础教程用nltk和python库构建机器学习应用笔记与勘误

书籍 • 李魔佛发表了文章 • 0 个评论 • 3482 次浏览 • 2018-11-13 13:55 • 来自相关话题

[读后笔记] python网络爬虫实战（李松涛）

书籍 • 李魔佛发表了文章 • 0 个评论 • 4024 次浏览 • 2017-12-14 11:28 • 来自相关话题

  File "C:\Python27\lib\threading.py", line 736, in start

    _start_new_thread(self.__bootstrap, ())

thread.error: can't start new thread

可以修改成独立函数的形式，而不是类函数。

待续。

更多...

NLTK基础教程用nltk和python库构建机器学习应用笔记与勘误

[读后笔记] python网络爬虫实战（李松涛）

NLTK基础教程用nltk和python库构建机器学习应用笔记与勘误

[读后笔记] python网络爬虫实战（李松涛）

话题描述

相关话题

最佳回复者

2 人关注该话题

读书笔记

NLTK基础教程 用nltk和python库构建机器学习应用 笔记与勘误

[读后笔记] python网络爬虫实战 （李松涛）

NLTK基础教程 用nltk和python库构建机器学习应用 笔记与勘误

[读后笔记] python网络爬虫实战 （李松涛）

话题描述

相关话题

最佳回复者

2 人关注该话题

NLTK基础教程用nltk和python库构建机器学习应用笔记与勘误

[读后笔记] python网络爬虫实战（李松涛）

NLTK基础教程用nltk和python库构建机器学习应用笔记与勘误

[读后笔记] python网络爬虫实战（李松涛）