NLTK基础教程 用nltk和python库构建机器学习应用 笔记与勘误

李魔佛 发表了文章 • 0 个评论 • 106 次浏览 • 2018-11-13 13:55 • 来自相关话题

勘误:
1. 第6页:
lst[0:2]
这个应该是list的前2位,不是前3位。(不应该啊,这么基础的都会错)
输出是1,2
 
2. 第25页
wlem.lemmatize('ate') 改为
wlem.lemmatize('ate','v’)
需要手工添加一个动词v,才能够识别到词性的原型。
 
  查看全部
NLTK基础教程_thumbnail.jpg

勘误:
1. 第6页:
lst[0:2]
这个应该是list的前2位,不是前3位。(不应该啊,这么基础的都会错)
输出是1,2
 
2. 第25页
wlem.lemmatize('ate') 改为
wlem.lemmatize('ate','v’)
需要手工添加一个动词v,才能够识别到词性的原型。
 
 

零起点python机器学习快速入门 读后感

李魔佛 发表了文章 • 0 个评论 • 189 次浏览 • 2018-10-15 09:24 • 来自相关话题

 这是第二次读零起点系列的书,这个系列的书没有最烂,只有更烂。
没想到出书还能够出成这个样子的。书的内容如果压缩一下,估计也就30-40页的内容,因为大部分都是不断的重复垃圾代码。
像import库,代码作者等信息,居然可以占了一页,关键是,这些无用的信息居然还在每个项目中都重复出现。 
核心代码就没几句,大部分是输出信息,看起来书本大部分内容都是一样的,只是输出的具体内容不一样。 
通篇都是输出 print (df.tail()) 这种格式的。
 
说实在,大部分内容都是在网上抄袭sklearn官网的,图也是截取官网的。很无趣的一本书,还好是在图书馆借的,花了2小时左右就把书看完了。
想看的真心建议不要买了。上几页样本让大家体验一下。















 
上面是不同的页,但是内容却无比的相似。
 
 还有代码第一次见这么奇葩的,一行里面写几句python语句;
对训练结果集不做任何的归一化处理。
  查看全部
零起点python机器学习快速入门.jpg

 这是第二次读零起点系列的书,这个系列的书没有最烂,只有更烂。
没想到出书还能够出成这个样子的。书的内容如果压缩一下,估计也就30-40页的内容,因为大部分都是不断的重复垃圾代码。
像import库,代码作者等信息,居然可以占了一页,关键是,这些无用的信息居然还在每个项目中都重复出现。 
核心代码就没几句,大部分是输出信息,看起来书本大部分内容都是一样的,只是输出的具体内容不一样。 
通篇都是输出 print (df.tail()) 这种格式的。
 
说实在,大部分内容都是在网上抄袭sklearn官网的,图也是截取官网的。很无趣的一本书,还好是在图书馆借的,花了2小时左右就把书看完了。
想看的真心建议不要买了。上几页样本让大家体验一下。

IMG_20181013_222049R_副本.jpg


IMG_20181013_222108R_副本.jpg


IMG_20181013_222134R_副本.jpg

 
上面是不同的页,但是内容却无比的相似。
 
 还有代码第一次见这么奇葩的,一行里面写几句python语句;
对训练结果集不做任何的归一化处理。
 

kindle使用率低

Freedom 回复了问题 • 2 人关注 • 1 个回复 • 491 次浏览 • 2018-09-05 17:15 • 来自相关话题

[读后笔记] python网络爬虫实战 (李松涛)

李魔佛 发表了文章 • 0 个评论 • 635 次浏览 • 2017-12-14 11:28 • 来自相关话题

用了大概一个早上的时间,就把这本书看完了。 
前面4章是基础的python知识,有基础的同学可以略过。
scrapy爬虫部分,用了实例给大家说明scrapy的用法,不过如果之前没用过scrapy的话,需要慢慢上机敲打代码。
其实书中的例子都是很简单的例子,基本没什么反爬的限制,书中一句话说的非常赞同,用scrapy写爬虫,就是做填空题,而用urllib2写爬虫,就是作文题,可以自由发挥。
 
书中没有用更为方便的requests库。 内容搜索用的最多的是beatifulsoup, 对于xpah或者lxml介绍的比较少。 因为scrapy自带的response就是可以直接用xpath,更为方便。
 
对于scrapy的中间和pipeline的使用了一个例子,也是比较简单的例子。
 
书中没有对验证码,分布式等流行的反爬进行讲解,应该适合爬虫入门的同学去看吧。
 
书中一点很好的就是代码都非常规范,而且即使是写作文的使用urllib2,也有意模仿scrapy的框架去写, 需要抓取的数据 独立一个类,类似于scrapy的item,数据处理用的也是叫pipleline的方法。
这样写的好处就是, 每个模块的功能都一目了然,看完第一个例子的类和函数定义,后面的例子都是大同小异,可以加快读者的阅读速度,非常赞。(这一点以后自己要学习,增加代码的可复用性)
 
 很多页面url现在已经过期了,再次运行作者的源码会返回很多404的结果。
失效的项目:
金逸影城
天气预报
获取代理:http://proxy360.com 

 
本书的一些错误的地方:
1. 获取金逸影城的spider中,所有关于movie的拼写都拼错为moive了。这个属于英语错误。
2. 在testProxy.py 代码中, 由于在同一个类中,一直在产生线程,最后导致线程过多,不能再产生线程。程序会中途退出。
File "C:\Python27\lib\threading.py", line 736, in start
_start_new_thread(self.__bootstrap, ())
thread.error: can't start new thread
可以修改成独立函数的形式,而不是类函数。
 

待续。 查看全部
Python网络爬虫实战_thunbnail.jpg

用了大概一个早上的时间,就把这本书看完了。 
前面4章是基础的python知识,有基础的同学可以略过。
scrapy爬虫部分,用了实例给大家说明scrapy的用法,不过如果之前没用过scrapy的话,需要慢慢上机敲打代码。
其实书中的例子都是很简单的例子,基本没什么反爬的限制,书中一句话说的非常赞同,用scrapy写爬虫,就是做填空题,而用urllib2写爬虫,就是作文题,可以自由发挥。
 
书中没有用更为方便的requests库。 内容搜索用的最多的是beatifulsoup, 对于xpah或者lxml介绍的比较少。 因为scrapy自带的response就是可以直接用xpath,更为方便。
 
对于scrapy的中间和pipeline的使用了一个例子,也是比较简单的例子。
 
书中没有对验证码,分布式等流行的反爬进行讲解,应该适合爬虫入门的同学去看吧。
 
书中一点很好的就是代码都非常规范,而且即使是写作文的使用urllib2,也有意模仿scrapy的框架去写, 需要抓取的数据 独立一个类,类似于scrapy的item,数据处理用的也是叫pipleline的方法。
这样写的好处就是, 每个模块的功能都一目了然,看完第一个例子的类和函数定义,后面的例子都是大同小异,可以加快读者的阅读速度,非常赞。(这一点以后自己要学习,增加代码的可复用性)
 
 很多页面url现在已经过期了,再次运行作者的源码会返回很多404的结果。
失效的项目:
金逸影城
天气预报
获取代理:http://proxy360.com 

 
本书的一些错误的地方:
1. 获取金逸影城的spider中,所有关于movie的拼写都拼错为moive了。这个属于英语错误。
2. 在testProxy.py 代码中, 由于在同一个类中,一直在产生线程,最后导致线程过多,不能再产生线程。程序会中途退出。
  File "C:\Python27\lib\threading.py", line 736, in start
_start_new_thread(self.__bootstrap, ())
thread.error: can't start new thread

可以修改成独立函数的形式,而不是类函数。
 

待续。