requests请求返回的json格式为bytes乱码
问题背景:
抓取页面信息,网址 https://www.zhihu.com/xen/mark ... 15904
通过浏览器解析,实际请求json的网址为 https://api.zhihu.com/details/recommend/live/787267218680315904/list
(该链接需要复制到浏览器才能看到json,可能还需要登陆)
如下图示
使用requests包抓取,headers信息均按网页上信息全量填写(包括cookies)
staus状态为200,得到的文本信息bytes编码尝试过UTF-8,GBK,GB2312等均无法编码
得到的r.content如下
注意如果是16进制编码,那么长度为3,但是会有\xb6D\xady\xdc<yN\x9e\xccd\xb1~\这种情况
b'\x15\x11\x85\x00\xe4\xaf\xca\xd9\xff\xaf\xb6D\xady\xdc<yN\x9e\xccd\xb1~\xcb\xe1\xff\x99\xc8\xaa\xcar\xf3o\xdb\xee\xb0q\xbfa\x12f6 \x81\x07\xc0B\xb4iF\xbb\xdb\x06\x81\xb1-$\x01\x11\x7f\xb5|Tf\x95V\xfc\x9f\xcd\xf4\xf5\xbe\xba\xd2\x191\xe1\xd2\x9d\xaf\xf2\x06\x076D\x15Se\xa0\x83\xd5\x1f:X\xa3\x02\x08+\x85t\n\xd3\x06\xb1LQ\xe7eu8\xd2\x99`&\x80e\x8aZ\x106P\x17\x97nC}\x8a>}M6d\x95\xe8\xb9\xf7\xf6\xf9\xcc\xd9\xc4\x85\x05\x06\x82\xed{\xf2\xaf\xc9/\xee\xd1\xf4\x93G\xc9\xe4\xbf&\xd3\xcf\xa7\xfc\x93<\x99\x9cy\xf6\xc2\x8f\'O\xfc?\xcd$\x93I2\x9e\x0c\xe3=N&\x93\xe4\xdf\xc7\x93\xdc\xcd\xb8d\xf2\x7f\xfdk\xf2\xfc\xaf/\xa6\xa6\xf3d2\xb1h\xc9"\x12)\xc3\xc4\x00\x86\x92\xf1\xe4\xf8\xa4\xd9#K\x10L\xc4dQ\n2\xc6\xf2\xc1\xff\xbe=\xcd_d\xfeY2\x99\xb8\x9f\xd3\x17\x8f\x93\xf1dfz\xe6g\x9fL&a\xf7&\x9c}\x0fg{\xf5v\xab\xba\xbc\xadO\x0f\x1f\x86\xedj\xb0X\xbfz9ZZ\xab\xda\xf3e\xefK\xd8\xbd\xa9n\x9b\xb1s\x1eZ\x97\xc9x2\xfd\xd8=\xf2\xc9\xe4\xffJ~\x9a\x99\xf9\xe5\xf9\xe4_\xfe\xf2\xcbt&\'\xfe\xe5\xa7\xe9\xc7\x8f&\xb2\xa7\x8f\xff\xf2\xab\xfc\x1b\x91\xa2$k\x89\x8c\xce\x95\x90\x00)\xe7\x19\xa8\xcc"b\x9e\xcbt\xea\xd9\xc4\xff\xfb\xe5Q\xf2\x7f\xc6\x13\xf7b\xe6\xa7\xa7\xcf\x92\xc9\xff\x95\xd4\x17\x8b\xd5\x9b\xc3\xb8\xfd}\xb4}\x95\xfc\x9f\xf1$u\xf9#\x9fL\xfe\xafd:\xf7Of\xa6g\xfe9\xf9?\xe3\xc9\xf3\x17\x8f\x1f\xbbg\xff\x9cL&\xf5\xc5b\xf5\xe606?\x86\xa5~\xd5\x9e\x0f\x8b\x0b\xe1\xec\xba\x1c\xec\xd4W\xd7e\xff4\xbc\x99M\xc6\x93\xdc?\xbf\x12\xc0\xc1\xd3O\x9f\x9c\xe5)\xa73\x9fLZ#\xc4\x99\xb9\xe1\xc7Og\xa6\x9f>\x99\xdaud\xfe\xe2\x99\xfb\xac\xf6\xa3\xb0\x02\xc7\x93\xec\'
抓取页面信息,网址 https://www.zhihu.com/xen/mark ... 15904
通过浏览器解析,实际请求json的网址为 https://api.zhihu.com/details/recommend/live/787267218680315904/list
(该链接需要复制到浏览器才能看到json,可能还需要登陆)
如下图示
使用requests包抓取,headers信息均按网页上信息全量填写(包括cookies)
staus状态为200,得到的文本信息bytes编码尝试过UTF-8,GBK,GB2312等均无法编码
得到的r.content如下
注意如果是16进制编码,那么长度为3,但是会有\xb6D\xady\xdc<yN\x9e\xccd\xb1~\这种情况
b'\x15\x11\x85\x00\xe4\xaf\xca\xd9\xff\xaf\xb6D\xady\xdc<yN\x9e\xccd\xb1~\xcb\xe1\xff\x99\xc8\xaa\xcar\xf3o\xdb\xee\xb0q\xbfa\x12f6 \x81\x07\xc0B\xb4iF\xbb\xdb\x06\x81\xb1-$\x01\x11\x7f\xb5|Tf\x95V\xfc\x9f\xcd\xf4\xf5\xbe\xba\xd2\x191\xe1\xd2\x9d\xaf\xf2\x06\x076D\x15Se\xa0\x83\xd5\x1f:X\xa3\x02\x08+\x85t\n\xd3\x06\xb1LQ\xe7eu8\xd2\x99`&\x80e\x8aZ\x106P\x17\x97nC}\x8a>}M6d\x95\xe8\xb9\xf7\xf6\xf9\xcc\xd9\xc4\x85\x05\x06\x82\xed{\xf2\xaf\xc9/\xee\xd1\xf4\x93G\xc9\xe4\xbf&\xd3\xcf\xa7\xfc\x93<\x99\x9cy\xf6\xc2\x8f\'O\xfc?\xcd$\x93I2\x9e\x0c\xe3=N&\x93\xe4\xdf\xc7\x93\xdc\xcd\xb8d\xf2\x7f\xfdk\xf2\xfc\xaf/\xa6\xa6\xf3d2\xb1h\xc9"\x12)\xc3\xc4\x00\x86\x92\xf1\xe4\xf8\xa4\xd9#K\x10L\xc4dQ\n2\xc6\xf2\xc1\xff\xbe=\xcd_d\xfeY2\x99\xb8\x9f\xd3\x17\x8f\x93\xf1dfz\xe6g\x9fL&a\xf7&\x9c}\x0fg{\xf5v\xab\xba\xbc\xadO\x0f\x1f\x86\xedj\xb0X\xbfz9ZZ\xab\xda\xf3e\xefK\xd8\xbd\xa9n\x9b\xb1s\x1eZ\x97\xc9x2\xfd\xd8=\xf2\xc9\xe4\xffJ~\x9a\x99\xf9\xe5\xf9\xe4_\xfe\xf2\xcbt&\'\xfe\xe5\xa7\xe9\xc7\x8f&\xb2\xa7\x8f\xff\xf2\xab\xfc\x1b\x91\xa2$k\x89\x8c\xce\x95\x90\x00)\xe7\x19\xa8\xcc"b\x9e\xcbt\xea\xd9\xc4\xff\xfb\xe5Q\xf2\x7f\xc6\x13\xf7b\xe6\xa7\xa7\xcf\x92\xc9\xff\x95\xd4\x17\x8b\xd5\x9b\xc3\xb8\xfd}\xb4}\x95\xfc\x9f\xf1$u\xf9#\x9fL\xfe\xafd:\xf7Of\xa6g\xfe9\xf9?\xe3\xc9\xf3\x17\x8f\x1f\xbbg\xff\x9cL&\xf5\xc5b\xf5\xe606?\x86\xa5~\xd5\x9e\x0f\x8b\x0b\xe1\xec\xba\x1c\xec\xd4W\xd7e\xff4\xbc\x99M\xc6\x93\xdc?\xbf\x12\xc0\xc1\xd3O\x9f\x9c\xe5)\xa73\x9fLZ#\xc4\x99\xb9\xe1\xc7Og\xa6\x9f>\x99\xdaud\xfe\xe2\x99\xfb\xac\xf6\xa3\xb0\x02\xc7\x93\xec\'
没有找到相关结果
已邀请:
1 个回复
李魔佛 - 公众号:可转债量化分析 【论坛注册:公众号后台留言邮箱】
赞同来自:
把
'accept-encoding': 'gzip, deflate, br',
这个去掉就可以了。