风之翼灵

百度贴吧图片采集系统
题外话程序专门采集百度贴吧图片,理论上,只要你希望这个站是什么样的图片站,就可以根据相关的贴吧进行图片的采集,例如...
扫描右侧二维码阅读全文
31
2017/07

百度贴吧图片采集系统

2.jpg

题外话

程序专门采集百度贴吧图片,理论上,只要你希望这个站是什么样的图片站,就可以根据相关的贴吧进行图片的采集,例如喜欢摄影的可以多设置一些相关的贴吧,例如我这里基本都是采集美铝图片,嘿嘿

程序使用Thinkphp5.0.10 为程序框架开发

前端使用AmazeUI 2.7.2 进行制作

程序目前实现根据指定贴吧进行采集,将采集后的图片存入本地服务器,通过后台管理已采集数据和设置采集贴吧名称。前端实现显示数据,搜索数据,分页,评论等效果。

采集的图片都存储在本地

演示

感谢小伙伴提供的演示
http://www.yimg.net

安装

nginx环境没试过,反正军哥的lamp一切正常。

nginx需要添加伪静态,看下面TP官方的添加即可
https://www.kancloud.cn/manual/thinkphp5/177576
http://www.thinkphp.cn/topic/34380.html

php5.6+ (php7.1一切正常)
mysql5.7 +

1、还原数据库
新建数据库,并在DB目录下找到备份的数据库文件,进行还原即可

2、修改数据库配置
在BaiDu文件夹中,找到database.php,根据注释按照你的信息修改数据库完成即可

3、网站标题等信息
网站前端设置没有做任何后台设置的功能(个人较懒,而且也不知道大家喜不喜欢这个小程序),所以修改前端相关的信息还是需要修改相关文件,如果大家给力,我会考虑把这些基础信息直接做到后台里面设置。

模板文件在
BaiDuindexviewindex

网站LOGO修改
top.html logo文件在 public/i/logo.png

网站标题
index.html
topnews.html
show.html
这三个文件分别为,主页,最热40图,内容页,相关页头和SEO的信息可以根据自己的需求修改

页脚
footer.html
网站统计和备案信息都在这修改。

畅言和打赏
程序本身没做评论功能,因为觉得畅言已经足够需求了,而且还提供了打赏功能。
show.html
各位亲,根据自己的需求,在show.html文件中大约91-106行修改为自己的相关信息即可。(不改打赏就给我打钱了)

4、上传
确认修改无误后,将程序二进制上传到你的VPS等服务器中

5、修改权限
修改权限只针对LINUX,WINDOWS的可以跳过,如果你的系统是LINUX,那么需要修改
runtime
publicimgupload
两个目录的权限为0777,否则报错

自动采集

使用windows或linux制作两个定时执行器执行下面两个页面即可

**1、设置采集列表 http://youhost/getlist
2、设置采集内容 http://youhost/getimg**

*列表采集建议每20分钟执行一次,内容建议2分执行一次,当然这些可以根据你的需要修改
PS.默认设置为图片大于4张采集,楼层小于20采集,如果需要可以自行修改*

后台登录

后台登录地址为 http://youhost/sysadmin
用户名:admin
密码:123

用户名和密码可以在后台中另行修改

版权

我说不允许改版权,我也不信你不改,所以改就改吧,但可以的话,友情链接来一个就可以

一些细节

如果发现采集停止,需要查看/runtime/log/下面的日志情况。

如有更新模板等,可以清空/runtime 目录下的所有文件。

由于贴吧中部分帖子为广告贴,但采集无法识别,所有当采集后可以通过删除进行处理。

服务器的选用

我分别用过国内和国外两台VPS来跑这个程序,结果是国内VPS一直很稳定,也是演示中的这个,国外的服务器由于会连接到贴吧超时,造成MYSQL各种挂掉。

带宽,1M感觉图片加载会有卡顿,带宽越大越好吧。

所以建议使用国内VPS,或相关VPS,其他的VPS根据网速来选择吧。

最后

程序是免费开源使用的,如果有能力的大大还可以继续修改,如果你有什么好的建议,那么也不妨留言讨论讨论。

另外,做个程序不易,开源更不容易,如果你愿意,可以打赏我一点哟,有动力才有更新嘛。哈哈

支付宝:
1501559073625.jpg

更新

2017-8-1 采集图片,貌似百度又变了规则,进行了调整
BaiDuTbBaiDuindexcontroller 到这个目录中,下载Baidu.php文件并替换原来的文件

发现github里上传少了vendor目录下的所有文件,已经提交更新,下载的请更新

程序下载

围观地址
https://github.com/fungjcode/BaiduTB

最后修改:2018 年 10 月 10 日 09 : 18 AM
如果觉得我的文章对你有用,请随意赞赏

62 条评论

  1. Lost

    赞一个

  2. 五八是十

    安装完把导入的数据在phpmyadmin里删除了 然后就不能采集了 导入的数据又没有图片只能在后台一个一个关闭掉

    1. 五八是十
      @五八是十

      runtime里面的日志是这样的
      [ 2018-04-26T12:30:21+08:00 ] 96.44.. 96.44.. GET /getlist
      [ info ] 宫崎骏目前正在更新该栏目,该栏目目前采集了次数为:0
      [ error ] [8]未定义变量: column

      采集列表任务的日志是 程序出了点小问题 ,十年磨大剑什么的

      请问楼主,这个列表不能采集是什么原因啊

  3. 五八是十

    错误日志是[ error ] [0]不支持: redis 这个怎么破啊 redis已经安装了重启了 php 7.2

    1. 风之翼灵
      @五八是十

      那很明显是你的redis有问题了,如果是军哥的LNMP的话,去LNMP的论坛上看下redis的端口需要开放防火墙

  4. 五八是十

    “我说不允许改版权,我也不信你不改,所以改就改吧,但可以的话,友情链接来一个就可以”

        哈哈哈哈哈  
  5. 晨曦

    啊偶,502了下载地址,另外,能否做到图片自动下载保存到目录主机呢

    1. 风之翼灵
      @晨曦

      稍等,GIT挂掉了,我恢复下,嗯,现在就是自动下载到你的服务器目录上面

  6. longskay

    站点还未生成数据,请稍后访问
    这是什么情况啊 大佬

    1. 风之翼灵
      @longskay

      就是说,你还没开始采集,列表和内容都没数据,要采集到信息后才能正常访问

  7. 筑楼

    最热四十图是不是变形?

    1. 风之翼灵
      @筑楼

      第一次加载速度慢,看着变形,第二次有缓存就不会了

  8. 筑楼

    已经在tmpinfo存在,不采集

    1. 风之翼灵
      @筑楼

      自动采集里面,内容采集你的自动执行时间是多久执行一次? 我估计是执行的时间慢了

发表评论