妹妹站,全站采集自动发布

作者 : 小姬推荐 发布时间: 2019-11-18 文章热度:203 共2314个字,阅读需6分钟。 本文内容有更新 字体:
  • 文章介绍
  • 采集说明:crawler下的每个文件都是一个独立爬虫,分别对应一个站。需要采集那个站就修改那个文件,默认采集首页,根据标题去重。爬虫里有备注

    另外,建议第一次采集全站,然后修改配置,只采集第一页,写进linux定时任务里

    本地图片发布说明:cd 到 crawler,执行python3 AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间

    图片压缩使用说明:有些网站可能未对图片进行压缩,一张图1m甚至几m不但降低传输速度还占空间。cd 到 crawler,执行python3 Compress.py,

    根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变,实测1m图片压缩到100k后肉眼看不出区别

    宝塔安装教程:最初因为这是Python程序只用安装mysql和nginx(可选),所以一直没写教程。群里一老哥写了一个教程,在此借用下

    直接上老哥博客地址:

    https://sunsea.im/131/bt-94imm-build-beautiful-girl-picture-station/

    演示地址:模板1 https://www.94imm.com、 模板2 http://mm.94imm.com(联通有墙)

    git地址:https://git.coding.net/zxy_coding/94imm.git

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    16

    17

    18

    19

    20

    21

    22

    23

    24

    25

    26

    27

    28

    29

    30

    31

    32

    33

    34

    35

    36

    37

    38

    39

    40

    41

    42

    43

    44

    45

    46

    47
    1.环境需求Python3.6.5、mysql5.7、nginx(可选)。系统版本推荐centos7 64位

    2.环境搭建

      python3.6.5参考 http://blog.51cto.com/wenguonideshou/2083301,软链地址有问题,注意看回复

      mysql5.7安装,参考https://blog.csdn.net/qq_38663729/article/details/79327305

      python-dev安装,参考https://blog.csdn.net/default7/article/details/73368665

      安装程序依赖,进入程序目录,输入:pip3 install -r requirements.txt

    3.程序安装

      修改silumz下settings.py文件中数据库的配置

      DATABASES = {

          'default': {

              'ENGINE''django.db.backends.mysql',

              'NAME''xxxx',

              'USER''root',

              'PASSWORD''xxxx',

              'HOST''127.0.0.1',

              'PORT''3306',

          }

      }

      创建相应数据库,导入程序目录下的sql文件

      修改nginx配置文件(centos7  /etc/nginx/nginx.conf)

      配置文件的server中的location字段如下修改

      location / {

                proxy_pass   http://127.0.0.1:8000;

                index  index.html index.htm;

            }

      重启nginx,访问网站即可

    4.修改爬虫中的数据库地址

      爬虫位于crawler目录下,每一个文件都是独立的,可单独执行

      建议第一次运行时修改爬虫参数为采集全站,运行完修改参数为采集第一页,然后在linux中添加定时任务。实现自动采集

    5.启动程序

      进入程序目录,uwsgi --ini uwsgi.ini

    6.模板修改

      修改silumz下settings文件中的模板配置

      TEMPLATES = [

        {

            'BACKEND''django.template.backends.django.DjangoTemplates',

            'DIRS': [os.path.join(BASE_DIR, 'templates'+"/"+"94imm")]

      94imm为模板名

      模板文件位于templates文件夹下,修改相应页面

    7.其他配置

      将模板目录下的pagination.html文件放入python安装目录的/site-packages/dj_pagination/templates/pagination/

      (centos7  /usr/lib/python3.6/site-packages/dj_pagination/templates/pagination

    8.备注说明

      其他系统请自行百度mysql python3.6.5 nginx的安装方法,程序安装方法相同

    更新内容

    9.自动发布位于crawler下,执行python3 AutoPost.py 即可,注意输入文件夹时选择图片根目录,脚本会自动获取根目录下的所有子目录,并将子目录名作为标题,并复制子目录下所有文件到static/images/随机7个字母/ 下并删除源文件

    10.压缩脚本位于crawler下,执行python3 Compress.py 即可,演示时使用兔玩的图片,发现图片太大,平均每张1M左右,600多套就占30G。所以写了个批量压缩脚本,同样是输入图片根目录,可以选在覆盖原图或在新目录压缩

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
    2. 分享目的仅供大家学习和交流,请不要用于商业用途!
    3. 如果你也有好源码或者教程,可以到审核区发布,分享有J币奖励和额外收入!
    4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
    5. 如有链接无法下载、失效或广告,请联系管理员处理!
    6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
    7. 如遇到加密压缩包,默认解压密码为"www.gaoanj.cn",如遇到无法解压的请联系管理员!

    高岸姬 » 妹妹站,全站采集自动发布
    4
    +864天安全运行
    高岸姬专注高端网站建设
    0
    +0篇本周更新
    我更新我快乐

    VIP免费下载全站资源

    立即了解