diff --git a/README.md b/README.md index 20a4ede..389c017 100644 --- a/README.md +++ b/README.md @@ -4,8 +4,8 @@ # 仓库描述 -**小红书爬虫**,**抖音爬虫** ...。 -目前能稳定抓取小红书的视频、图片、评论、点赞、转发等信息,抖音的视频、图片、评论、点赞等信息。 +**小红书爬虫**,**抖音爬虫**, **快手爬虫**...。 +目前能抓取小红书、抖音、快手的视频、图片、评论、点赞、转发等信息。 原理:利用[playwright](https://playwright.dev/)搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低。 @@ -25,6 +25,7 @@ - [x] 抖音滑块(模拟滑动实现,准确率不太OK) - [x] 抖音指定关键爬取 - [x] 抖音指定帖子爬取 +- [x] 快手指定关键词爬取 - [x] 支持登录成功后的上下文浏览器环境保留 - [x] 代理池实现(手机号+IP) - [x] 并发执行爬虫请求 @@ -33,7 +34,7 @@ ## 待实现 -- [ ] 快手爬虫实现 +- [ ] 快手登录(二维码、手机号) ## 使用方法 diff --git a/config/db_config.py b/config/db_config.py index 1e9d267..270edd3 100644 --- a/config/db_config.py +++ b/config/db_config.py @@ -9,4 +9,4 @@ RELATION_DB_PWD = os.getenv("RELATION_DB_PWD", "123456") # your relation db pas RELATION_DB_URL = f"mysql://root:{RELATION_DB_PWD}@localhost:3306/media_crawler" # save data to database option -IS_SAVED_DATABASED = True # if you want to save data to database, set True +IS_SAVED_DATABASED = False # if you want to save data to database, set True