主机论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 288|回复: 9

求一个爬虫的解决方案。技术佬请进。

[复制链接]

194

主题

744

回帖

2726

积分

金牌会员

Rank: 6Rank: 6

积分
2726
发表于 2025-3-15 23:10:06 | 显示全部楼层 |阅读模式
google的notebookml,没有api。这个notebookml主要作用就是读论文,返回一些文章的摘要。

试问各位大佬,我用python写个爬虫还是什么样子的自动化工具, 然后买一台服务器,我通过一些方式(服务器搭建一个Django或者springboot的接口)上传这个需要阅读的论文,然后获取到这个文件之后,python写一个自动化的脚本,例如使用selenium,或者drissionpage,进行提交到这个notebookml(是一个在线网址,需要国外的服务器),然后这个notebookml会生成一些内容,然后通过爬虫把这些内容获取到之后,再用Django写个api 暴露这些内容,传给一个自动化的平台(make or coze)这样是不是就可以发不到公众号上了? 请问大佬这些步骤是不是有哪些是可以优化的? 谢谢各位大佬。
回复

使用道具 举报

43

主题

117

回帖

523

积分

高级会员

Rank: 4

积分
523
发表于 2025-3-16 00:50:33 | 显示全部楼层
看起来好复杂
回复

使用道具 举报

194

主题

744

回帖

2726

积分

金牌会员

Rank: 6Rank: 6

积分
2726
 楼主| 发表于 2025-3-16 20:10:49 | 显示全部楼层
其实不复杂
回复

使用道具 举报

9

主题

202

回帖

737

积分

高级会员

Rank: 4

积分
737
发表于 2025-3-16 20:38:14 | 显示全部楼层
用高铁不是就行了 何必这么复杂 还去搞个爬虫
回复

使用道具 举报

3

主题

120

回帖

409

积分

中级会员

Rank: 3Rank: 3

积分
409
发表于 2025-3-16 20:44:44 | 显示全部楼层
论文不都是有现成的摘要吗
回复

使用道具 举报

12

主题

166

回帖

572

积分

高级会员

Rank: 4

积分
572
发表于 2025-3-16 20:45:26 | 显示全部楼层
思路可行,但逆向api得自己慢慢搞,并随时失效,碰到其他风控也无解,工程量比你想象的要大得多。
回复

使用道具 举报

18

主题

336

回帖

1052

积分

金牌会员

Rank: 6Rank: 6

积分
1052
发表于 2025-3-16 21:10:44 | 显示全部楼层
感觉我一个外行都觉得你技术栈有点落后了

用playwright 代替selenium, 用fastapi代替Django
回复

使用道具 举报

194

主题

744

回帖

2726

积分

金牌会员

Rank: 6Rank: 6

积分
2726
 楼主| 发表于 2025-3-16 21:18:47 | 显示全部楼层
伊吹風子 发表于 2025-3-16 20:45
思路可行,但逆向api得自己慢慢搞,并随时失效,碰到其他风控也无解,工程量比你想象的要大得多。 ...

不逆向,直接使用selenium 这种解决方案
回复

使用道具 举报

29

主题

127

回帖

523

积分

高级会员

Rank: 4

积分
523
发表于 2025-3-16 20:45:00 | 显示全部楼层
去看看抓包吧,这个都没有任何加密,直接就能获取,简单到不能再简单
回复

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

Rank: 1

积分
4
发表于 2025-3-16 21:19:29 | 显示全部楼层
我也觉得,搞这么复杂,对性能没要求,直接上webkit
host0108 发表于 2025-3-16 21:25
我也觉得,搞这么复杂,对性能没要求,直接上webkit

能解决上面的一套流程吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|主机论坛

GMT+8, 2025-9-20 00:05 , Processed in 0.067816 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表