注:本文下面的内容仅评论绕过思路,作为技能交流之用。咱们下载论文仍是应该经过正规渠道,付费下载,尊重各位站长的劳动成果。灵敏图片和代码中触及站点的内容均已打码。
有时候要研讨技能,咱们也需求下载一些论文来看看的。一些论文站点,尽管供给预览功用,可是下载却是收费的。
举个比如,如下站点:
当咱们点击“赞同并开端全文预览”按钮时,是有一个弹出窗口来预览论文的。
可是当咱们点击“下载”按钮时,却提示需求收费。
一方面它单篇论文的收费真实是挺贵的;别的一方面,咱们或许更倾向于把论文批量下载到本地,比及有时间时渐渐读完。这该怎么办呢?
咱们F12看看预览页面的内容:
能够明晰的看到,id=”pdf”的div下的每个子节点div对应着论文的每一页,而每一个子div中包括的img标签对应的图片则是每一页的内容。咱们将img标签的src中的链接仿制出来,粘贴在浏览器的新页签中,其实是能够看到本页论文内容,而右键“保存图片”是能够将此页论文保存到本地的。
以上便是手动绕过约束下载论文的思路。可是有的论文页数真实太多,手动逐一仿制链接下载真实有些功率低下,所以咱们能够写个脚原本提高功率。
#coding:utf-8
import traceback
import urllib2
import urllib
import sys
import Queue
import os
import time
from bs4 import BeautifulSoup
from selenium import webdriver
driver = webdriver.Firefox()
driver.implicitly_wait(30)
host = "此处打码"
searchurl = "https://" + host + "/index.php?m=Search&a=index"
dstpath = "h:/downloadpdf"
download_queue = Queue.Queue()
reload(sys)
sys.setdefaultencoding("utf-8")
class UnicodeStreamFilter:
def __init__(self, target):
self.target = target
self.encoding = 'utf-8'
self.errors = 'replace'
self.encode_to = self.target.encoding
def write(self, s):
if type(s) == str:
s = s.decode("utf-8")
s = s.encode(self.encode_to, self.errors).decode(self.encode_to)
self.target.write(s)
if sys.stdout.encoding == 'cp936':
sys.stdout = UnicodeStreamFilter(sys.stdout)
def get_search_result(keywords):
data = {"q":keywords}
headers = {"cookie":"拜访论文站点时f12看到的cookie填入此处,此处打码"}
req = urllib2.Request(url=searchurl,data=urllib.urlencode(data),headers=headers)
res = urllib2.urlopen(req)
content = res.read()
soup = BeautifulSoup(content, features="lxml")
divlist = soup.find_all(class_="item-title")
if divlist is not None and len(divlist) > 0:
for divitem in divlist:
alist = divitem.find_all("a")
if alist is not None and len(alist) > 0:
ahref = alist[0].attrs["href"]
title = alist[0].attrs["title"]
download_queue.put([
"http://%s%s"%(host,ahref,),
title
])
def save_pdf(title, imgls, chost):
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
[1] [2] [3] 黑客接单网
我最近正在研讨Java文件传输,碰到了一些风趣的问题。这些问题是我在看到一篇博客中的几个示例代码中发现的。这篇文章描述了用Java履行SCP指令的体系,运用的是盛行的JSch库。当我通读整个代码之后,...
2019年5月中旬,蜜罐体系监测到了一同进犯事情,引起了咱们的留意,小伙伴们敏捷跟进分析,并经过技术手段拿下黑客操控端服务器,发现黑客运用了一款名为“神起ddos集群”的软件,操控了3000+的僵尸网...
这个Ruby结构包括一些能够浸透测验WordPress网站和体系的模块,用户也能够自己开发模块扩展其功用。 运转它需求什么条件? 保证体系上装置了Ruby 2.2.x,翻开一个指令行窗口,切换当时目录...
TA505以运用歹意垃圾邮件和不同的歹意软件来进犯金融安排和零售企业而臭名远扬。研究人员在曩昔2个月检测到与TA505相关的进犯活动。在该安排的最近活动中,运用了HTML附件来传达歹意XLS文件,XL...
Rust是一门体系编程言语,专心于安全,尤其是并发安全,支撑函数式和指令式以及泛型等编程范式的多范式言语。Rust在语法上和C++类似,可是设计者想要在确保功用的一起供给更好的内存安全。 由于Rust...
Fiyo CMS是小型的商务电话服务及移动协作东西,由一名前职业学校学生初次开发和创立的,后者其时在RPL的SMK 10三宝垄学习。 那时他的姓名不是Fiyo CMS,而是Sirion,它是Site...