大数据之科大优质home平台推荐!
home是什么
中国科学技术大学(以下简称科大)给每个学生都免费提供了一个官方域名和300M的静态服务器空间,供制作个人主页之用(22届以后就没了,悲)。简单来说,就是一个服务器,它的域名是home/ustc/edu/cn/~邮箱
中科大个人主页制作教程
如何制作中科大个人主页?
为什么我推荐?
很多学长在上面放了科大的学习资料,实用工具,可以带给我们更好的大学体验
大数据与推荐标准
截止2023/8/2 3:20:42共有551个邮箱对外开放(即可以从http访问)
7%的比例不算太高,但绝对是一个可观的数字。
我对其中进行筛选:index.html在10kb以上的,就是这些了,显然,这不是一个好的标准。(看了一下,非常不精准。。。。。)
如果有更好的鉴别方法,欢迎联系我。
密码:最简单17数
请输入你的秘钥:
代码实现方式
import re
import requests
i = 0
f = open('D:/python/1.txt', "r", encoding='utf-8') # 未清理数据
for line in f:
r = line.split(",")
result = r[2]
if re.match(r".*@mail\.ustc\.edu\.cn\n", result): # 去除奇怪的邮箱
# print(r[0])
# print(r[1])
url = "http://home.ustc.edu.cn/~" + r[2][:-18]
param = {}
response111 = requests.get(url=url, params=param)
response111.encoding = 'Unicode'
response = response111.status_code
if (response == 200):
fff = open('D:/python/2.txt', "a", encoding='utf-8') # 清理后
fff.write(r[0] + "," + r[1] + "," + url + "\n")
s = open('D:/python/' + r[2][:-18] + ".txt", "w", encoding='utf-8') # index文件
s.write(response111.text)
elif (response == 404):
pass
else:
try:
print("warning!" + str(response) + url) # 一般是403
except:
pass
i = i + 1
print(i)
更新
8/02 初稿
8/02 接下来更新全部home的索引查询!一站直指千站
8/03 加密防隐私泄露,这个完全由公开网页构成,先就这样
特别赞助:云天大数据中心&新雅工作室
大数据之科大优质home平台推荐!
http://home.ustc.edu.cn/~gxy666/2023/08/02/5/