1. IEEE论文爬虫
爬虫代码网上有很多了,这部分是直接用的网上可以跑通的。使用的时候直接调用get_article_info(),其中参数 conferenceID需要手动在 IEEE 上查询会议的 ID 号,参数 saceFileName为希望保存的 csv 文件名。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102
   |  def get_issueNumber(conferenceID):     """     Get the issueNumber from the website.     """     conferenceID = str(conferenceID)     gheaders = {         'Referer': 'https://ieeexplore.ieee.org/xpl/conhome/'+conferenceID+'/proceeding',         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'     }     md_url = 'https://ieeexplore.ieee.org/rest/publication/home/metadata?pubid='+conferenceID     md_res = requests.get(md_url, headers = gheaders)     md_dic = json.loads(md_res.text)     issueNumber = str(md_dic['currentIssue']['issueNumber'])     return issueNumber
 
  def get_article_info(conferenceID, saveFileName):     """     Collect the published paper data, and...
  |