找回密码
 立即注册
首页 python python-基础 查看内容

如何将.txt中保存的URL列表输入到Python程序中?


我有一个保存在.txt文件中的URL列表,我想一次一个地将它们提供给一个名为url我应用来自newspaper3k python库的方法的变量。该程序提取URL内容,文章的作者,文本摘要等,然后将信息打印到新的.txt文件。当您将一个URL作为用户输入时,该脚本可以正常工作,但是我应该怎么做才能从带有数千个URL的.txt中读取?

我只是从Python开始,事实上这是我的第一个脚本,所以我试图简单地说url = (myfile.txt),但我意识到这不起作用,因为我必须一次读取一行文件。所以我试图申请read()和readlines()它,但它不会正常工作,因为'str' object has no attribute 'read'或'readlines'。我应该使用什么来读取保存在.txt文件中的URL,每个以新行开头,作为我的简单脚本的输入?我应该将字符串转换为其他内容吗?

从代码中提取,第1-18行:
from newspaper import Article
from newspaper import fulltext
import requests


url = input("Article URL: ")
a = Article(url, language='pt')
html = requests.get(url).text
text = fulltext(html)
download = a.download()
parse = a.parse()
nlp = a.nlp()
title = a.title
publish_date = a.publish_date
authors = a.authors
keywords = a.keywords
summary = a.summary

后来我构建了一些函数来以所需的格式显示信息并将其保存为新的.txt。我知道这是一个非常基本的,但老实说我被困了......我在这里读过其他类似的问题,但我无法理解或应用这些建议。那么,从.txt文件中读取URL的最佳方法是将它们一次一个地提供给url变量,应用其他方法来提取其内容?

这是我在这里的第一个问题,我理解该论坛的目标是更有经验的程序员,但我真的很感激一些帮助。如果我需要编辑或澄清这篇文章中的内容,请告诉我,我会立即纠正。

解决方法


这可以帮助你:
url_file = open('myfile.txt','r')
for url in url_file.readlines():
   print url
url_file.close()


您可以将其应用于您的代码,如下所示
from newspaper import Article
from newspaper import fulltext
import requests

url_file = open('myfile.txt','r')
for url in url_file.readlines():
  a = Article(url, language='pt')
  html = requests.get(url).text
  text = fulltext(html)
  download = a.download()
  parse = a.parse()
  nlp = a.nlp()
  title = a.title
  publish_date = a.publish_date
  authors = a.authors
  keywords = a.keywords
  summary = a.summary
url_file.close()

分享至 : QQ空间
收藏

0 个回复

您需要登录后才可以回帖 登录 | 立即注册