从Wikipedia XML转储中获取特定的“页面”

时间:2023-01-14 23:21:42

OK, so this is what I need :

好的,这就是我需要的:

  • I have downloaded and extracted the full Wikipedia XML dump (>40GB, single XML file)
  • 我已经下载并提取了完整的Wikipedia XML转储(> 40GB,单个XML文件)
  • I need to retrieve one particular <page> element (e.g. the page for the entry "Italy")
  • 我需要检索一个特定的 元素(例如条目“Italy”的页面)

How can I do this? (Preferably with PHP code or some existing tool)

我怎样才能做到这一点? (最好使用PHP代码或一些现有工具)

1 个解决方案

#1


0  

There is no guarantee that the full content of the page will be sequentially located, revisions might be anywhere in the same file or even in different XML files.

无法保证页面的完整内容将按顺序排列,修订可能位于同一文件中的任何位置,甚至可能位于不同的XML文件中。

Please use or the web API's action=export at worst Special:Export. Not adding a link here because the output is huge.

请使用或web API的动作=出口最差特殊:出口。这里没有添加链接,因为输出很大。

#1


0  

There is no guarantee that the full content of the page will be sequentially located, revisions might be anywhere in the same file or even in different XML files.

无法保证页面的完整内容将按顺序排列,修订可能位于同一文件中的任何位置,甚至可能位于不同的XML文件中。

Please use or the web API's action=export at worst Special:Export. Not adding a link here because the output is huge.

请使用或web API的动作=出口最差特殊:出口。这里没有添加链接,因为输出很大。