Википедия: как использовать его в автономном режиме в gnu / linux с zim и kiwix?

Специальные программы

Наиболее подходящий вариант для скачивания сайтов это использование утилит.

Приходится привыкать к тому, что в Интернете периодически появляются дополнительные программы, некоторые из них бесплатные, а некоторые меркантильные и требующие за идентичное действие деньги.

При этом функционал бесплатных программ (или как их называют в народе – оффлайн браузер), практически не уступает своим платным аналогам.

Основное отличие от онлайн сервисов, эта программа с задачей справляется быстрее, но необходимо поискать версию ПО, которое подойдет под вашу операционную систему.

Некоторые программы работают не только с Windows, а и с другими.

WinHTTrack

Программа WinHTTrack WebSite Copier

Наиболее используемая программа, которая предназначена, для того чтобы скачать сайт полностью на компьютер. Кстати бесплатные аналоги программы найти крайне трудно.

Дабы воспользоваться программой, необходимо скачать с официального сайта, нужную вам версию, проинсталлировать ее в свою систему и нажать «Пуск».

Первое окно, которое откроется необходимо выбрать язык интерфейса, русский язык в списке есть.

Интерфейс простой, поэтому не надо беспокоиться, что вы чего не поймете.

Откроется окно, в котором надо указывать имя и категорию, куда вы хотите сохранить скачанный сайт.

Следующий шаг — это введение адреса сайта, который вам нужен.

Программа с большим разнообразием настроек, в которых можно задать глубину просмотра ресурса, определить фильтры, которые будут указывать, что скачивать можно, а что нет.

К примеру, вы можете запретить скачку аудио или видео контента, который есть на сайте.

При необходимости можно открыть настройки и внимательно с ними ознакомиться.

Настройки WinHTTrack

Когда откроется следующее окно, нажмите кнопку «готово», и просто ждите когда завершиться скачивание.

После завершения, в ранее указанной папке вы сможете найти все файлы сайта.

Для открытия файлов, нужно выбрать файл index.htm

На сайт

Cyotek WebCopy

Программа Cyotek WebCopy

Программа для знающих английский язык, великолепным интерфейсом и большими возможностями.

Для этого нужно просто указать адрес нужного Интернет ресурса, выбрать необходимую папку для хранения скачанных файлов и нажать кнопку «Copy Website»

Остается просто ждать, завершения работы и в указанной папке найти необходимый файл, который и будет начальной страницей ресурса, подготовленного для просмотра оффлайн.

Недостаток: русского языка нет вообще, и то, что программа работает только на относительно свежих версиях Windows, версия XP не поддерживаются.

Teleport Pro

Программа Teleport Pro

Старейшая программа, правда, платная. Для пользователей есть тестовый период.

После того как установили и запустили приложение необходимо указать режим скачивания сайта. Это может быть как копия, как конкретные файлы и т.п.

После этого создается новый проект, который ассоциируется с сайтом, который скачивается и вводится адрес нужного вам Интернет-ресурса.

Глубина переходов изначально равна трем, ее в дальнейшем можно изменить, заглянув в настройки. Теперь остается нажать на далее и процесс пойдет.

Процесс сохранения

После создания нового проекта, указать место сохранения данных, и запустить загрузку сайта нажав на кнопку «start» на верхней панели.

Всё, процесс сохранения сайт на диск пошел.

Что такое Kiwix и как скачать ПО и базы Википедии

Kiwix — бесплатное мультиплатформенное ПО для оффлайн-доступа к Википедии и другим материалам. На официальном сайте для скачивания доступны приложения для чтения баз данных — Kiwix Reader и, отдельно, базы данных в специальном формате .zim  — Content Packages.

Скачать и то, и другое вы можете со следующих разделов официального сайта:

Обратите внимание, что базы данных, если брать только русскую Википедию, доступны в нескольких вариантах: самый большой на 2019 год содержит все статьи вместе с изображениями в них (maxi, 26 Гб), есть вариант без изображений (mini, 10 Гб) и варианты только с самыми популярными статьями или подборки материалов Википедии на определенную тему. Википедией доступные базы не ограничиваются, можно найти и другие интересные базы данных

Статические дампы дерева HTML для зеркалирования или распространения компакт-дисков

MediaWiki 1.5 включает в себя процедуры для сброса вики-страницы в HTML, визуализации HTML с помощью того же парсера, который используется в действующей вики-странице. Как указано на следующей странице, размещение одной из этих дампов в Интернете без изменений будет являться нарушением прав на товарный знак. Они предназначены для частного просмотра в интрасети или на рабочем столе.

  • Если вы хотите создать черновик традиционного веб-сайта в Mediawiki и вывести его в формат HTML, вы можете попробовать mw2html от пользователя: Connelly .
  • Если вы хотите помочь в разработке инструментов для преобразования дампа в статический HTML, напишите нам в список рассылки разработчиков .
  • Статические дампы HTML теперь доступны здесь , но не актуальны.

Кивикс

Kiwix на планшете Android

Kiwix на сегодняшний день является крупнейшим оффлайновым дистрибутивом Википедии . Как офлайн-программа для чтения, Kiwix работает с библиотекой содержимого, которое представляет собой zim-файлы: вы можете выбрать любой проект Викимедиа (Википедия на любом языке, Викисловарь , Википедия и т. Д.), А также TED Talks , PhET Interactive Maths & Physics. симуляции , проект Гутенберга и т. д.

Это бесплатное приложение с открытым исходным кодом, и в настоящее время его можно скачать на следующих сайтах:

  • Android
  • iOS
  • macOS
  • Windows и Windows 10 (UWP)
  • GNU / Linux

… а также расширения для браузеров Chrome и Firefox , серверные решения и т. д. Полное портфолио Kiwix см. на официальном веб-сайте .

Словарь Аард

Aard Dictionary — это автономная программа для чтения Википедии. Нет изображений. Кроссплатформенность для Windows, Mac, Linux, Android, Maemo. Работает на устройствах чтения электронных книг Nook и Sony PRS-T1 с root-доступом.https://github.com/aarddict

Электронная книга

Вики-как-книга магазин электронных книг , созданные из большого набора статей Википедии с черно — белыми изображениями для электронных книг читателей (2013).

Wikiviewer для Rockbox

Плагин wikiviewer для Rockbox позволяет просматривать преобразованные дампы Википедии на многих устройствах Rockbox . Требуется индивидуальная сборка и преобразование дампов вики, используя инструкции, доступные на http://www.rockbox.org/tracker/4755 . При преобразовании файл повторно сжимается и разбивается на файлы размером 1 ГБ и индексный файл, которые должны находиться в одной папке на устройстве или на карте micro SD.

Старые свалки

  • Статическая версия Википедии, созданная Викимедиа: http://static.wikipedia.org/, 11 февраля 2013 г. — Похоже, сейчас она недоступна. Контента не было.
  • Wiki2static (сайт закрыт с октября 2005 г. ) была экспериментальной программой, созданной пользователем: Alfio для создания дампов HTML, включая изображения, функцию поиска и алфавитный указатель. На указанном сайте можно скачать экспериментальные дампы и сам скрипт. В качестве примера он был использован для создания этих копий английской WikiPedia 24 апреля 04 , Simple WikiPedia 1 мая 04 (старая база данных) и английского формата WikiPedia 24 июля 04, Simple WikiPedia 24 июля 04 , WikiPedia Francais 27 июля 2004 (новый формат). BozMo использует версию для создания периодических статических копий с фиксированной ссылкой. (сайт закрыт по состоянию на октябрь 2017 г.).

Что такое Kiwix и как скачать ПО и базы Википедии

Kiwix — бесплатное мультиплатформенное ПО для оффлайн-доступа к Википедии и другим материалам. На официальном сайте для скачивания доступны приложения для чтения баз данных — Kiwix Reader и, отдельно, базы данных в специальном формате .zim  — Content Packages.

Скачать и то, и другое вы можете со следующих разделов официального сайта:

Добавить в заметки чтобы посмотреть позже?

Обратите внимание, что базы данных, если брать только русскую Википедию, доступны в нескольких вариантах: самый большой на 2019 год содержит все статьи вместе с изображениями в них (maxi, 26 Гб), есть вариант без изображений (mini, 10 Гб) и варианты только с самыми популярными статьями или подборки материалов Википедии на определенную тему. Википедией доступные базы не ограничиваются, можно найти и другие интересные базы данных

Прикладные

Говоря о том, что такое компьютерная программа прикладного типа, нельзя не отметить широкую популярность этих продуктов. Если работать с перечисленными выше могут только специалисты или самоучки, то эти ориентированы на обычных обывателей.

Прикладные программы обеспечивают решение задач в конкретных областях, а также предназначаются для выполнения пользовательских работ. Это может быть редактирование изображений, текстов, различные операции с фотографиями и так далее.

К данному типу относят следующие программы:

  • профессиональные, предназначающиеся для автоматизации той или иной работы;
  • программы общего назначения, позволяющие выполнять большое количество функций, необходимых для среднестатистического пользователя;
  • методо-ориентированные, решающие статистические задачи;
  • проблемно-ориентированные, выполняющие операции по планированию и управлению.

К этой же категории относятся компьютерные вирусы. Ниже они будут рассмотрены более подробно.

Дополнительные возможности Kiwix

Для открытия Kiwix с определенной статьей необходимо запустить программу из командной строки, используя опцию -articleByUrl. Например:

kiwix.exe -articleByUrl «zim://A/foo.html» bar.zim

Для оптимизации ZIM-файлов с индексами в Linux следует запустить скрипт «./kiwix-compact» что может привести к уменьшению использования диска приблизительно на 50%.

Слишком большие ZIM-файл можно разделить по два гигабайта частями ZIM-файлов. Разбитые на части ZIM-файлы должны называться xxx.zimaa, xxx.zimab, xxx.zimac, и тд. Для загрузки в программу все части этого разбитого ZIM-файла должны лежать в одной папке. Открываете в Kiwix файл xxx.zimaa.

Для разбиения ZIM-файла на части применяют программы:

  • HJ-Split (Microsoft Windows)
  • Split&Concat (Apple Mac OS X)
  • из консоли (GNU/Linux): split —bytes=2000M my_file.zim my_file.zim

Подберите оптимальный размер текста

Размер шрифта текста определяется от пакета с контентом, который вы используете. Он может быть не идеальным для ваших глаз и удобства, вы можете увеличить или уменьшить текст на странице в любое время. Чтобы сделать это, используйте значок Увеличить , чтобы увеличить текст и значок Уменьшить для уменьшения размера текста. Эти команды доступны также в меню Показать > Масштаб и там ещё есть опция с именем Исходный размер, которая вернёт размер текста на страничке к исходному. Вы также можете использовать «горячие клавиши» Ctrl и + ( и + на Mac) для увеличения, Ctrl и ( и на Mac) для уменьшения текста и Ctrl и ( и на Mac) для сброса ваших предыдущих операций масштабирования.

Для того, чтобы получить больше места для отображения контента на небольшом дисплее, вы можете просматривать Kiwix в полноэкранном режиме, размер окна станет при этом максимальным и скроются из вида все другие программы включая вашу операционную систему. Для того,чтобы использовать это, кликните на значке На весь экран или используйте «горячую клавишу» F11 (на Windows и Linux) и ⌘-Shift-F (на Маке).

Что такое Kiwix и как скачать ПО и базы Википедии

Kiwix — бесплатное мультиплатформенное ПО для оффлайн-доступа к Википедии и другим материалам. На официальном сайте для скачивания доступны приложения для чтения баз данных — Kiwix Reader и, отдельно, базы данных в специальном формате .zim  — Content Packages.

Скачать и то, и другое вы можете со следующих разделов официального сайта:

Обратите внимание, что базы данных, если брать только русскую Википедию, доступны в нескольких вариантах: самый большой на 2019 год содержит все статьи вместе с изображениями в них (maxi, 26 Гб), есть вариант без изображений (mini, 10 Гб) и варианты только с самыми популярными статьями или подборки материалов Википедии на определенную тему. Википедией доступные базы не ограничиваются, можно найти и другие интересные базы данных

Программа Kiwix

На просторах интернет можно обнаружить wiki-проект, который делится способом и свободно распространяемой программой Kiwix по оффлайн-просмотру этой самой Википедии.


Заглавная страница Кивикс

Kiwix (Кивикс) — программа для чтения и просмотра сайтов на любых устройствах без доступа к Интернет. Она была специально разработана для того, чтобы сделать Википедию доступной без использования Интернета. Однако её можно использовать и для любого другого HTML-содержимого веб-страниц.

Установка Kiwix обусловлена отсутствием широкополосного доступа в Интернет, экономией трафика и времени загрузки. А также для людей, страдающих от цензуры.

Режим сервера Kiwix

Оба приложения поддерживают работу в режиме сервера. В программе для Windows пункт называется Local Kiwix Server, на Android — Books.

После запуска сервера, другие компьютеры и устройства в локальной сети смогут подключаться к Википедии устройстве-хосте и просматривать содержимое выбранной базы данных как обычную Википедию в браузере. Адрес в локальной сети будет указан в приложении после запуска сервера.

Это может оказаться удобным, например, для того чтобы организовать доступ к Википедии для нескольких компьютеров там, где нет доступа к Интернету.

Конечно, когда Интернет доступен повсюду и сравнительно дешево, подобные вещи могут показаться излишними, но я на всякий случай скачал Kiwix и самую полную базу, мало ли. Не знаю, насколько в тему, но может оказаться интересным: Лучшие программы для чтения книг (Windows), Приложения для чтения книг на Android.

А вдруг и это :

Быстрые ссылки

Использовать Википедию офлайн очень норм

Например, статья про iPhone X

Сначала выберите необходимый архив, который вы уже успели скачать на вкладке Library. Затем откройте и нажмите Open Main Page. После этого используйте строку поиска.

Удобно перемещаться по структуре статьи вам поможет вкладка приложения Table of Content. Вы также можете сохранить любой материал в список избранных длинным нажатием на звездочку в нижнем меню.

Если размер шрифта на экране кажется вам слишком большим или очень маленьким, вы можете изменить его в разделе Font Size в настройках.

Здесь же сможете настроить резервное копирование файлов ZIM в iCloud или через iTunes.

Разобраться не сложнее, чем в самой обычной читалке.

Помогите разобрать дамп для использования в скриптах

  • Википедия: Справочная служба компьютера / ParseMediaWikiDump описывает библиотеку Perl Parse :: MediaWikiDump, которая может анализировать дампы XML.
  • Препроцессор Википедии (wikiprep.pl) — это сценарий Perl, который предварительно обрабатывает необработанные дампы XML и создает таблицы ссылок, иерархии категорий, собирает текст привязки для каждой статьи и т. Д.
  • Парсер дампа SQL из Википедии — это .NET-библиотека для чтения дампа MySQL без необходимости использования базы данных MySQL.
  • WikiDumpParser — библиотека .NET Core для анализа дампов базы данных.
  • Dictionary Builder — это программа на Rust, которая может анализировать дампы XML и извлекать записи в файлах.
  • Скрипты для разбора дампов Википедии — скрипты на основе Python для разбора файлов sql.gz из дампов Википедии.
  • parse-mediawiki-sql — библиотека Rust для быстрого анализа файлов дампа SQL с минимальным выделением памяти

Выполнение Hadoop MapReduce в текущем дампе базы данных Википедии

Вы можете выполнять запросы Hadoop MapReduce для текущего дампа базы данных, но вам потребуется расширение для InputRecordFormat, чтобы каждый <page> </page> был отдельным входом сопоставителя. Рабочий набор java-методов (jobControl, mapper, reducer и XmlInputRecordFormat) доступен в Hadoop в Википедии.

Помогите разобрать дамп для использования в скриптах

  • Википедия: Справочная служба компьютера / ParseMediaWikiDump описывает библиотеку Perl Parse :: MediaWikiDump, которая может анализировать дампы XML.
  • Препроцессор Википедии (wikiprep.pl) — это сценарий Perl, который предварительно обрабатывает необработанные дампы XML и создает таблицы ссылок, иерархии категорий, собирает текст привязки для каждой статьи и т. Д.
  • Парсер дампа SQL из Википедии — это .NET-библиотека для чтения дампа MySQL без необходимости использования базы данных MySQL.
  • WikiDumpParser — библиотека .NET Core для анализа дампов базы данных.
  • Dictionary Builder — это программа на Rust, которая может анализировать дампы XML и извлекать записи в файлах.
  • Скрипты для разбора дампов Википедии — скрипты на основе Python для разбора файлов sql.gz из дампов Википедии.
  • parse-mediawiki-sql — библиотека Rust для быстрого анализа файлов дампа SQL с минимальным выделением памяти

Выполнение Hadoop MapReduce в текущем дампе базы данных Википедии

Вы можете выполнять запросы Hadoop MapReduce для текущего дампа базы данных, но вам потребуется расширение для InputRecordFormat, чтобы каждый <page> </page> был отдельным входом сопоставителя. Рабочий набор java-методов (jobControl, mapper, reducer и XmlInputRecordFormat) доступен в Hadoop в Википедии.

Какие существуют техники скачивания

Как я уже говорил, применение той или иной техники зависит от вида и способа размещения информации. Кратко опишу каждую из них.

Загрузка прикрепленных файлов

Прикрепленные файлы – это такие файлы, которые как бы встроены в страницу сайта. Вы не увидите их содержимое, пока не загрузите и не откроете.

Еще один пример – письма с вложенными файлами. Это когда я пишу письмо по электронной почте, в которое добавляю какой-то файл (документ, фото). Чтобы получатель письма смог открыть прикрепленный файл, он должен его скачать.

Сервис хранения файлов (облако)

Это такие сервисы как Яндекс.Диск, Облако@Mail.Ru, Google Drive и другие. Любой пользователь может закачать на такой сервис свой файл, получить ссылку и отправить ее тому, кому надо. Таким образом, можно передать и получить файлы большого размера – более одного гигабайта.

Скачивание с облака очень похоже на загрузку прикрепленных файлов, но есть свои особенности.

Скачивание фотографий из интернета – процесс очень простой, но очень «особенный», не такой, как остальные.

Сохранение текста

Текст из интернета сохраняется обычным копированием. Выделили, скопировали, открыли программу-редактор (например, Microsoft Word), вставили в нее текст, сохранили.

Таким образом, например, многие школьники и студенты пишут свои работы – рефераты, курсовые, контрольные, дипломы. Собирают информацию из разных источников и формируют из нее файл, который потом распечатывают на принтере.

Видео и музыка из социальных сетей (Вконтакте, Одноклассники, YouTube)

Такая информация скачивается или при помощи специальных программ или при помощи «примочек» к браузеру (программе для интернета).

Принцип следующий: вы устанавливаете специальную программку и через нее загружаете на компьютер видео или музыку из социальных сетей (в том числе, с сайта YouTube).

Торренты

Торренты – это такой очень особенный способ передачи информации. Объяснить, что это такое, весьма трудно, но работать с ними на удивление просто.

Нужно всего лишь скачать и установить на компьютер маленькую программку, найти нужный торрент-файл и открыть его в этой программе. Начнется загрузка, по завершении которой у вас будет нужная информация в обычном виде (файлы, папки).

Преимущество такого способа передачи информации заключается в том, что необязательно за один раз все скачивать – можно загружать частями.

Например, я хочу скачать современную компьютерную игру. Она достаточно большого размера и если качать ее классическим способом, то это займет много времени. Все это время компьютер с интернетом должен работать, иначе загрузка прервется.

А вот если качать эту же игру через торрент, то можно не ждать окончания загрузки. Пока я буду пользоваться компьютером, игра будет сама по себе скачиваться. И если понадобится выключить компьютер, то загрузка не оборвется – после включения она продолжится с того, места, на котором остановилась.

Устаревшие техники

Скачивание страниц сайтов целиком. Это такая техника, при которой мы забираем страницу сайта целиком на свой компьютер. То есть мы ее как бы «выдираем» со всем содержимым.

Этот способ был актуален во времена медленного и дорого интернета. Сейчас гораздо проще добавить страницу сайта в закладки браузера и открывать ее прямо из интернета, а не с компьютера. Это и быстрее и удобнее.

Файлообменники. Это прошлое поколение сервисов хранения и передачи файлов – всякие ifolder, Deposit Files, Letitbit, RapidShare. На смену им пришли облачные сервисы: Яндекс.Диск, Облако@Mail, Google Drive.

Отличие от современных сервисов хранения файлов заключается в обилии непристойной и мошеннической рекламы. Со всех сторон пользователя пытаются побудить к какому-либо действию: перейти по рекламе, куда-то нажать, что-то попробовать.

Беда в том, что на таких сайтах в большом количестве обитают мошенники, которые под тем или иным предлогом пытаются выманить у вас деньги. Начинающие пользователи часто попадаются на их уловки, после чего и приходят к выводу, что скачивание – это очень трудно. Помимо этого, во многих файлах содержатся вирусы.

Есть еще один серьезный минус у файлообменников – ограничение скорости скачивания. Это означает, что даже если вы добрались-таки до нужного файла, обойдя многочисленную рекламу и призывы к действию, то он будет скачиваться довольно медленно. Конечно, скорость можно и увеличить, но это будет стоить денег.

Так почему же такие сервисы до сих пор существуют? Все просто: они позволяют заработать людям, которые размещают на них свои файлы. Заработок там копеечный, но многих это не останавливает.

Скачать сайт целиком

Иногда появляется необходимость скачать сайт целиком. Это зачастую нужно для доступа к нужной информации при отсутствии на какой-то момент интернета. Рассмотрим несколько способов создания копии сайта.

1. Постраничное сохранение

Такая возможность присутствует в каждом браузере. Этот способ подробно мы рассматривали чуть выше. Но чтобы сохранить сайт таким методом может потребоваться достаточно много времени, если сайт содержит большое количество страниц.

2. Использование онлайн-сервисов

В настоящее время существует множество онлайн-ресурсов, которые перекодируют и редактируют файлы. Надо всего лишь зайти на этот ресурс и ввести адрес интересующего сайта в нужную строку. После чего нажимаем кнопку запуска и процесс скачивания начнёт переносить информацию в определённое место для его сохранения.

К сожалению, таких бесплатных онлайн-ресурсов немного и их функциональный ассортимент зачастую урезан. Но если есть большая необходимость в полном комплекте можно воспользоваться платными ресурсами подобных сервисов. Вот некоторые из них:

  • Site2Zip.com — один из немногих бесплатных русскоязычных ресурсов. Процесс скачивания происходит не очень быстро. Но если всё пройдёт удачно, на выходе получите архив с сайтом.
  • Webparse.ru — один раз можно воспользоваться бесплатно. За остальное придётся платить. При бесплатном варианте глубина парсинга не настраивается. Поэтому придётся самостоятельно сверять оригинал и копию, чтобы убедиться в полном скачивании сайта.
  • Web2pdfconvert работает полностью на платной основе.

3. Специализированные программы

Наиболее функциональным вариантом для скачивания нужной информации из интернета являются специальные утилиты. Они тоже бывают бесплатными или на платной основе. Но иногда бесплатные программы практически не уступают по возможностям платным аналогам. Хотя для каждой операционной системы нужна подходящая версия этого программного обеспечения.

Давайте ознакомимся с такими программами:

  • WinHTTrack WebSite Copier — довольно популярная программа. Бесплатных аналогов практически не имеет. Имеет большой ассортимент настроек. Папка с проектом скачивается на любой носитель, где потом легко её можно просмотреть.
  • Cyotek WebCopy — программа англоязычная. Солидный интерфейс и большие возможности по настройке скачивания сайта. Нужно ввести интересующий адрес, указать папку для сохранения и нажать «Copy Website». Русификатора не имеет и работает только с ОС Windows.
  • Teleport Pro — проверенная временем, но платная программа. После всех настроек для скачивания нажмите кнопку «Start» в панели управления и процесс сохранения сайта запустится.
  • Offline Explorer — весьма функциональная, но платная программа.
  • Webcopier — триальный период составляет 15 дней (платная).

Возможностей для создания коллекции нужных сайтов или веб-страниц достаточно много. Каждый из рассмотренных вариантов обладает своими достоинствами и недостатками. А платить или пользоваться бесплатными сервисами или программами для достижения конечных целей пусть каждый решает самостоятельно.

Где мне это достать?

Англоязычная Википедия

  • Дампы из любого проекта Фонда Викимедиа: дампы .wikimedia .org и Интернет-архив
  • Английские дампы Википедии в SQL и XML: дампы .wikimedia .org / enwiki / и Интернет-архив
    • Загрузите дамп данных с помощью клиента BitTorrent (торрент имеет много преимуществ и снижает нагрузку на сервер, экономя затраты на полосу пропускания).
    • pages-article-multistream.xml.bz2 — Только текущие версии, без обсуждений или пользовательских страниц; это, вероятно, то, что вам нужно, и он составляет примерно 18 ГБ в сжатом виде (расширяется до более 78 ГБ при распаковке).
    • pages-meta-current.xml.bz2 — только текущие версии, все страницы (включая обсуждение)
    • abstract.xml.gz — аннотации страниц
    • all-title-in-ns0.gz — только заголовки статей (с редиректами)
    • Также доступны файлы SQL для страниц и ссылок.
    • Все редакции, все страницы: эти файлы расширяются до нескольких терабайт текста. Пожалуйста, загружайте их только в том случае, если вы знаете, что можете справиться с таким объемом данных. Перейдите в Последние дампы и найдите все файлы, в имени которых есть «страницы-мета-история».
  • Чтобы загрузить подмножество базы данных в формате XML, например, определенную категорию или список статей, см .: Special: Export , использование которого описано в Help: Export .
  • Интерфейсное программное обеспечение Wiki: MediaWiki .
  • Программное обеспечение базы данных: MySQL .
  • Дампы изображений: см. Ниже.

Где мне это достать?

Англоязычная Википедия

  • Дампы из любого проекта Фонда Викимедиа: дампы .wikimedia .org и Интернет-архив
  • Английские дампы Википедии в SQL и XML: дампы .wikimedia .org / enwiki / и Интернет-архив
    • Загрузите дамп данных с помощью клиента BitTorrent (торрент имеет много преимуществ и снижает нагрузку на сервер, экономя затраты на полосу пропускания).
    • pages-article-multistream.xml.bz2 — Только текущие версии, без обсуждений или пользовательских страниц; это, вероятно, то, что вы хотите, и он составляет примерно 18 ГБ в сжатом виде (расширяется до более 78 ГБ при распаковке).
    • pages-meta-current.xml.bz2 — только текущие версии, все страницы (включая обсуждение)
    • abstract.xml.gz — аннотации страниц
    • all-title-in-ns0.gz — только заголовки статей (с редиректами)
    • Также доступны файлы SQL для страниц и ссылок.
    • Все редакции, все страницы: эти файлы расширяются до нескольких терабайт текста. Пожалуйста, загружайте их только в том случае, если вы знаете, что можете справиться с таким объемом данных. Перейдите в Последние дампы и найдите все файлы, в имени которых есть «страницы-мета-история».
  • Чтобы загрузить подмножество базы данных в формате XML, например, определенную категорию или список статей, см .: Special: Export , использование которого описано в Help: Export .
  • Интерфейсное программное обеспечение Wiki: MediaWiki .
  • Программное обеспечение базы данных: MySQL .
  • Дампы изображений: см. Ниже.

Работа со сжатыми файлами

Сжатые файлы дамп значительно сжаты, таким образом , после того , как декомпрессия будет занимать большие объемы дискового пространства. Большой список программ распаковки описан в разделе Сравнение файловых архиваторов . Следующие программы, в частности, можно использовать для распаковки файлов bzip2 .bz2 .zip и .7z .

Окна

Начиная с Windows XP , базовая программа распаковки позволяет распаковывать zip-файлы. Среди прочего, для распаковки файлов bzip2 можно использовать следующее.

  • bzip2 (командная строка) ( отсюда ) доступен бесплатно по лицензии BSD.
  • 7-Zip доступен бесплатно по лицензии LGPL .
  • WinRAR
  • WinZip
Macintosh (Mac)

OS X поставляется с утилитой командной строки bzip2.

GNU / Linux

Большинство дистрибутивов GNU / Linux поставляются с утилитой командной строки bzip2.

Распространение программного обеспечения Беркли (BSD)

Некоторые системы BSD поставляются с утилитой командной строки bzip2 как частью операционной системы. Другие, такие как OpenBSD , предоставляют его как пакет, который необходимо сначала установить.

Заметки
  1. Некоторые старые версии bzip2 могут не обрабатывать файлы размером более 2 ГБ, поэтому убедитесь, что у вас установлена ​​последняя версия, если у вас возникнут какие-либо проблемы.
  2. Некоторые старые архивы сжимаются с помощью gzip, который совместим с PKZIP (наиболее распространенный формат Windows).
Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Мой редактор ОС
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: