Как Национальная австралийская библиотека пытается идти в ногу со временем

Теперь австралийцы смогут снова и снова переживать свой веб-опыт 90-х и 00-х годов.

В первые дни Интернета флуоресцентный текст и пиксельные гифки можно было увидеть повсюду. Но со временем изумительные, привлекательные цветовые схемы и интенсивное использование WordArt были заменены более продуманными итерациями в сети.

По мере того, как мировая история и культура все больше переходили в онлайн режим, а старые веб-страницы постоянно заменялись новыми, Национальная библиотека Австралии (НБА) столкнулась с проблемой того, как она будет выполнять свою роль документирования истории и культуры Австралии.

Чем терять онлайн информацию, которая содержит национальное значение для истории и культуры Австралии, НБА создала архив онлайн-контента для демонстрации развития австралийских веб-сайтов с течением времени.

Архив, называемый Австралийским веб-архивом (АВА), проливает свет на мир конца 90-х и 00-х годов, предоставляя снимок Интернета в его младенчестве. У АВА есть онлайн-контент, который включает в себя австралийские веб-сайты, оканчивающиеся на «au» с 1996 года; содержание, которых кураторы НБА считают культурно значимым; и онлайн-контент правительства Австралии - все это демонстрирует, как со временем развивались австралийские сайты.

Храня этот контент в онлайн-архиве, он предоставил НБА возможность записывать информацию, которая постоянно находится в сети, и которая все больше становится местом, где находится и создается история и культура Австралии. Главный информационный директор НБА, Дэвид Вонг, сказал TechRepublic, что для организации важно иметь архив, который мог бы собирать информацию в Интернете, поскольку продолжался процесс переноса физической информации, таких как рукописи и журналы в Интернет.

«Многие физические данные также перешли на цифровую платформу. Многие историки сегодня перешли на использование цифровых коллекций вместо рукописей и журналов», - сказал Вонг.

АВА содержит 600 терабайт данных в 9 миллиардах записей; это комбинация записей с веб-сайтов PANDORA Archived, правительственного веб-архива Австралии и веб-сайтов, связанных с Австралией, которые собираются ежегодно в результате крупномасштабного сбора “урожая”.

Как АВА сортирует онлайн мусор и фальшивые новости.

По словам Вонга, сложность создания такого архива заключается в том, что он собирает только самую важную информацию.

«Существует так много отличного контента, и перед нами стоит задача решить, какие данные собирать, как собирать данные и как понимать эту информацию, чтобы люди, которые приходят в наши архивы, действительно могли найти контент, который они ищут", объяснил Вонг. Чтобы достичь этого, Вонг и команда, стоящая за АВА, много думали о создании системы, которая могла бы различать то, что было культурно значимым для Австралии, и то, что было «мусором».

Для создания архива использовались различные технологии классификации, включая модифицированную версию алгоритма ранжирования страниц Google от 1998 года, байесовский фильтр и классификатор Yahoo NSFW для сортировки содержимого в Интернете. По словам Вонга, НБА решила использовать алгоритм ранжирования страниц Google от 1998 года, который ранжирует контент по частоте нажатия на страницу, поскольку это «часто действительно хороший показатель качества контента». Использование NSFW классификатором Yahoo, также имеет важное значение, Вонг добавил, что много трафика веб страниц оглавляется порнографическим содержанием и классификатор может идентифицировать и классифицировать изображения, которые не подходят для архива. Байесовские фильтры, обычно используемые для фильтрации электронной почты и спама, также используются архивом.

В то время, как «фальшивые новости» стали распространяться по всему Интернету, усиливая тем самым общественное беспокойство в отношении доверия и обработки информации, Вонг также признал важность установления приоритетов подлинности при создании архива.

Чтобы защитить данные АВА от изменения, собранный контент был представлен в формате только для чтения, что усложняло возможный процесс внесения изменений информации в дальнейшем. Также Вонг сообщил, что НБА хранит несколько резервных версий контента, в том числе три куки-файла для каждого фрагмента контента.

Будучи архивом, посвященным сохранению «памяти Австралии», АВА также регулярно делает снимки контента, который со временем обновляется. Делая снимки содержимого в разные периоды, пользователи архива могут не только просматривать содержимое, чтобы увидеть, как оно изменилось с течением времени, но и определить, была ли какая-либо информация изменена или заменена.

 

Вспоминание прошлого

Целью создания АВА было предоставление возможности пользователям получить полное представление о конкретной теме, такой как онлайн-освещение австралийской политики. В то время как архив не содержит столько информации, сколько платформы социальных сетей, такие как Twitter и Facebook, Вонг сказал, что АВА дифференцирует себя, намеренно ограничивая объем информации, которую он хранит по конкретной теме. По словам Вонга, это создает баланс между тем, чтобы пользователи не отвлекались, и тем, чтобы пользователи по-прежнему могли видеть эволюцию интернета и широко исследовать предмет.

В архиве также предусмотрены различные функции поиска, чтобы пользователям было легче их просматривать. Функции поиска включают использование логических операторов поиска, в дополнение к возможности указания поиска по домену, типу файла, диапазону дат, и принадлежности сайта к правительству.

Согласно обновленному бюджету Австралии на 2019 год, планируется выделение средств в размере 10 млн. австралийских долларов для НБА в течении следующих четырех лет. Данные средства будут направлены на создание Фонда оцифровки и поиска лучших способов документирования важных моментов в истории и культуре Австралии.

«Фонд оцифровки, который также будет добиваться благотворительных взносов, позволит продолжать оцифровывать значительную коллекцию НБА и расширит ее доступность для всех австралийцев через онлайн-базу данных Trove», - говорится в бюджетных документах.

Национальный архив Австралии также будет направлять ведомства и департаменты Содружества в «продвижение и обеспечение широкого доступа к национальной архивной коллекции через национальную сеть читальных залов, справочных служб, а также образовательных и государственных программ, используя возможности, предоставляемые известными и новыми технологии ".

Учитывая, что цифровые архивы должны оставаться средой для памяти в Австралии, для нее будет важно адаптироваться к новым изменениям, поскольку технологии продолжают развиваться. Не менее важно, сказала генеральный директор NLA Мэри-Луиз Эйр, что организации обладают дальновидностью и инновационным мышлением, чтобы иметь возможность охватить как настоящее, так и будущее.

«Для тех из нас, кто жил и работал до рассвета сайта, это увлекательное напоминание о том, как многое изменилось. Для тех, кто никогда не знал мир без Интернета, это замечательный урок истории», - сказал Айрес.

Перевод статьи с сайта: www.techrepublic.com

Оригинальный материал по ссылке: https://www.techrepublic.com/article/how-the-national-australian-library-is-trying-to-keep-up-with-the-times/