The Reading Challenge AS2021 начался! Приглашаем всех желающих принять в нем участие.
The Reading Challenge AS2021 (+ Writing) (Основной форум о языковых челенджах, марафонах и викторинах)

Старый efl.ru появился в https://web.archive.org/

Подборка материалов с сайта EFL.ru, вызвавших наибольший интерес у пользователей.

Модератор: Aksamitka

Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#1

Сообщение gavenkoa »

https://web.archive.org/web/20170606085 ... .ru/forum/ (вроде последнее доступное июнь 2017).


TL;DR

В день выключения efl.ru (как только по facebook стало ясно про "психоз") я попробовал https://web.archive.org/ - некоторые ответы писал детально что бы потом перетянуть в блог, не все дублировал локально, хотел сохранить наработки.

Но там было пусто!

Я открыл robots.txt и в нем был явный запрет на кравлер от https://web.archive.org/ Детали не помню, но похоже на https://web.archive.org/web/20150322111 ... xclude.php

Я сообщил об этом на Facebook, Нина ответила на вопрос что кравлер съедал много денег, нагружая хостинг.

Это может быть правдой. А может и нет.

Недавно общался и мне сказали что неожиданно архив efl.ru появился на https://web.archive.org/

Есть разные даты, https://web.archive.org/web/20170619234 ... forum/all/

Не ясно почему раньше не было архивов, а сейчас появились. Что бы материал убрать - нужно писать email: https://help.archive.org/hc/en-us/artic ... ck-Machine

С некторых пор вроде archive.org перестал сделовать robots.txt и может они просто опубликовали то что раньше просто скрывали как будто "не сканировали"?

Просьба переместить сообщение в раздел "Архив efl.ru", проще будет найти желающим покапаться в старье.
Последний раз редактировалось gavenkoa 31 июл 2020, 01:53, всего редактировалось 1 раз.
За это сообщение автора gavenkoa поблагодарили (всего 2):
mikka, JamesTheBond
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#2

Сообщение gavenkoa »

Кстати этот форум повторяет судьбу старого. Его нету в https://web.archive.org/
Последний раз редактировалось gavenkoa 31 июл 2020, 01:58, всего редактировалось 1 раз.
Причина: fixed
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#3

Сообщение gavenkoa »

https://en.wikipedia.org/wiki/Wayback_Machine
Website exclusion policy

Historically, Wayback Machine has respected the robots exclusion standard (robots.txt) in determining if a website would be crawled; or if already crawled, if its archives would be publicly viewable. Website owners had the option to opt-out of Wayback Machine through the use of robots.txt. It applied robots.txt rules retroactively; if a site blocked the Internet Archive, any previously archived pages from the domain were immediately rendered unavailable as well. In addition, the Internet Archive stated that "Sometimes a website owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests."[41] In addition, the website says: "The Internet Archive is not interested in preserving or offering access to Web sites or other Internet documents of persons who do not want their materials in the collection."[42][43]

On April 17, 2017, reports surfaced of sites that had gone defunct and became parked domains that were using robots.txt to exclude themselves from search engines, resulting in them being inadvertently excluded from the Wayback Machine.[44] The Internet archive changed the policy to now require an explicit exclusion request to remove it from the Wayback Machine.[citation needed]
Т.е. раньше они применяли блокировку retroactively.

Может быть потому архив появился, после смены политики применения исключений (раньше следовали robots.txt, а потом послали владельцев сайтов).
Aksamitka
Сообщения: 4746
Зарегистрирован: 28 фев 2018, 13:53
Благодарил (а): 415 раз
Поблагодарили: 2461 раз

#4

Сообщение Aksamitka »

Да весь старый форум был выложен в доступ давным давно, на новом адресе, похожем на оригинальный. Там даже парочку старых пользователей зарегились по-новой.
efl1 вроде бы на каком-то распространенном домене, может, даже ru
Думаю, оттуда и попал он в архив.
Aksamitka
Сообщения: 4746
Зарегистрирован: 28 фев 2018, 13:53
Благодарил (а): 415 раз
Поблагодарили: 2461 раз

#5

Сообщение Aksamitka »

Ну да, вот он.
http://efl1.ru/index.php

Только теперь его обновляют вирусы и спамеры. )
За это сообщение автора Aksamitka поблагодарил:
mikka
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#6

Сообщение gavenkoa »

Aksamitka пишет: 31 июл 2020, 10:54 Только теперь его обновляют вирусы и спамеры. )
Wow!

Есть подробности как сделали копию? С какой даты к примеру?

А то по web.archive.org нельзя искать сообщения пользователя, а на этом можно найти свои легко: http://efl1.ru/index.php?members/gavenk ... nt-content Это упрощает работу по извлечению своих сообщений...

По ощущениям они сдампили с https://web.archive.org/ судя по дате в июль 2017... А форум пропал в мае 2018 вроде. Так что истории за 1 год нету там...
Последний раз редактировалось gavenkoa 31 июл 2020, 13:44, всего редактировалось 1 раз.
Причина: fixed
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#7

Сообщение gavenkoa »

gavenkoa пишет: 31 июл 2020, 02:08 Т.е. раньше они применяли блокировку retroactively.
Я не представлял что был механизм, позволяющий скрывать старую информацию потом.

Как только archive.org перестали учитывать пожелания владельцев "не архивировать" старые снапшоты снова засветились.
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#8

Сообщение gavenkoa »

gavenkoa пишет: 31 июл 2020, 01:57 Кстати этот форум повторяет судьбу старого. Его нету в https://web.archive.org/
https://help.archive.org/hc/en-us/artic ... ck-Machine
How can I get my site included in the Wayback Machine?

Much of our archived web data comes from our own crawls or from Alexa Internet's crawls. Neither organization has a "crawl my site now!" submission process. Internet Archive's crawls tend to find sites that are well linked from other sites. The best way to ensure that we find your web site is to make sure it is included in online directories and that similar/related sites link to you.

Alexa Internet uses its own methods to discover sites to crawl. It may be helpful to install the free Alexa toolbar and visit the site you want crawled to make sure they know about it.

Regardless of who is crawling the site, you should ensure that your site's 'robots.txt' rules and in-page META robots directives do not tell crawlers to avoid your site.
Т.е. как то их заставить проиндексировать сайт - нельзя.

В то же время нужно быть окуратным с содержимым robots.txt, к примеру https://efl-forum.ru/robots.txt содержит:

Код: Выделить всё

User-Agent: ia_archiver
Disallow: /
Это робот от Alexa, с которымм archive.org в партнерке.
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#9

Сообщение gavenkoa »

gavenkoa пишет: 31 июл 2020, 13:57 Это робот от Alexa, с которымм archive.org в партнерке.
Вроде они больше не дружат и Архива свой бот: archive.org_bot

https://archive.org/details%2Farchive.org_bot%2F
Аватара пользователя
gavenkoa
Сообщения: 2800
Зарегистрирован: 01 мар 2018, 13:00
Благодарил (а): 3106 раз
Поблагодарили: 580 раз

#10

Сообщение gavenkoa »

Понятное обьяснение ситуации с ботами от Архива:

https://blog.reputationx.com/block-wayback-machine
Аватара пользователя
mikka
Сообщения: 5123
Зарегистрирован: 02 мар 2018, 13:16
Благодарил (а): 783 раза
Поблагодарили: 656 раз

#11

Сообщение mikka »

gavenkoa,
Спасибо за инфу.
С большим интеросом перечитала свою тему про лисенинг)
Тема джорджио интересная очень. Давно о ней вспоминала.
За это сообщение автора mikka поблагодарил:
gavenkoa
Aksamitka
Сообщения: 4746
Зарегистрирован: 28 фев 2018, 13:53
Благодарил (а): 415 раз
Поблагодарили: 2461 раз

#12

Сообщение Aksamitka »

gavenkoa пишет: 31 июл 2020, 13:34 Есть подробности как сделали копию? С какой даты к примеру?
нет подробностей. Случайно как-то попала в выдаче не ссылку.
Aksamitka
Сообщения: 4746
Зарегистрирован: 28 фев 2018, 13:53
Благодарил (а): 415 раз
Поблагодарили: 2461 раз

#13

Сообщение Aksamitka »

mikka, gavenkoa,
тема перенесена в раздел Архив материалов по просьбе автора )
За это сообщение автора Aksamitka поблагодарил:
gavenkoa
Ответить

Вернуться в «Архив материалов форума EFL.ru 2001-2018»