https://web.archive.org/web/20170606085 ... .ru/forum/ (вроде последнее доступное июнь 2017).
TL;DR
В день выключения efl.ru (как только по facebook стало ясно про "психоз") я попробовал https://web.archive.org/ - некоторые ответы писал детально что бы потом перетянуть в блог, не все дублировал локально, хотел сохранить наработки.
Но там было пусто!
Я открыл robots.txt и в нем был явный запрет на кравлер от https://web.archive.org/ Детали не помню, но похоже на https://web.archive.org/web/20150322111 ... xclude.php
Я сообщил об этом на Facebook, Нина ответила на вопрос что кравлер съедал много денег, нагружая хостинг.
Это может быть правдой. А может и нет.
Недавно общался и мне сказали что неожиданно архив efl.ru появился на https://web.archive.org/
Есть разные даты, https://web.archive.org/web/20170619234 ... forum/all/
Не ясно почему раньше не было архивов, а сейчас появились. Что бы материал убрать - нужно писать email: https://help.archive.org/hc/en-us/artic ... ck-Machine
С некторых пор вроде archive.org перестал сделовать robots.txt и может они просто опубликовали то что раньше просто скрывали как будто "не сканировали"?
Просьба переместить сообщение в раздел "Архив efl.ru", проще будет найти желающим покапаться в старье.
Старый efl.ru появился в https://web.archive.org/
Модератор: Aksamitka
- gavenkoa
- Сообщения: 2800
- Зарегистрирован: 01 мар 2018, 13:00
- Благодарил (а): 3100 раз
- Поблагодарили: 582 раза
https://en.wikipedia.org/wiki/Wayback_Machine
Может быть потому архив появился, после смены политики применения исключений (раньше следовали robots.txt, а потом послали владельцев сайтов).
Т.е. раньше они применяли блокировку retroactively.Website exclusion policy
Historically, Wayback Machine has respected the robots exclusion standard (robots.txt) in determining if a website would be crawled; or if already crawled, if its archives would be publicly viewable. Website owners had the option to opt-out of Wayback Machine through the use of robots.txt. It applied robots.txt rules retroactively; if a site blocked the Internet Archive, any previously archived pages from the domain were immediately rendered unavailable as well. In addition, the Internet Archive stated that "Sometimes a website owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests."[41] In addition, the website says: "The Internet Archive is not interested in preserving or offering access to Web sites or other Internet documents of persons who do not want their materials in the collection."[42][43]
On April 17, 2017, reports surfaced of sites that had gone defunct and became parked domains that were using robots.txt to exclude themselves from search engines, resulting in them being inadvertently excluded from the Wayback Machine.[44] The Internet archive changed the policy to now require an explicit exclusion request to remove it from the Wayback Machine.[citation needed]
Может быть потому архив появился, после смены политики применения исключений (раньше следовали robots.txt, а потом послали владельцев сайтов).
-
- Сообщения: 6776
- Зарегистрирован: 28 фев 2018, 13:53
- Благодарил (а): 859 раз
- Поблагодарили: 3641 раз
Да весь старый форум был выложен в доступ давным давно, на новом адресе, похожем на оригинальный. Там даже парочку старых пользователей зарегились по-новой.
efl1 вроде бы на каком-то распространенном домене, может, даже ru
Думаю, оттуда и попал он в архив.
efl1 вроде бы на каком-то распространенном домене, может, даже ru
Думаю, оттуда и попал он в архив.
- gavenkoa
- Сообщения: 2800
- Зарегистрирован: 01 мар 2018, 13:00
- Благодарил (а): 3100 раз
- Поблагодарили: 582 раза
Wow!
Есть подробности как сделали копию? С какой даты к примеру?
А то по web.archive.org нельзя искать сообщения пользователя, а на этом можно найти свои легко: http://efl1.ru/index.php?members/gavenk ... nt-content Это упрощает работу по извлечению своих сообщений...
По ощущениям они сдампили с https://web.archive.org/ судя по дате в июль 2017... А форум пропал в мае 2018 вроде. Так что истории за 1 год нету там...
Последний раз редактировалось gavenkoa 31 июл 2020, 13:44, всего редактировалось 1 раз.
Причина: fixed
Причина: fixed
- gavenkoa
- Сообщения: 2800
- Зарегистрирован: 01 мар 2018, 13:00
- Благодарил (а): 3100 раз
- Поблагодарили: 582 раза
https://help.archive.org/hc/en-us/artic ... ck-Machinegavenkoa пишет: ↑31 июл 2020, 01:57 Кстати этот форум повторяет судьбу старого. Его нету в https://web.archive.org/
Т.е. как то их заставить проиндексировать сайт - нельзя.How can I get my site included in the Wayback Machine?
Much of our archived web data comes from our own crawls or from Alexa Internet's crawls. Neither organization has a "crawl my site now!" submission process. Internet Archive's crawls tend to find sites that are well linked from other sites. The best way to ensure that we find your web site is to make sure it is included in online directories and that similar/related sites link to you.
Alexa Internet uses its own methods to discover sites to crawl. It may be helpful to install the free Alexa toolbar and visit the site you want crawled to make sure they know about it.
Regardless of who is crawling the site, you should ensure that your site's 'robots.txt' rules and in-page META robots directives do not tell crawlers to avoid your site.
В то же время нужно быть окуратным с содержимым robots.txt, к примеру https://efl-forum.ru/robots.txt содержит:
Код: Выделить всё
User-Agent: ia_archiver
Disallow: /
- gavenkoa
- Сообщения: 2800
- Зарегистрирован: 01 мар 2018, 13:00
- Благодарил (а): 3100 раз
- Поблагодарили: 582 раза
Вроде они больше не дружат и Архива свой бот: archive.org_bot
https://archive.org/details%2Farchive.org_bot%2F
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
У меня появился странный мальчик
ElenaZhukova » 13 сен 2021, 21:53 » в форуме Основной педагогический форум - 16 Ответы
- 2144 Просмотры
-
Последнее сообщение ElenaZhukova
17 сен 2021, 09:58
-
-
- 0 Ответы
- 1886 Просмотры
-
Последнее сообщение gavenkoa
02 фев 2020, 14:31