Как боретесь с linkrot?

Проблема: из-за битых ссылок читатели не воспринимают прошлогодние статьи так, как задумано автором.
Либо вынуждены долго вручную собирать статью из «модулей».
en.wikipedia.org/wiki/Link_rot

1. Здесь team.custis.ru/2008/12/agiledays-2008.html Алексей Баранцев пишет «остальные картинки, если заинтересовали, можно найти тут [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11] ).» Ссылки 403 Forbidden:
www.etoday.ru/uploads/2008/01/20/ado_calendar01_box.jpg
www.etoday.ru/uploads/2008/01/20/ado_calendar12_rhytmic_gymnastics.jpg
www.etoday.ru/uploads/2008/01/20/ado_calendar03_track_cycling.jpg
...
нужно (точнее «пока можно») поменять на
www.outzone.ru/wp-content/uploads/2008/07/ado_calendar01_box.jpg и тд

Как узнал правильную ссылку?
Поглив в кавычках «ado_calendar01_box.jpg» и перейдя на www.outzone.ru/post/2987/

2. Там же Алексей Баранцев пишет «была конференция SQA Days 4 на которой был доклад «Funny testing: как добавить драйва в работу»». Из двух ссылкок 404 Not Found:
it-conf.ru/ru/content/34.htm
it-conf.ru/reports/presentations/ru/Orlov_Presentation.zip
вторую нужно поменять на
it-conf.ru/sqa4/reports/presentations/ru/Orlov_Presentation.zip
(Best practices предполагают редирект, которого не было на it-conf.ru, если только Алексей не забыл вставить sqa4).

Как узнал правильную ссылку?
Перешел по первой, Ctrl+F Орло

3. С битыми ссылками часто помогает живая ссылка на сохраненную копию в кеше гугла, яндекса или Wayback Machine.
Но
deadurl.com/http://www.etoday.ru/uploads/2008/01/20/ado_calendar12_rhytmic_gymnastics.jpg
deadurl.com/http://it-conf.ru/reports/presentations/ru/Orlov_Presentation.zip
не помогает:
No Archive.org Links Found, ни в кэше гугла.

Как решать проблему?
1. Продолжать писать статьи в таком виде, как прежде, но найти инструмент, который бы периодически проверял, что ссылки не битые (типа Xenu) и контент по ним (в важной автору и читателю части) не отличается от задуманного. Желательна фича замены ссылки на небитую или хотя бы замены ссылки на простой корректный текст. Какой инструмент?
2. Давать более живучие ссылки за счет распределенности, избыточности (например, не конкретный URL документа, а URL поисковика по хэшу конкретного документа, аля торрент). С бинарниками сложнее, с текстовыми вместо хэша достаточно проиндексированной поисковиками последовательнасти слов. Как?

en.wikipedia.org/wiki/Dead_link

Комментарии (1)

RSS свернуть / развернуть
+
-1
Еще пример про Best practices, предполагающие редирект:
в отличие от википедии (оракул)
community.software-testing.ru/tag/Будущее_тестирования/
не редиректит на
community.software-testing.ru/tag/Будущее тестирования/

ru.wikipedia.org/wiki/Тестирование программного обеспечения
в адресной строке превращается в
ru.wikipedia.org/wiki/Тестирование_программного_обеспечения

PS. Битые ссылки не убирают: «Форум профессионалов в области Software Quality Assurance(рус.)»

avatar

korziner

  • 29 января 2010, 14:09

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.