Смогут ли автоматизированные инструменты редактирования заменить Википедии добровольную рабочую силу?
Алгоритм, оценивающий качество статей в Википедии, может обратить внимание редакторов на записи, нуждающиеся в правках, уверяют его создатели.
Результат – большое количество высококачественных статей на совершенно разные темы, более чем на 200 языках. Однако остались и статьи низкого качества и сомнительной правдивости.
Здесь сам собой встает вопрос: как понять, насколько достоверна статья в Википедии?
Ответ на него дают Сянцзюй Цин и Падрейг Каннингем из Университетского колледжа в Дублине, Ирландия. Они разработали алгоритм, оценивающий качество страниц Википедии, основываясь на авторитете их редакторов и времени между правками.
Получив эту информацию, посетители Википедии смогут намного точнее определить качество той или иной статьи.
Раньше качество статей Википедии уже подвергалось проверке. Новшество заключено в использовании тех же самых методов, но по-иному.
Цин и Каннингем начали со стандартного способа измерения долговечности редакторских правок. Идея состоит в том, что стоящая редакция переживет не один просмотр. Для этого они скомбинировали размер правки автора и ее «срок действия».
Вандализм стал обычной проблемой для Википедии. Чтобы эта проблема не повлияла на результаты исследования, Цин и Каннингем проигнорировали все анонимные правки и приняли среднюю величину качества, которая часто снижала воздействие злонамеренных редакций. Затем они оценили авторитет каждого редактора. Всем известно, что Википедия имеет относительно небольшое количество преданных редакторов, которые играют фундаментальную роль в сообществе. Эти люди помогают поддерживать различные редакционные стандарты и распространяют их по сообществу.
Здесь Цин и Каннингем полагают, что существует связь между двумя редакторами, если они оба участвовали в создании статьи. Соответственно, более опытные редакторы имеют в сети больше связей.
Существует несколько способов измерения авторитета. Цин и Каннингем принимают во внимание число других редакторов, с которыми связан данный редактор. Они оценивают кратчайшие пути по сети, которые проходят через данного редактора. Для этого используется повторяющийся алгоритм типа PageRank.
В итоге Цин и Каннингем объединяют величины долговечности и популярности и устанавливают уровень качества статьи. Чтобы узнать эффективность оценки, они проверили свой алгоритм на 9 000 статьях, уже оцененных редакторами Википедии. Исследователи говорят, что долговечность правок уже сама по себе хороший индикатор качества статьи. Однако авторитет редакторов лишь уточнит этот показатель.
Правда, есть кое-какие ограничения. Очень часто статья получает свою предыдущую версию, в этом случае полностью удаляются все правки. Эта функция часто используется для того, чтобы избавиться от вандализма.
А значит, им есть над чем работать.
Однако новый метод мог бы стать полезным инструментом в руках у редактора Википедии. Цин и Каннингем считают, что он может помочь идентифицировать новые относительно хорошие статьи и старые статьи низкого качества, требующие доработок.
Автоматизированные инструменты для редактирования были бы просто незаменимы в сложившейся ситуации снижения добровольной рабочей силы Википедии.
Суть в том, на сколько хорошо и как именно они должны работать в подобном широкодоступном ресурсе.