This page is hosted for free by zzz.com.ua, if you are owner of this page, you can remove this message and gain access to many additional features by upgrading your hosting to PRO or VIP for just 32.50 UAH.
Do you want to support owner of this site? Click here and donate to his account some amount, he will be able to use it to pay for any of our services, including removing this ad.
Создание, продвижение и поддержка сайтов
Online Translate
Рубрики

Интернет реклама УБС
Статистика сайта
Посетители по странам
Посетители за последние 24 часа
Flag Counter

Интернет реклама УБС

Шинглы

Шинглы — хеш-значение непрерывной последовательности слов текста фиксированной длины.

Метод шинглов разработан Андреем Бродером в 1997 году. Свое название шингл получил из-за того, что разбивает текст на кусочки — ШИНГЛЫ (по-английски “shingles” – это чешуйки, черепички). Удобство способа проверки шинглами состоит в том, что он позволяет сначала описать текст, заменяя каждый шингл контрольной суммой в двоичном коде, а затем сравнительно оперативно сопоставить эти коды шинглов — ведь с числами работать куда проще и быстрее, чем со словами и фразами!

Допустим, имеется текст для проверки “Попробуем обмануть метод шинглов, подсунув не содержащий уникальности контент?”. Отбрасывается все лишнее (табуляции, пробелы, знаки препинания), в итоге останется “попробуем обмануть метод шинглов подсунув не содержащий уникальности контент”. Затем текст делится на шинглы (обычно поисковики применяют длину шингла в 4 или 5, берем четыре):

попробуем обмануть метод шинглов
обмануть метод шинглов подсунув
метод шинглов подсунув не
шинглов подсунув не содержащий
подсунув не содержащий уникальности
не содержащий уникальности контент

Заметьте, что шинглы строятся внахлест — это гарантирует, что поисковая системе при проверке не пропустит ни единой подстроки контента, что очень важно в процессе нахождения копий. Наконец, остается последнее — сравнить шинглы у разных текстов. Кто знаком, как строятся индексы у базы данных, тот сразу сообразит, как это производится с наименьшими затратами машинных ресурсов. Чем меньше шинглов совпало — тем больше вероятность того, что текст является уникальным.

Описательные слова (Descriptive Words) — довольно изящный способ формализовать текст для его последующей проверки на копирование. Суть метода проверки описательными словами заключается в том, что формируется выборка объемом в 2…3 тысячи слов. Эта выборка должна соответствовать следующим задачам:

она должна описывать почти любой документ в сети
описание должно быть минимальным и не избыточным
совокупность векторов описательных слов уникальна

Для построения выборки из описательный слов отбрасываются все стоп-слова, различные узко-специализированные термины и очень редкие слова (такие, как “конъюнктивообразность”) и прилагательные. Затем каждая страница с текстом сопоставляется с выборкой, и рассчитывается вектор совпадения, размерность которого равна объему выборки. Уникальность контент определяется путем сравнения этих векторов.


Интернет реклама УБС

Интернет реклама УБС