...

Стоит ли сканировать и распознавать книги?

Хочу с вами поделиться одной путевой мыслью, дабы вы не занимались сизифовым трудом, как сделал это однажды я. Речь пойдет о переводе книг, возможно даже очень старых, в цифровой вид. Рекомендуем книги онлайн здесь, на сайте online-knigi.com.

Так вот, давно была эта история, но мне она запомнилась надолго. Шеф дал мне задание сканировать и распознать одну толстостенную книженцию. Гм, помню свои чувства когда я на нее взглянул, мне аж поплохело 🙂 Работа предстояла нудная, и долгая…

И так, несколько недель, изо дня в день я занимался монотонной работой, сканировал, распознавал, правил… сканировал, распознавал правил… И вот однажды после работы, я посетовал своему знакомому на неблагодарную работу, которую мне поручило начальство, а парень был на тот момент очень опытным интернет пользователем и он мне моментально посоветовал сделать следующее. Написать одно-два предложения, и потом забить их в форму поиска Google.

Когда я сделал это, я не знал, что мне делать — рыдать, радоваться или беситься от гнева. В окне поисковой выдаче всплыло по меньшей мере 10 сайтов с полным текстом этой книги. Да кто же знал, что узкопрофильные советские труды уже давно сканированы и переведены в цифровой вид.

В тот момент меня радовало одно — работу я закончу очень быстро, огорчало — большая часть работы была уже выполнена 🙂

Потом, при нашем следующем разговоре, он рассказал мне в чем заключается суть всего. Для поисковых систем нужны уникальные тексты, в противном случае сайты индексируются либо очень плохо, либо вообще не индексируются. И если при создании хороших сайтов обычно нанимают грамотных копирайтеров, то есть еще такое понятие как биржи ссылок.

Чтобы засунуть сайт в биржи ссылок, нужно много уникального текста, возможно даже не очень хорошего качества, а где его взять? Так вот, эти люди постоянно ищут дешевый контент. А самый дешевый контен — сканированные книги. Вот и получается что почти все книги, даже те, которые очень старые и были изданы в начале прошлого века уже сканированы.

Так что если у вас возникнет вдруг потребность сканировать такую книгу, попытайтесь сначала ее найти в интернете, с большой вероятностью вы ее там найдете.