Цифрова катастрофа: втрата оцифрованих даних.

Порушено головну обіцянку цифрової епохи . Якщо спочатку вважалося, що завдяки своєму дематеріалізованої змістом цифрова інформація зберігається набагато краще, ніж нецифрових, то тепер настав протверезіння. Бібліотеки та архіви, корпорації і держустанови зіткнулися з тим, що інформацію на електронних носіях більш ніж 20-річної давнини неможливо прочитати, а значить вона втрачена.

Інформація стає недоступною за різних причин: носії даних стали нечитабельним, відсутні потрібні дисководи або більше не підтримуються старі формати. Американському космічному агентству NASA не вдається вважати тисячі магнітних стрічок космічних місій. Великі пробіли з'явилися в архівах газет і телепередач, прикладів тому тисячі. Історик 19-го століття може простежити найменші зміни текстів, рукописні доповнення до них або позначки на полях, а хроніст минулого століття (хоча він і стикається з нескінченною масою беззмістовного матеріалу) не може отримати доступу до тих важливих даних, які загинули в цифрового всесвіту.

Реалістична тривалість життя улюблених носіїв

Тепер цифрове забуття зачіпає не тільки великі компанії та організації, а й окремих людей. Розбираючи свої речі, ми натрапляємо на диски власної записи, зроблені десять років тому, які вже неможливо програти. DVD з фільмами, записані з телевізора, перестають працювати вже через п'ять років. Рани від таких втрат швидко гояться, але ось втрата важливого носія з текстами, фотографіями і електронними листами переживається набагато важче. Хоча великі виробники CD-і DVD-дисків заявляють, що їхня продукція функціонує без збоїв від 30 до 100 років. Фахівці вважають, що реальна тривалість життя цих усіма улюблених носіїв становить від 2 до 10 років.

Незважаючи на те, що доступ до спадщини попередніх років становить одну з найважливіших основ культури і науки, а основна частина нашого знання і нашої культури створюються і зберігаються в цифровому вигляді, до цих пір не існує надійних способів довгострокового зберігання даних. Можна без проблем прочитати 300-річну книгу, але вважати електронний манускрипт 30-річної давнини з 8-дюймової дискети вже неможливо.

Носій даних «папір» зберігається сотні років

Для порівняння, методи поводження зі старими книгами не змінилися за минулі століття: існує єдина система кодування (алфавіт), який ми можемо інтерпретувати і сьогодні, а окремі сторінки зібрані в єдиний об'єкт (книгу), створення якого грунтується на відомих усім принципах: сторінки нумеруються і з'єднуються в книзі в числовому порядку. При хорошому зберіганні папір не змінюється і після сотень років, її окремі інформаційні елементи (літери) надійно і надовго встановлені на своїх місцях, а на обкладинці книги позначено назву, щоб швидко відрізнити одну книгу від іншої. У підсумку, книга достатньо стабільна і транспортабельна.

А от у наш комп'ютерний вік кожен формат зберігання даних, званий надійним, прогресивним і орієнтованим на майбутнє, виявляється таким самим нестійким, як і його попередники, а прогнози виробників і експертів про їх надійність не підтверджуються. Відразу спадає на думку просте рішення: роздруковувати електронні файли після завершення редагування і тим самим забезпечувати їх довгострокову доступність. Але проблема тут полягає в тому, що зміст цифрових документів не завжди можна роздрукувати і включити в книгу: мова йде про мультимедійних файлах.

Постійне перекопірованіе на свіжі носії

Отже, як скористатися завтра тим, що створено сьогодні? Над цією проблемою вже давно ведеться робота, і здається, зараз вихід знайдено: по-перше, постійне перекопірованіе на свіжі носії, по-друге, багаторазове копіювання для підстрахування і, по-третє, постійне оновлення обладнання і програмного забезпечення паралельно з переносом і конвертацією існуючих даних. Але цей шлях досить складний, наприклад, інформація, перенесена в новий формат зі старого носія, ніколи не буде точною копією вихідних даних. Так що якщо ви хочете уникнути цієї дорогої пастки, залишається тільки паперовий архів.

Якщо роздрук кілометрів файлів вам не підходить, сконцентруємося на інших способах забезпечити схоронність особистого цифрового архіву у себе вдома

Це стосується як засобів зберігання і захисту інформації , так і форматів даних. Почнемо з другого: по-перше, чим більш поширений формат, тим довше, швидше за все, їм можна буде користуватися. Багато що свідчить про те, що розбрід форматів, характерний для зорі комп'ютерної техніки, поступово закінчиться. Приміром, якщо раніше співіснували найрізноманітніші, взаємно не підтримувані текстові програми і табличні редактори, то сьогодні все сфокусовано тільки на актуальній версії сімейства Microsoft Office і на Open Office. І хоча ці два формати конкурують один з одним, обидва вони визнані Міжнародною організацією стандартів (ISO).

Важливі стандарти: Microsoft Office, Open Office і PDF

Інформація сьогодні може бути представлена ??не тільки в закодованому або двійковому вигляді, але і з використанням розширюваної мови розмітки XML (Extensible Markup Language), тобто її можна переглядати в текстових редакторах. Такі прозорі формати (Microsoft Office і Open Office) забезпечують високу ступінь збереження, а значить, краще перейти на один з них: вони надійніше двійкових форматів і до того ж завдяки стисненню файли мають набагато менший розмір. Слід згадати, що корпорація Microsoft спеціально розробила для Office 2003 безкоштовний пакет Compatibility Pack, який дозволяє переводити дані у формат Office Open XML, а тим, хто хоче перетворити на сучасний вигляд зовсім старі формати, підійде Word Perfect Office від Corel.

Іншим важливим стандартом є, зрозуміло PDF від Adobe. Цей «переносний формат документів» (Portable Document Format) практично являє собою електронний еквівалент паперового документа. PDF-програма Acrobat подібно драйверу принтера вбудовується в операційну систему та надсилає текст у тому вигляді, який він мав би в книзі, з усіма встановленими шрифтами, форматуванням, графікою і таблицями.


Acrobat з'явився в 1993 році, і сьогодні програма для читання файлів відкрита для безкоштовного доступу, а для тих, хто хоче сам створювати PDF-файли, Adobe робить кілька привабливих пропозицій за плату.

Отже , формат PDF знаходиться у вільному доступі і являє собою формат довгострокового зберігання, визнаний ISO. До того ж він широко поширений, і багато програм, наприклад, Open Office дозволяють здійснювати прямий PDF-експорт без додаткового програмного забезпечення. Документи PDF можна читати, створювати і редагувати в будь-якій операційній системі, і PDF як електронний роздрук відмінно підходить завжди, коли щось потрібно зберегти в тому вигляді, в якому воно існує. Багато сканерів мають вбудовані PDF-пристрої, потім можна через PDF запустити розпізнавання тексту (OCR), пошук або копіювання окремих частин тексту.

І у фотографії хороших новин більше, ніж поганих

В області фотографії теж більше хороших новин. Хоча формат Спільної групи експертів по фотографії (Joint Photographic Experts Group, JPEG) не найкращий, він представляє собою безперечний стандарт, яким користуються всі. Для довгострокового зберігання фотографій JPEG не має альтернативи, незважаючи на те, що багато фотографів воліють зберігати свої роботи у форматі сирих даних Raw. Цей формат забезпечує більш високу якість зображення, велику гнучкість при подальшій обробці і значний динамічний діапазон, однак вимагає величезної кількості місця при збереженні. До того ж Raw-формати доступні тільки за плату, а іноді взагалі закриті для широкого доступу, так що фотографам доводиться вимагати від виробників фотокамер зробити формати сирих даних загальнодоступними.

Історія цифрової музики і невірний стандарт

Зате далека від будь-якої стандартизації електронна пошта. Зазвичай в офісах користуються Microsoft Outlook: це хоч і ефективна програма, але вона складна і непрозора через свого двійкового формату. Про довгостроковому зберіганні тут теж не може бути й мови: все важливе перетворіть в PDF. А той, хто довіряє Google, може скопіювати всі листи в поштову скриньку Googlemail: 7 гігабайт вистачить на кілька десятків тисяч листів.

Нарешті, мультимедіа: історія цифрової музики демонструє хороший приклад того, що може статися, якщо зробити ставку не на той формат. На початку 1990-х Sony представила надихнула багатьох новинку, Mini Disc з технікою стиснення Atrac. Маленькі переносні пристрої забезпечували запис чудової якості, яку можна було зберігати на перезаписувати міні-дискеті. Експертам було ясно, що це спадкоємиця касет, але Mini Disc мав значний недолік: записи не можна було переносити на комп'ютер, а ретельна захист від копіювання неприємно вражала. Тоді Фраунхофскій інститут інтегральних схем в середині 1990-х створив свій власний формат, MP3. Як і у випадку з Mini Disc, новий формат стискав звуковий сигнал з певними втратами, але це був безкоштовний формат, а тому його прихід ознаменував кінець Mini Disc.

І ще одна замітка про аудіофайли : якщо ви купуєте в Інтернеті музику із захистом від копіювання або DRM (Digital rights management, захистом авторських прав), можете бути впевнені, що через кілька років ці файли неможливо буде програти, навіть якщо комп'ютерні компанії стверджують зворотне (наприклад, слоган Plays for Sure («Грає точно») від Microsoft).

Серед відео-стандартів немає фаворитів

Що стосується відео, то тут немає однозначної фаворита серед форматів, і тому, хто коли-небудь знімав ролики на телефон чи відеокамеру, знаком хаос непреобразуемих один в одного форматів. Кращі шанси на майбутнє має формат Mpeg 4 AVC/H.264: це самий ефективний і сучасний варіант сімейства Mpeg-4, який зберігає відео в хорошій якості, використовуючи при цьому лише небагато місця на диску.

Закінчивши з форматами, ми підійшли до питання про те, яку техніку використовувати, щоб не прогадати. Якщо записані в студіях аудіо-CD або відео-DVD «живуть» за 20-30 років, то диски, пропалені будинку, далеко не так довговічні. Перш за все, це пов'язано з їх вихідним невисокою якістю. Навіть великі виробники роблять порожні диски на дешевих фабриках в Індії та Південно-Східної Азії, а якісні продукти на цьому сегменті майже повністю зникли з ринку. Іншими словами, це означає, що чим дешевше диск, тим частіше будуть виникати помилки даних. Якісну техніку можна отримати тільки у спеціальних виробників, наприклад, у тих, які обслуговують лікарні або страхові компанії.

Але незважаючи на всі мінуси люди продовжують записувати диски будинку, так що залишається лише додати, що домашні диски краще зберігати в темряві і при постійній температурі

Наостанок наведемо кілька методів довгострокового архівування та зберігання даних:

При міграції (конвертуванні) дані переносяться з комп'ютерної техніки (хардвер та програмне забезпечення) старого покоління на сучасні зразки. При цьому можуть виникнути проблеми із сумісністю і спотворенням вихідного матеріалу, коли, наприклад, новий формат не має властивості старого, так що функціонально ідентичне конвертування можливо не для всіх форматів.

При перекопірованіі , наприклад, з магнітних касет або CD, на першому місці знаходиться збереження матеріалу. При цьому головна мета полягає в тому, щоб перенести окремі біти інформації на самому близькому до первісного вигляді: це забезпечить довгий термін служби носія. Правда, перекопірованіе припускає, що завтра все ще будуть існувати кошти для зчитування того, що записується сьогодні.

При емуляції , нарешті, на пристрої копіюються властивості іншого пристрою, на якому і були записані дані, наприклад, як якщо б комп'ютер копіював властивості касетного магнітофона; якість даних при цьому зберігається абсолютно. Визначальним моментом тут, правда, є достатні знання про старій техніці - інакше не вдасться як слід скопіювати її властивості.


Ілля Яковлєв
штат