Саммарі: Просто про великі дані | Джудіт Гурвіц, Алан Ньюджент, Ферн Халпер, Марсія Кауфман

Автори: Джудіт Гурвіц, Алан Ньюджент, Ферн Халпер, Марсія Кауфман

Хто володіє світом?

Хто володіє інформацією, той має світ. А якщо йдеться про цілий океан інформації? Цей океан щодня поповнюється, змінюється, оновлюється та застаріває, він містить безліч унікальних корисних відомостей, і він відносно доступний. Але «бачить око, та зуб неймет» — донедавна принцип взаємодії бізнесу з великими даними залишався приблизно таким. Технологічні можливості обробки Big Data не дозволяли нормально структурувати та використовувати в бізнес-цілях такі колосальні обсяги інформації.

Зараз аналіз великих даних став невід’ємним елементом роботи компаній у різних сферах — від медицини до готельного бізнесу. При цьому великі дані не є єдиним ринком, а сукупністю технологій управління інформацією. І це не «ще одне хороше рішення, яке може пожвавити бізнес», — впровадження великих даних потребує розвиненої інфраструктури та чіткого плану дій. Але гра коштує свічок: Big Data дозволяє забезпечити максимальну ефективність та величезну економію ресурсів: компанії, що йдуть попереду, це довели.

Як використовувати потенціал Big Data на благо свого бізнесу? Саммарі пояснює ключові принципи роботи з великими даними.

Що таке великі дані

Щодня ми виробляємо величезну кількість інформації: пости в соціальних мережах, відгуки на сайтах, фото- та відеозаписи, дані навігаторів, датчики обладнання… А поширення все більш компактних і потужних мобільних пристроїв обіцяє, що надалі цей потік даних лише збільшуватиметься. Ми вже навчилися шукати потрібну інформацію в інтернеті, а ось аналізувати різнопланові відомості з різних джерел та ще й звертати цей аналіз на користь справи — навичка майбутнього. Але працювати над ним можна і треба вже сьогодні. Надзвичайна різноманітність інформації — і серйозні труднощі, і серйозна перевага.

Три ключові параметри великих даних:

1) надзвичайно великий обсяг;
2
) надзвичайно висока швидкість обробки;

Технологія великих даних, яка сьогодні виглядає настільки сучасно та багатообіцяюче, — не відкриття останніх років, а результат півстолітнього розвитку принципів управління даними.

Як розвивалася технологія Big Data

Етап 1. Керовані структури. Технології зробили крок назустріч бізнесу на початку 1970-х, коли компанія IBM зайнялася розробкою реляційних систем управління базами даних. Було розроблено мову структурованих запитів (SQL) та спеціальні утиліти управління даними, що дозволили кодувати інформацію на високому рівні абстракції (у такому вигляді працювати з нею було набагато простіше). Однак зберігання інформації (а її обсяг все збільшувався) і доступ до неї (як і раніше, повільний) залишалися проблемою. Коли обсяг даних майже неможливо контролювати, програмісти знайшли вихід, придумавши сховища даних. Їхні комерційні версії з’явилися в 1990-і роки і відразу стали затребуваними: маючи в сховищі дані за різні роки, компанії краще представляли свою роботу, гнучкіше оперували фінансовою звітністю, могли оцінити перспективи. Наступним кроком стало створення об’єктно орієнтованих систем управління, що забезпечили єдиний підхід до роботи з різнорідними даними.

Етап 2. Керована мережа Інтернет 1990-х в рази збільшив кількість контенту. з’явилися, а з ними прийшла ідея метаданих (звичайним користувачам вони відомі як теги). Світ ставав все віртуальнішим. А вигоди, які обіцяв цей новий світ, були цілком реальними.

Етап 3. Управління великими даними. Ще кілька років тому компанії змушені були задовольнятися вибірками інформації, що їх цікавить — зберігання та обробка даних були надто дорогими. Це звужувало стратегічні можливості бізнесу і здавалося не такою вже вигідною справою. У 2000–2010 роки зберігання та обробка інформації здешевилися в рази: комп’ютерна пам’ять стає все досконалішою, хмарні сервіси дедалі популярніші, віртуалізація бізнес-середовища дедалі ширша. При цьому попередні ідеї типу сховищ даних не застаріли — великі дані не зводяться лише до одного інструменту, працювати з ними — означає використовувати досягнення всіх етапів розвитку цих технологій.

Типи даних

Дані можуть бути структурованими та неструктурованими.

Структуровані дані мають певну довжину і формат. ! Ці дані генеруються і тоді, коли ми проходимо за посиланням на будь-який сайт. звички передбачають нашу поведінку.

Це найдавніший вид даних: провідні облік товарів месопотамські переписувачі теж мали справу з іменами та адресами клієнтів.

Неструктуровані дані немає певного формату. Метеодані та результати супутникової фотозйомки, вимірювання сейсмоактивності, записи з камер спостереження та результати опитувань, нарешті, звичні електронні листи та всі наші «цифрові сліди» (соцмережі, онлайн-купівлі, штрафи за перевищення швидкості) — це неструктуровані дані.

У середньому 80% даних будь-якого підприємства неструктуровані. Справжній клондайк для підприємливих бізнесменів, чи не так? Тим часом до останнього часу не існувало технологій, які допомагали б працювати з цим типом даних. Їх можна було лише аналізувати вручну. Тим самим було пропадали колосальні можливості.

А сьогодні? Ви набираєте в пошуковому рядку бажаний товар, а за хвилину контекстна реклама сама виникає у браузері. З погляду програміста, це типовий результат комплексної взаємодії структурованих та неструктурованих даних. Більше того, тільки їхня взаємодія (і бажано в режимі реального часу) і має сенс як бізнес-стратегію.

Бізнес більше не може працювати із ізольованими сховищами інформації — найактуальніші рішення у цій галузі пов’язані з інтеграцією даних. За це відповідають метадані. Вони забезпечують найкоротший шлях до шуканої інформації. Дані про банківський рахунок, що містять власне номер рахунку, а також ім’я та адресу клієнта, є типовим прикладом метаданих. Теги, якими ми маркуємо пости в соцмережах, теж метадані.

Специфіка роботи з даними

Специфіка роботи з даними визначається їх типом. Дані можуть бути:

• передані (їх також називають даними в русі), вони транслюються безпосередньо в ході виробничого процесу – показання медичних датчиків, прилади стеження;
• збереженими (або даними у спокої) — дані соцмереж, статистика продажів, листування клієнтів із кол-центрами.

Цикл роботи з даними включає три етапи:

• збирання даних;
• систематизація;
• узагальнення.

На перший погляд, у цьому списку немає того, чого не знав би і фахівець середини XX століття. Конкретний зміст роботи, як буде показано далі, може бути дуже специфічним і різноманітним. До того ж, сьогодні в цьому циклі з’явилася четверта характеристика:

• достовірність даних.

Великі дані — океан інформації, який, проте, живиться тисячами інформаційних струмочків та річечок. Реляційні бази даних 2 , винайдені у XX столітті, мали справу з високоструктурованими впорядкованими даними, пов’язаними з певним аспектом діяльності. Сьогодні ситуація змінилася. Щоб у компанії склалася реалістична картина того, що відбувається, зібрані дані повинні охоплювати безліч джерел, часто неструктурованих.

Інфраструктура великих даних

У світі, де інформації стає дедалі більше, а її джерела все більш різноманітними, єдиною ефективною стратегією роботи сьогодні залишаються розподілені обчислення. Ця технологія дозволяє окремим комп’ютерам, як завгодно віддаленим один від одного, працювати як єдине середовище. Використання цієї технології призвело свого часу до створення інтернету. У 1990-ті Google, Yahoo! і Amazon збільшили бізнес-потужності, використовуючи апаратне забезпечення, що дешевшає, для зберігання даних. А сьогодні ми спостерігаємо ще тісніше зрощення технологій з бізнесом: раніше недоступні для аналізу масиви інформації стають джерелом мільярдних доходів — першими це зрозуміли ті самі Amazon, Google і Facebook. Але розподілені обчислення зараз лише одна із складових інфраструктури, яка обслуговує великі дані.

Інфраструктура використання великих даних передбачає:

• платформи, інтерфейси (від різноманітних додатків до засобів обробки потокових даних 3 ) та розподілені файлові системи (для розбиття потоку даних та масштабування засобів їх обробки);
• операційні бази даних (що зберігають дані про поточну діяльність компанії — угоди, клієнти, запаси тощо);
• аналітичне сховище даних – корпоративні бази даних, призначені для аналізу бізнес-процесів, підготовки звітів та підтримки системи прийняття рішень.

Платформи для роботи з великими даними

Технологічні рішення: MapReduce та Hadoop

MapReduce — розроблена технологія Google, здатна обробляти великі обсяги даних у пакетному режимі. Компонент mар (карта) розподіляє завдання між різними системами, а функція reduce (редукція) після необхідних обчислень збирає елементи воєдино та формує результат. Представте збірник, що включає тексти 40 мовами. Потрібно визначити, скільки сторінок займає текст кожною мовою. Завдання такого роду якраз для MapReduce. MapReduce швидко захопив ринок, тому що був пристосований для роботи з недорогим стандартним обладнанням.

“Дорога в пекло вимощена прислівниками” – вчить молодих письменників Стівен Кінг. А як справи з прислівниками у його власних книгах? Програми обробки природної мови на базі MapReduce визначать це легко. Функція мар розподілить аналізований матеріал між процесорами, а вибірка слів, що вийшла, стане предметом аналізу для функції reduce. Вона, своєю чергою, може бути зведена до роботи з певними типами прислівників. Філологи підтверджують: король жахів справді дуже акуратний із цією частиною мови, на кожні 10 тисяч слів у Кінга припадає лише 112 прислівників.

MapReduce позначає загальні принципи роботи з великими даними. Щоб скористатися цими знахідками, потрібні конкретні технологічні продукти. Так з’явився проект Hadoop 4 , один із найзручніших інструментів роботи з великими даними. Він доступний у рамках ліцензії Apache версії 2.0. Принцип роботи Hadoop — розділяй і владарюй: ця технологічна платформа ділить великі масиви даних на безліч фрагментів, а потім організує їхню паралельну обробку на безлічі обчислювальних вузлів. При цьому всі блоки даних локальні: відмова одного сервера не зірве всієї роботи. Це заощаджує час обчислень і скорочує кількість затримок. Високу відмовостійкість цієї системи клієнти зобов’язані сервісу Zookeeper, який координує розподілені програми, що працюють з великими даними.

Такі платформи, як MapReduce, особливо ефективні у віртуалізованому середовищі 5 . Віртуалізація може зачіпати всі рівні – обладнання, операційні системи, програмне забезпечення, мережі тощо. Особливо актуальна віртуалізація серверів: робота з даними стає масштабованою, тобто такі сервери легко справляються зі збільшенням навантаження (не завжди можна заздалегідь уявити, з яким саме обсягом даних доведеться мати справу).

Хмарні сервіси

Хмарні послуги все активніше задіяні і в бізнес-середовищі, і в повсякденному житті. Їхня перевага очевидна: користувачі заощаджують місце на жорстких дисках і обходяться без додаткового програмного забезпечення. Появі цієї інновації ми зобов’язані Google та Amazon з їхньою зацікавленістю в тому, щоб оптимально керувати величезним обсягом даних.

Пошта Gmail від Google – це мільйони повідомлень на добу та сотні мільйонів користувачів. Без хмарної підтримки такий сервіс не міг би виникнути.

Зараз бізнес має вибір між загальнодоступними хмарами, якими керують Google та інші зовнішні компанії, і власними локальними ресурсами. Свої переваги є і ті, й інші. Загальнодоступний сервіс може коштувати дешевше, ніж створення власного сховища даних. Але в цьому випадку компанія повинна пам’ятати про підвищені заходи безпеки та можливі затримки при обробці інформації. Приватна хмара, навпаки, легко контрольована. Оцінивши характер проекту та рівень ризику, який готова піти компанія, можна вибрати тип хмари.

Хмарні системи ідеальні для роботи з великими даними, адже Big Data передбачає розподіл потужності, що витрачається, а саме такий принцип роботи хмарних сервісів. Ринок дуже різноманітний: тут і Amazon, і AT&T, і IBM. Ці компанії приділяють особливу увагу програмному забезпеченню, призначеному для роботи з великими даними.

Хмарні послуги розташовуються ніби «ніде», тому, вибираючи постачальника послуг, варто потурбуватися про питання: де фізично зберігатимуться дані компанії? Законодавство деяких країн забороняє зберігання інформації на пристроях за кордоном.

Де і як зберігаються дані

Особливості сховищ великих даних

Сховища даних виникли 30 років тому, істотно полегшивши роботу великих корпорацій, але зараз на тлі розвитку технологій великих даних їхня концепція виглядає дещо застарілою. дані можуть утримуватися в сховищі, а дані, що надходять у режимі реального часу, керуються інфраструктурою на основі Hadoop.

Туристична компанія має справу з широким спектром завдань (бронювання квитків та номерів, планування рейсів, екскурсії), і всі ці послуги вимагають різнопланових операцій, представляючи ще й величезний обсяг даних Операційні дані типу клієнтської бази можуть утримуватися в сховищі даних, але веб- трафік і взаємодія з клієнтами повинні керуватися більш мобільними інструментами. вся ця інформація не може лежати мертвим вантажем у сховищі, зате з нею дозволяють впоратися розподілені обчислення Hadoop та MapReduce.

Операційні дані та бази даних

p align=”justify”> Робота з великими даними повинна співвідноситися з поточним станом бізнесу. Іншими словами, великі дані можуть повноцінно працювати тільки у зв’язку з операційними даними . Одні компанії зберігають операційні дані у загальній базі, інші – у кількох. Це залежить лише від зручності використання: дані про клієнтів можуть зберігатися в одній базі даних, а дані про угоди з цими клієнтами – в іншій. Звертаючись до використання великих даних, важливо розуміти, де і які дані зберігаються. Типи баз даних можуть відрізнятися залежно від характеру даних, із якими доводиться мати справу.

Документальні бази даних призначені для постійного зберігання окремих компонентів даних, які часто змінюються, які при необхідності можуть бути згенеровані в новий документ. З такими базами щодня мають справу лікарі, вносячи різнопланові дані про пацієнтів у стандартну форму, матеріали якої потім використовуються у різних звітах.

Графові бази даних представляють матеріал як класифікацій чи систематизованих схем. Вони ефективні у роботі зі складно взаємопов’язаними даними типу біологічних чи тих-таки медичних відомостей. Знайома за шкільним підручником схема «Царство тваринного світу», лише доповнена тисячами подробиць, це типова графова база даних.

Просторові бази даних зустрічаються нам щодня – вони лежать в основі системи GPS, забезпечують точну геолокацію. Робота з цим типом інформації вважається однією з найскладніших, але й обіцяє принципово нові сфери застосування: тривимірне моделювання різних об’єктів від будівель до людського тіла або реконструкція тривимірного простору минулого на основі наявних архівних даних.

Бази даних з поліглотною збереженістю вміють працювати зі складними завданнями, поділяючи їх на окремі сегменти та застосовуючи до кожного свою модель бази даних. Уявимо поліглота, який опинився на національній вечірці: його оточують американець, норвежець, китаєць, японець, іспанець – і з кожним них поліглот може вести бесіду його рідною мовою. даних з поліглотної збереження, а результатом їх роботи стає нове гібридне рішення для зберігання даних.

Величезній мережі магазинів потрібно визначити всіх покупців великої побутової техніки, які здійснили покупку за останній рік і поділилися цією новиною в соціальних мережах, а також дізнатися, де саме купувався товар, чи покупці зверталися до служби техпідтримки, як швидко була вирішена їхня проблема. роботи має стати таргетована рекламна акція, повідомлення про яку приходили б на смартфони клієнтів щоразу, коли вони Проходять повз магазин цієї мережі.Звучить занадто складно? класифікація клієнтів) і просторової (відстеження переміщень клієнта). Для всієї цієї роботи потрібна база даних з поліглотної зберігання.

Аналітика великих даних

Види аналітики

Самі собою великі дані — це лише величезна кількість інформації. Перевага у роботі з ними має той, хто навчився грамотно аналізувати неосяжні масиви даних.

Такі гіганти бізнесу – Amazon та Google. Фраза «З цим товаром купують також…» — результат багатоходової операції, у якій зведено і історія активності клієнта, та його звички купівлі, і подібні переваги інших клієнтів.

Робота з великими даними – це мистецтво правильно ставити запитання. Поставлене завдання визначає тип аналітики.

Базова аналітика годиться для рекогносцировки біля, коли фірма має справу з непорівнянними чи неочевидними даними. Типові інструменти базової аналітики – візуалізація та статистичні викладки.

Гідрологи досліджують товщу води в різних точках Волги. Отримані показники відображають різні параметри, вимірювані безліччю датчиків: рівень кисню, температуру, прозорість, мінералізацію. діапазон значень для кожного параметра. подальшого аналізу

Поглиблена аналітика спрямована на пошук тенденцій та обробку складних подій.

Компанія, що надає послуги стільникового зв’язку, хоче визначити, які клієнти можуть відмовитись від її послуг і як їх можна утримати. Засобами базової аналітики тут не обійдешся.

Операціоналізована аналітика вбудована в роботу компанії, керує людьми та технологіями у процесі досягнення бізнес-мети.

Ви дзвоните до магазину електротехніки, а в цей час програма визначає вас як клієнта, схильного до великих покупок. Програма подає сигнал оператору кол-центру і той вибирає відповідну модель розмови з вами. Або ж програма може відправити вам після розмови спеціальну пропозицію про новинки, що надійшли у продаж. Так працює операціоналізована аналітика.

У сенсі отримання прибутку аналітика великих даних — це руки царя Мідаса, які звертають у золото. Унікальний масив даних, що породжується в результаті такої аналітики, є величезною цінністю для рекламодавців. І це добре знають Google та Facebook.

Потокова передача даних та обробка складних подій

Успіх у бізнесі багато в чому залежить від швидкості реакції на виклики реальності. У роботі з великими даними керувати цією реакцією допомагають такі інструменти, як потокове передавання даних та обробка складних подій.

Поточні обчислення необхідні обробки потоку неструктурованих даних. Вони актуальні з запалу від спеки, коли рішення має ухвалюватися негайно, чи йдеться й стан пацієнта в лікарняній палаті, підозрілих переміщеннях по режимному об’єкту чи відмові важливої системи на ядерній станції.

Обробка складних подій зосереджена на кількох змінних, які мають ключове значення для бізнес-процесу. Зібрані за певний період дані можуть сигналізувати, наприклад, про те, що бізнес-план потребує коригування або компанії загрожують труднощі через зміну ситуації на ринку.

Мережа роздрібної торгівлі хоче підвищити кількість продажів і створює при цьому програму лояльності. Програма спланована таким чином, щоб спонукати найзабезпеченіших клієнтів витрачати якнайбільше грошей. Платформа обробки складних подій, що управляє програмою, настроєна так, щоб своєчасно пропонувати клієнтам знижки на певні продукти та послуги. Важливо, щоб ця програма була пов’язана з мобільним додатком і платформа була в курсі переміщень клієнта: як тільки він проходить повз потрібний магазин, йому надходить повідомлення про несподіваний бонус або рекламне сповіщення. Обробка складних подій координує безліч цифр (платежі, курс валют, знижки) та дій (поведінка клієнта), а вся технічна робота зосереджена на ключових положеннях прийнятої бізнес-стратегії.

Текстова аналітика

Нам здається, що сьогодні інтернет-контент складається лише з їхніх картинок і відео. Але уявіть інтернет без текстів. Він одразу ж стане німим і безлюдним! Не дивно, що текстова аналітика залишається ключовою технологією обробки великих даних .

Повідомлення в соцмережах, електронні листи, юридичні договори — все це інформація, структурована певним чином, а отже, вона може бути відстежена та узагальнена. Як? Тут на допомогу програмістам приходить лінгвістика, адже йдеться про принципи опрацювання природної людської мови. Вони спираються на давно відомі лінгвістичні концепції граматичних структур та семантики. Щоправда, щоб ці концепції зрозумів комп’ютер потрібно виробити нові правила. Вони можуть бути дуже прості та зручні у використанні («ім’я починається з великої літери»), можуть бути не настільки очевидні, але реалізовані (розпізнавання емоцій), а деякі правила знаходяться ще в процесі становлення.

Це складне багатоаспектне завдання, тому що феномен мови не цілком зрозумілий і самим людям, не кажучи вже про комп’ютери. Проте успіхи машинного перекладу вселяють оптимізм, а інтереси бізнес-гігантів змушують стимулювати процес пошуку зручних алгоритмів. Листи, що надійшли до компанії, дзвінки до кол-центрів, опитування клієнтів — вся ця інформація містить надзвичайно цінні відомості і чекає на те, щоб їй скористалися.

Текстовій аналітиці навчається сам суперкомп’ютер Watson, відомий тим, що у 2011 році здобув одну з найбільш вражаючих перемог над людиною – виграв шоу Jeopardy! (Російський аналог – “Своя гра”).

Інтеграція даних: складно, але здійсненно

Володіння великими даними лише тоді є конкурентна перевага, коли вбудовано в загальний план роботи. Для цього вже наявні операційні дані необхідно інтегрувати у великі дані. З якими типами даних належить мати справу компанії? Записи про обслуговування клієнтів? Електронні листи? Можливо, першому місці показання датчиків? Все це різні типи даних, і особливу складність становлять неструктуровані дані.

Синхронізація різнорідних даних – звична процедура для лікарів, які, вивчаючи неструктуровану інформацію з медичних карт пацієнтів, співвідносять її з традиційними даними типу результатів обстежень або експериментами. Очевидно, що ставки цієї аналітичної роботи дуже високі: від грамотного аналізу залежить здоров’я пацієнтів.

Грамотна інтеграція великих та операційних даних – ключовий фактор успіху у будь-якій сфері.

Чим кращі операційні відомості (історія покупок, наявність товару на складі) будуть співвіднесені з потоком неструктурованих даних (поточне місцезнаходження клієнта), тим ефективнішою буде бізнес-стратегія. Отримуючи сьогодні чергове СМС про нові надходження в улюбленому магазині одягу, ми поки що не здогадуємося, що завтра технології великих даних у прямому розумінні чекатимуть на нас біля магазину, щоб оперативно повідомити про актуальні пропозиції.

Перенесення даних з одного середовища до іншого забезпечується інструментами ETL 6 (extract, transform, load — вилучення, перетворення, завантаження). Зазвичай ETL потрібні для пакетної обробки серед сховищ даних. Сховища накопичують інформацію з різних джерел, інструменти ETL займаються завантаженням та коректним перетворенням структурованих та неструктурованих даних у сховище даних.

Три ключові характеристики введення великих даних у операційну діяльність:

• Валідність. Чи вірні наявні дані у випадках? (Так, лікар, володіючи деякими даними клінічних випробувань, які можуть стосуватися хвороби пацієнта, не може використовувати їх без попередньої суворої перевірки — валідації).

• Достовірність результатів (особливо актуально у вік фейкової інформації).

• Волатильність. Як довго зберігатимуться ці дані.

Великі дані для бізнесу

Стара форма? Новий зміст!

Використання великих даних в операційній діяльності принципово змінює характер цієї діяльності, будь то компанія з надання послуг, виробництво або наукова лабораторія. Зорієнтуватися у величезному масиві даних та безлічі джерел інформації допомагає простий алгоритм:

• сформулювати проблему, яка потребує вирішення;
• визначити процеси, які будуть задіяні у вирішенні проблеми;
• визначити інформацію, необхідну вирішення проблеми;
• зібрати та проаналізувати дані.

Розглянемо цей алгоритм на прикладі завдання, яке стоїть перед співробітниками магазину:

1) формулювання проблеми: як збільшити обсяг продажу господарських товарів за допомогою рекламних акцій;
2) процеси, задіяні у вирішенні проблеми: збирання інформації з продажу, вивчення ринку;
3) інформація, необхідна вирішення проблеми: статистика продажів, пропозиції конкурентів;
4) збір та аналіз даних включають вибір кращої рекламної пропозиції та способу оповіщення клієнтів.

На перший погляд, ця схема нічим не відрізняється від тієї, якої менеджери дотримувались і в докомп’ютерні часи. Однак зміст її був зовсім іншим: на кожному етапі цього процесу співробітники оперували надзвичайно обмеженим набором даних, доступна інформація зберігалася в локальних базах даних і була погано скоординована. Приклад із простим алгоритмом дій показує: інтеграція великих даних найчастіше вимагає створення принципово нових процесів.

Що ви хочете від великих даних?

Вести бізнес, спираючись на технології великих даних, як рибалити в океані: можливостей і ризиків завжди навпіл. Працюючи з великими даними, ви повинні знати, що саме хочете від клієнта, від ринку, від власної компанії. В іншому випадку закономірності, що містяться у великих даних, залишаться поховані під петабайтами інформації. Спрогнозувати поведінку клієнтів магазинів електротехніки перед новорічними святами? Чи розрахувати відсоток шахрайських дій щодо страхових виплат? Великі дані підкажуть вам відповідь на ці питання, але спочатку ви повинні їх правильно поставити. Поставлене завдання визначить тип аналітики.

Будьте пильні

Питання безпечної роботи з великими даними включає багато нюансів. Дані стікаються з різних джерел, багато хто з них не може вважатися надійним. Компанія повинна знати, де фізично розташовуються її дані, чи нема загрози витоку відомостей про клієнтів. Вразливість перед загрозами нейтралізується шифруванням даних, але ця процедура має тонкощі. Шифрування зменшує продуктивність роботи, керування безліччю ключів шифрування – трудомісткий процес. Інший захід безпеки – токенізація. Ця технологія захищає дані, маскуючи їх хибними посиланнями, які будуть марними для потенційного шахрая. Деякі фахівці вважають, що токенізація ефективніша за шифрування. Два ключові параметри безпеки, які зазвичай недооцінюються:

• контроль даних: їх структура та весь процес обробки повинні бути повністю під контролем компанії, особливо коли йдеться про співпрацю з хмарними сховищами або необхідність дотримуватися суворої нормативно-правової бази;

• надійність працівників. Половина порушень безпеки в роботі з великими даними – на совісті співробітників.

Не переплачуйте

Відчуття доступності інформації в інтернеті оманливе. Мережа готова ділитися інформацією, але не безкоштовно. Визначте, які дані вам необхідні (може бути, компанія вже ними має?), які дані ви не маєте в своєму розпорядженні. отримати чи виправдано це з погляду очікуваного прибутку?

У процесі реалізації бізнес-плану є два фактори, на які потрібно звернути особливу увагу у зв’язку із плануванням витрат:

• початок роботи (на цьому етапі неминучі витрати, нові статті витрат – їх, однак, можна скоротити, звернувшись до відкритих баз даних);
• підтримка стабільності (визначте, як часто потрібен доступ до великих даних та наскільки прогнозовані подальші витрати).

Бренд-менеджеру великої компанії, що продає товари побутового призначення, великі дані необхідні оцінки звичок і потреб великої клієнтури. Принципово важлива інформація про емоційний відгук клієнтів. Одних записів системи управління взаємовідносинами з клієнтами, які у локальному сховищі, менеджеру мало: очевидно, що соціальні мережі будуть значно важливішим джерелом такої інформації. Але й аналізувати таку інформацію складніше, крім того, компанія неспроможна собі дозволити виділяти цей проект необмежені кошти. Тому цінність інформації, що міститься на тому чи іншому сайті, повинна бути оцінена дуже суворо. Як і способи роботи з нею: витрати на аналітику в режимі реального часу будуть надмірно високі і навряд чи окупні, а якщо скоротити кількість джерел, процес буде більш економічним і керованим.

Короткі тимчасові цикли, швидкі результати, постійне залучення певного кола співробітників у реалізацію бізнес-плану – такі фактори найбільш ефективні для впровадження великих даних. ) Щоб не відхилятися від вибраного курсу, проводьте постійну перевірку припущень. У будь-якій діючій системі накопичуються похибки. А робота з великими даними може призвести до великих похибок!

10 принципів роботи з великими даними

1. Поставте чітку мету – вона буде точкою збирання великих даних.

2. Плануйте грамотно , орієнтуючись на досяжні розумні результати: не так на 10 років уперед, але в рік-два (для початку).

3. З’ясуйте, які дані вам потрібні. Можливо, компанія вже їх має?

4. Визначте, які дані ви не маєте. Чи не надто затратно їх отримати? Чи це виправдано з точки зору очікуваного прибутку?

5. Інтернет не буде ділитися інформацією безкоштовно. Але не переплачуйте за неї!

6. Техніка цифрової безпеки має бути органічною частиною бізнес-стратегії.

7. Не спокушайтеся швидкими, але неякісними відомостями, якими повний інтернет. Час, витрачений на перевірку даних, окупається швидше і завжди коштує дешевше, ніж робота з поганими даними.

8. Плануйте оперативне керування даними. Чи зручно організовано систему орієнтації у ваших даних? Чи велася робота з метаданими?

9. Проводьте постійну перевірку припущень. У будь-якій діючій системі накопичуються похибки. А робота з великими даними загрожує великими похибками! Чи не розходяться технології з актуальними бізнес-тенденціями? Погодьте математику та реальність.

10. Користуйтеся найкращими та перевіреними методами роботи з великими даними.

1 . Об’єктно орієнтовані системи управління базами даних – спосіб структурування інформації в базах даних у вигляді об’єктів, кожен з яких має певні властивості, стан і поведінку. Об’єкти, що мають однакові властивості, групуються в класи, а класи утворюють ієрархію спадкування

2 . Реляційна база даних – сукупність пов’язаної інформації, поданої у вигляді двовимірних таблиць. Рядки таблиці не впорядковані, щоб забезпечити максимальну гнучкість роботи з базою. Користувачі можуть фільтрувати та впорядковувати інформацію за своїм бажанням. Стовпці при цьому пойменовані та пронумеровані

3. Потокові дані формуються безперервно безліччю різних джерел і передаються невеликими порціями (пакетами) Файлова система — система, що функціонує на кількох комп’ютерах і дає користувачам одноманітний доступ до всіх файлів мережі: хоча файли розподілені по різних серверах, користувачі вони надаються в одному місці.

4 . Ліцензія на вільне програмне забезпечення, яке не має обмежень щодо встановлення, використання, доопрацювання та розповсюдження копій

5 . Говорячи простою мовою, віртуалізація серверів — це створення одному сервері, має надмірні потужності, кількох віртуальних ізольованих чи логічно об’єднаних ресурсів (віртуальних машин), у яких можуть бути встановлені різні операційні системи, незалежні друг від друга і одночасно виконують різні завдання. Функції регулювання роботи операційних систем здійснює технологія гіпервізора, тобто монітора віртуальних машин

6 . Один з основних процесів управління сховищами даних, який включає вилучення даних із зовнішніх джерел, їх очищення та приведення у відповідність до бізнес-моделі, завантаження у сховище.

Просто про великі дані | Джудіт Гурвіц, Алан Ньюджент, Ферн Халпер, Марсія Кауфман

Хто володіє світом?

Що таке великі дані

Інфраструктура великих даних

Платформи для роботи з великими даними

Де і як зберігаються дані

Аналітика великих даних

Інтеграція даних: складно, але здійсненно

Великі дані для бізнесу

10 принципів роботи з великими даними

More posts

Теорія брехні | Пол Экман

Фентезі: НЕЗНАЙОМЕЦЬ | Стівен Кінг

Фентезі: Рінсмангл, гном з Рівної Пущі! | Террі Пратчетт

Твоїй внутрішній дитині потрібен дім | Штефані Шталь