Робота з даними, або Data Science – це наука про аналіз даних. Аналізувати дані потрібно для того, щоб з величезного масиву інформації витягувати конкретну та корисну інформацію: інсайти про поведінку споживачів, тенденції ринку, на основі яких можна робити якісні прогнози розвитку сфери, чи окремої індустрії. Data Science пов’язана з машинним навчанням (Machine Learning), наукою про мислення (Cognitive Science), а Big Data, в свою чергу є підрозділом Data Science.
Big Data — це підходи та методи обробки структурованих та неструктурованих даних великих об’ємів. В свою чергу такі методи можуть бути застосовані і до невеликого об’єму даних, скажімо, до цієї статті.
Впродовж існування люди згенерували величезні масиви інформації. Це дані про наші телефонні розмови, пересування, покупки в супермаркеті, візити до лікаря, пошукові запити, поведінка в соціальних мережах (лайки, публікації, репости) і так далі. Проаналізувавши усі ці дані, можна отримати чимало корисного про поведінку кожної людини.
Раніше робота з даними виглядала наступним чином: людина задавала для комп’ютера алгоритми для обробки інформації, які приводили до очікуваного результату. Проте, зараз об’єми даних настільки великі, що такий метод застарів. Тому для роботи з великими даними застосовується машинне навчання: людина задає комп’ютеру певні ввідні дані, проте результат роботи такого алгоритму не визначений людиною. Людина обирає спосіб, за яким відбуватиметься машинне навчання, проте машина вчиться сама і аналізуючи масив даних власноруч приходить до тих чи інших результатів.
Чим робота з Big Data відрізняється від традиційного data science
Традиційний Data Science | Big Data |
Поступовий аналіз невеликих пакетів даних | Аналіз всього масиву доступних даних |
Сортування та редагування даних перед аналізом | Дані аналізують в початковому вигляді |
Початкове припущення і тестування відносно даних | Пошук взаємозв’язків та самостійне отримання результатів |
Спочатку дані збирають, опрацьовують і зберігають, і лише потім аналізують | Аналіз даних в реальному часі по мірі їхнього надходження |
У новому підході до роботи з великими даними використовується машинне навчання, для того, щоб комп’ютер сам шукав результати опрацьованих даних. Наприклад, якщо раніше ми мали масив даних про покупки одного користувача інтернет-магазину, потрібно було самим робити припущення. Скажімо, ми вирішували, що покупець – фанат комп’ютерних ігор. Якщо ця гіпотеза підтверджувалась, на основі цих даних можна робити прогноз щодо наступних покупок і пропонувати клієнту знижки на товари цієї категорії. Але подібних гіпотез може бути безліч і така робота займала величезну кількість часу. Натомість за допомогою Machine learning алгоритмів, комп’ютер сам аналізує і видає результат з обробленої інформації.
Таким чином американський супермаркет Target свого часу навчився прогнозувати покупки своїх клієнтів і виявив, що жінки, які купують багато паперових серветок, махрових мочалок та лосьйони без запаху, швидше за все, вагітні. Гіпотеза підтвердилась і супермаркету вдалося надсилати майбутнім мамам пропозиції товарів для немовлят ще до того, як про це дізнались їхні конкуренти. Щоправда, через такі точні прогнози компанії стався казус. Дівчина-підліток, що приховувала свою вагітність отримала від Target каталог з підгузками та коляскам і була змушена розповісти свій секрет раніше, ніж було заплановано.
Для ІТ-індустрії Big Data – невід’ємна частина роботи, адже аналізуючи дані користувачів, можна отримати дослідити перспективи того, чи іншого продукту, прогнозувати ринок та поведінку клієнтів. Окрім ІТ, Big Data використовуються в маркетингу, фінансах, телекомунікаціях, рітейлі, енергетичній промисловості, державному секторі (все, що стосується електронного урядування) і так далі. Data Scientist – це одна з найпопулярніших професій майбутнього за рейтингами TechRepublic, Forbes, та World Economic Forum. А середня зарплата Data Science спеціаліста по світу вже зараз становить $117,000 в рік.
Де навчитись аналізувати дані?
На щастя, стати Data Scientist можливо і у Львові. Впродовж останніх кількох років у львівських університетах з’явилися інноваційні програми навчання, які відповідають вимогам ринку праці та сучасним тенденціям науки про дані. Зокрема, такі бакалаврські програми:
- у Львівській Політехніці (Бізнес аналітика та наука про дані)
- в ЛНУ ім.І.Франка (Великі дані та інтелектуальні системи,Статистистичний аналіз даних, Великі дані та Комп’ютерні науки)
- в УКУ (Комп’ютерні науки).
Нехай щастить у підкоренні величезних масивів даних!