مقدمه
تاکنون با انواع مختلفی از داده ها از لحاظ کمی و کیفی در مقولات متعدد روبرو شده اید . اگر هم با برنامه نویسی کار کرده باشید با انواع داده ها روبرو شدید . ولی موضوعی که امروزه بین کارشناسان و متخصصین امر مورد اهمیت واقع شده است انواع دیگری از دسته بندی داده هاست که در ذیل به اختصار به آن می پردازیم .
آیا تا به حال به این فکر کردید که به طور مثال پستی که در اینستاگرام آپلود می کنید یا نظری که در مورد یک محصول در وب سایت آن شرکت به اشتراک می گذارید، چه نوع داده ای است؟
آنچه مسلم است داده ها هر روز با جهشی قابل توجه ای در حال رشد هستند ، بعضی از آنها دارای ساختار هستند ولی بیشتر آنها ساختار خاصی نداشته و به نحوی غیر ساختار هستند. آمار نشان می دهد که در حدود 20٪ از داده های تولید شده دارای ساختار می باشند در صورتیکه داده های غیر ساختار در حدود 80% و شاید بیشتر از مجمع داده ها را تشکیل می دهند . به نظر می رسد که می بایست در جهت فهم درست از این دو مقوله ، تفاوت و فرق داده های ساختار یافته و غیر ساختاریافته را مشخص کرد .
داده ساختار یافته
داده های ساختاریافته به مفاهیمی و اصولی گفته می شود که با رعایت آن ها، موتورهای جستجو می توانند زبان انسان را به صورت بهتر و مناسبتر درک کنند. داده های ساختاریافته داده های کمی ، بسیار سازمان یافته و آسان برای استفاده نرم افزار های تجزیه و تحلیل داده است. این قالب در سیستم هایی طراحی می شود که دارای طراحی منظم هستند ، در ردیف ها ، ستون ها و جداول تنظیم می شوند. فرض کنید شما یک شرکت بزرگ تولید و عرضه پوشاک هستید، جایی که یک پایگاه داده خیلی بزرگی را شامل می شود که بخشی از آن مربوط به مشتریان شماست و می توانید مشتریان خود را با نام، شماره تلفن، آدرس، سفارشات قبلی صورت گرفته و غیره جستجو کنید یا بارکدی که برای سازماندهی و طبقه بندی محصولات در سطح تولید، توزیع و نقطه خرید استفاده می شود.
دادههای ساختاری به هر مجموعه دادهای گفته میشه که به روشی خاص در یه صفحه وب ، سازمان یافته و ساختار یافته باشه. دادههای ساختار یافته با گروههای خاصی از متن سازمان یافته و برچسب گذاری میشوند که به موتورهای جستجو کمک میکنن تا زمینه اون اطلاعات رو درک کنن و میتونن نتایج دقیق رو به جستجوگران بازگردانند .
غیر ساختار یافته
داده های بدون ساختار ، اطلاعاتی است که هیچ سازماندهی مشخص ندارد و در یک چارچوب تعریف شده نمی گنجد . و برای ماشین قابل تشخیص نیست . ممکن است متنی یا غیر متنی باشد و توسط انسان یا ماشین تولید شود. همچنین ممکن است در یک پایگاه داده غیر رابطه ای مانند NoSQL ذخیره شود.
نمونه هایی از داده های غیر ساختاری شامل :
- داده های غیر ساختاری معمولی تولید شده توسط انسان شامل :
1. پرونده های متنی : پردازش کلمه ، صفحات گسترده ، ارائه ها ، ایمیل ، گزارش ها .
2. ایمیل: ایمیل به لطف فراداده های خود از برخی ساختارهای داخلی برخوردار است و ما گاهی از آن به عنوان نیمه ساختار یاد می کنیم. با این حال ، قسمت پیام آن بدون ساختار است و ابزارهای تحلیلی سنتی نمی توانند آن را تجزیه کنند .
3. رسانه های اجتماعی : داده های Facebook, Twitter, LinkedIn
4. وب سایت : YouTube, Instagram، سایت های اشتراک عکس .
5. داده تلفن همراه : پیام های متنی ، مکان ها .
6. ارتباطات : چت ، پیام کوتاه ، ضبط تلفن ، نرم افزار همکاری .
7. رسانه : MP3 ، عکس های دیجیتال ، فایل های صوتی و تصویری .
8. برنامه های تجاری : اسناد MS Office ، برنامه های بهره وری .
- داده های غیر ساختاریافته معمولی تولید شده در ماشین شامل موارد زیر است :
1. تصاویر ماهواره ای : داده های آب و هوا ، فرم های زمین ، جنبش های نظامی .
2. داده های علمی : اکتشاف نفت و گاز ، اکتشاف فضا ، تصاویر لرزه ای ، داده های جوی .
3. نظارت دیجیتال : عکس ها و فیلم های نظارتی .
4. داده های حسگر : سنسورهای ترافیک ، هوا ، اقیانوس شناسی .
در شکل ذیل نمای کلی از تقسیم بندی داده ها از نظر ساختار نشان داده شده است :


