تبدیل داده های خام به اطلاعات ارزشمند

بابک فخریلو

شاید به فکرتان هم نرسد که چه چیزهای مشترکی می توانید با یک روزنامه نگار یا محقق دانشگاهی داشته باشید. اما اگر تصمیم دارید تا اطلاعات مفیدی را از جریان رو به افزایش داده ها استخراج کنید، احتمالا visualization (تصویر سازی داده ها) برایتان مفید خواهد بود. چه این visualization الگوها یا روندها را به جای کوهی از متون، به صورت گرافیکی نشان دهد، چه بخواهد مسائل پیچیده را برای مخاطبان غیرفنی شرح دهد.

ابزارهای زیادی هست که برای تبدیل داده ها به تصاویر گرافیکی استفاده می شود، اما قیمت شان خیلی زیاد است. این هزینه می تواند برای حرفه ای ها قابل توجیه باشد، کسانی که شغل اصلی شان پیدا کردن مفاهیم در کوهی از اطلاعات است، اما اگر شما یا کاربران تان هر از چند وقت یک بار نیاز به برنامه ی گرافیکی داشته باشید، یا اگر بودجه تان برای ابزارهای جدید محدود باشد، تعدیل کردن این هزینه سخت خواهد بود. با این حال، ابزارهای بسیار قدرت مندی برای visualization و تحلیل وجود دارند که رایگان هستند.

در این جا نگاهی سریع به گزینه های شناخته شده تر در میان این ابزارها داریم. در میان اینها از ابزارهای ساده برای تازه کارها، تا ابزارهای پیشرفته برای افراد حرفه ای را می توانید پیدا کنید. تنها سرمایه گذاری شما در استفاده از این ابزارها، زمان است.

(در این مقاله فقط به چند مورد از ابزارها اشاره می کنم، برای مشاهده ی فهرست کامل ابزارها، به پیوند پایان مطلب مراجعه کنید.)

Data cleaning

پیش از این که داده ها را بخواهید به تصویر بکشید (visualize) یا تحیل کنید، باید آنها را «پاک سازی» کنید. یعنی چه؟ شاید در برخی فهرست ها نام » New York City» و در برخی دیگر «New York, NY» را داشته باشید و بخواهید آنها را پیش از هرکار دیگری استاندارد کنید. شاید برخی رکورد ها (مجموعه ای از داده های مرتبط به هم) خطای تایپی داشته باشند، یا خطاهای عددی در آنها وجود داشته باشد. ابزاری که در ادامه معرفی می کنیم، برای «پاک سازی» داده های شما به کار خواهند رفت.

DataWrangler

کار برنامه چیست: این ابزار مبتنی بر وب سرویس که محصول دانشگاه Stanford  است، برای پاک سازی و آرایش مجدد داده ها طراحی شده، و به شکلی است که سایر برنامه های spreadsheet (مانند Excel) می توانند از آن استفاده کنند.

برای مثال اگر روی سطر خالی کلیک کنید، پیشنهاد های مختلفی، مانند «حذف سطرهای خالی»، نمایش داده می شوند.

همچنین فهرست تاریخچه ای وجود دارد که امکان undo کردن تغییرات را ساده می کند.

ویژگی برتر: ویرایش متن بسیار ساده است. موس خود را روی یک پیشنهاد ببرید تا سطرهای تحت تاثیر آن، به رنگ قرمز برجسته شوند.

ضعف ها: وقتی گزینه های بیشتری از برنامه را بررسی می کردم، تغییرات ناخواسته ای رخ داد، به طور مداوم مجبور به کلیک کردن روی «Clear» بودم تا تنظیم مجدد شود. و از طرفی همه ی پیشنهاد ها کاربردی یا قابل فهم نیستند.

فراموش نکنید که به خاطر وب سرویس بودن این برنامه، نباید از آن برای اطلاعات حساس خود استفاده کنید.

مهارت کاربر: حرفه ای، تازه کار

سیستم های اجرا کننده: هر مروگر وب

تحیل آماری

وقت آن رسیده که ارائه ی گرافیکی خود را با تحلیل های عددی قدرت مند ترکیب کنید.

The R Project for Statistical Computing

کار برنامه چیست: R یک سکوی تحلیل آماری است که در محیط command line اجرا می شود. نیاز به پیدا کردن میانه ها، انحراف معیار و همبستگی ها دارید، R می تواند این کار را انجام دهد، و بیشتر از آن، شامل مدل های خطی و خطی تعمیم یافته، مدل های رگرسیون غیرخطی، تحیلی سری زمانی، خوشه بندی و بسیار کارهای آماری دیگر است.

R همچنین نتایج را در قالب نمودار، گراف و پلات نشان می دهد. افزونه های زیادی برای این پروژه هست که به طور قابل توجهی عملکردش را توسعه می دهد. برای کاربرانی که به جای command line، واسط گرافیکی را ترجیح می دهند، RExcel را توصیه می کنیم که امکان دسترسی به R را از طریق Excel ممکن می کند.

ویژگی برتر: گزینه های زیاد برای تصویر سازی و تحلیل های فضایی (spatial analysis).

ضعف ها: این حقیقت که R روی command line اجرا می شود، بدین معنی است که کاربران باید زمانی را صرف یاد گرفتن فرمان ها کنند، و همه ی کاربران هم با واسط کاربری که فقط متن داشته باشند راحت نیستند.

مهارت کاربر: متوسط تا پیشرفته. راحتی در کار با ابزارهای command line و دانش آماری از ملزومات تعامل با این برنامه است.

سیستم های اجرا کننده: Linux، Mac Os، Unix، Windows XP, Vista , 7

سرویس ها و برنامه های visualization

این ابزارها گزینه های زیادی را برای به تصویر کشیدن داده ها (visualization) ارائه می دهند. در حالی که برخی به همان نمودارها و گراف های مرسوم بسنده می کنند، بسیاری دیگر هم هستند که گزینه های دیگری مانند Treemaps و word clouds ارائه می دهند. اگر به نقشه ها علاقه مند باشید، برخی هم نقشه برداری جغرافیایی را دارند.

Google Fusion Tables

کار برنامه چیست:  این یکی از ساده ترین راه هایی است که برای تبدیل داده ها به نمودار یا نقشه دیده ام. می توانید یک فایل را در فرمت های مختلف upload کنید، و سپس مشخص کنید که چطور آن را نمایش دهید: جدول، نقشه، heatmap، نمودار خطی، گراف میله ای، نمودار دایره ای، timeline، storyline یا متحرک.

توابع زیادی برای ویرایش داده وجود دارد، گرچه تغییر بیش از چند سلول می تواند خیلی سریع کسل کننده شود. می توانید جداول را باهم ترکیب کنید، پالایه کنید، مرتب کنید، و کارهای از این قبیل. همچنین گزینه هایی برای امکان نوشتن نظرات روی داده ها توسط دیگران، وجود دارد.

برای ایجاد نقشه، کار فراتر از قرار دادن نقطه هاست. در اینجا امکان ایجاد نقشه های چند ضلعی با تنوع در رنگ، بسته به داده های که برای این کار انتخاب می کنید، وجود دارد.

برخلاف محصول Many Eyes شرکت IBM، در اینجا گوگل به شما اجازه می دهد تا داده های خود را شخصی یا فهرست نشده و یا عمومی کنید، گرچه داده های شما به هرحال در سرورها گوگل می ماند، بسته به این که هزینه ی پهنای باند برای شما مهم باشد، یا حریم داده های تان، این مساله می تواند یک ویژگی خوب یا حتی یک ضعف باشد.

ویژگی برتر: ارائه ی تقریبا سریع نمودار سازی و ایجاد نقشه، که شامل سیستم اطلاعات جغرافیایی (GIS) برای تحلیل داده های جغرافیایی است. همچنین این سرویس به طور خودکار مکان جغرافیایی آدرس ها را ثبت کرده، که به هنگام قرار دادن نقاط روی یک نقشه بسیار کاربردی است. این سرویس ابزار مناسبی برای تازه کارها و حرفه ای هاست، تا با تحلیل داده ها آشنا شوند.

ضعف ها: عملکرد ها، شخصی سازی و ظرفیت داده ها در مقایسه با برنامه های رومیزی محدود هستند، و تعامل با مجموعه های داده ای بزرگ می تواند آهسته باشد.

سطح کاربر: تازه کار

سیستم های اجرا کننده: هر مرورگر وب

برگرفته از:

http://www.computerworld.com/s/article/9215504/22_free_tools_for_data_visualization_and_analysis

Advertisements

دربارهٔ Persian Developer

I Love Developing applications

Posted on مه 2, 2011, in نرم افزار, وب, وب 2.0 and tagged , , , , , , , , , . Bookmark the permalink. 7 دیدگاه.

  1. سالی یک بار یک پست می زارید !؟؟؟؟ دیگه کسی اینجا نمی آد می خواید وبلاگتون و عوض کنید ! یا من بهتون هاست و دومین بدم؟
    مثل دفعه قبلی پاک نکنیدا ( چون به نفعتون نبود )!

  2. مثل همیشه مطالب و مقاله های عالی و ارزشمند!خیلی جالب بود.مرسی.اینطور فکر می کنم که این تکنولوری خیلی در صنایع دفاع موارد استفاده داشته باشه.فکر کنم این مطلب هم خیلی برای موضوع ارائه بودن جای تحقیق داره 😉
    بیشتر دوست دارم در مورد اون بدونم 🙂 (visualization و تبدیل داده های خام به اطلاعات ارزشمند)

  3. dan ، لطف دارید.
    با شما موافقم می تونه موضوع خوبی برای ارائه باشه. اون طوری که فهمیدم data mining هم چنین فرآیند هایی رو داره.

    sina araste
    دوست گرامی شما تاریخ مطالب رو اول نگاه کنید، بعد نظر بدید.

  4. مرس بابک خیلی باحال بود google fusion چه چیز جالبیه ندیده بودم تا حالاهمچینم سطح کاربر تازه کار نیستا من هرکاری کردم نتونستم اون کاری رو که میخواستم باهاش بکنم.((=
    سینا جان(البته امیدوارم سینا)روزا چه سخت بهت میگذره یه هفته رو یه سال میبینی.

  5. محسن جان ابزارهای ان لاین هنوز نیاز به پیشرفت داره، و البته سرعت بالای دسترسی به شبکه هم خیلی مهمه که متاسفانه ما تو ایران نداریم. تا چند سال اینده دیگه خبری از نرم افزارهای رومیزی نخواهد بود و باید همه چه رو به صورت آن لاین انجام داد.

  6. چه جوریاست که با اینکه به من سخت میگذره اما بازم روزها تند تند سپری میشه ؟ ؟ ؟

    اگر دسکتاپ رو میگی رومیزی بجای واژه منحوس و بیگانه «آن لاین» زین پس بکار برید واژه «برخط» .

  7. جالب بود دمت گرم

پاسخی بگذارید

در پایین مشخصات خود را پر کنید یا برای ورود روی شمایل‌ها کلیک نمایید:

نشان‌وارهٔ وردپرس.کام

شما در حال بیان دیدگاه با حساب کاربری WordPress.com خود هستید. بیرون رفتن / تغییر دادن )

تصویر توییتر

شما در حال بیان دیدگاه با حساب کاربری Twitter خود هستید. بیرون رفتن / تغییر دادن )

عکس فیسبوک

شما در حال بیان دیدگاه با حساب کاربری Facebook خود هستید. بیرون رفتن / تغییر دادن )

عکس گوگل+

شما در حال بیان دیدگاه با حساب کاربری Google+ خود هستید. بیرون رفتن / تغییر دادن )

درحال اتصال به %s

%d وب‌نوشت‌نویس این را دوست دارند: