بايگانی‌ وب‌نوشت

الگوی نوشتاری شما، مانند اثر انگشت تان می تواند منحصر به فرد باشد

بابک فخریلو

دانشمندانی که ابزار کارشان داده هاست، و به عبارتی حرفه ای تر، به کار data mining (داده کاوی) مشغول هستند، در پژوهش های اخیر خود توانسته اند با رمز گشایی از داده های بدون ساختار، به طور دقیق محل رخ داد خشونت در افغانستان را پیدا کنند. و حالا همین دانشمندان، می توانند با بررسی داده های بی ساختار، هویت نویسنده ی یک مطلب را مشخص کنند. آن طور که پیداست، علاوه بر اثر انگشت، همه ی ما یک الگوی نوشتاری منحصر به فردی برای خودمان داریم.

مطابق آنچه متخصصان زبان شناسی در حوزه ی قانون می گویند، افراد خبره ای که به دنبال نویسنده ی یک متن هستند، در صورت داشتن نوشته های معروف شخص، می توانند با دقت 95 درصد، سایر نوشته های آن شخص را هم تشخیص دهند. افراد متخصص در این زمینه به عنوان شاهد در دادگاهی که به درخواست Paul Ceglia، بر علیه Mark Zuckerberg و با ادعای مالکیت نیمی از Facebook تشکیل داده شده بود، شرکت داشتند.

میزان داده هایی که در اینترنت تولید می شود، فرصت های کاری جدیدی را برای خودکاری سازی تحلیل به وجود آورده است. یک شرکت که این فرصت ها را دنبال می کند، مدعی است می تواند نویسنده ی یک مستند را شناسایی کند و می تواند حتی جنسیت، سن، میزان تحصیلات و او را از محتوای نوشته هایش بدست آورد.

اما برخی تحلیل گران حتی بدون نیاز به داشتن نوشته های معروف یک شخص هم می توانند هویت نویسنده ی آن را مشخص کنند. با استفاده از صدها هزار ایمیل موجود از کارمندان شرکت Enron، گروهی از دانشمندان حوزه ی کامپیوتر از دانشگاه Concordia،  رویکرد خود در زمینه ی خوشه بندی مستندات را برای شناسایی نویسنده ی های این مستندات، به کار گرفتند. گرچه آنها معتقدند نیاز به تحقیقات بیشتری است، ولی می گویند که تکنیک خوشه بندی شان می تواند توسط بازپرس های پرونده های جنایی مورد استفاده قرار بگیرد.

داده های بزرگ به عنوان ابزاری برای ارتقای کار متخصصان زبان شنایسی در حوزه ی قانون هستند، که می توانند در بررسی های جنایی به کار گرفته شوند تا عدالت به شکل بهتری بر قرار شود. شاید هم راهی باشد برای ارتقای زندگی مدرن.

برگرفته از:

You Can Write, But You Can’t Hide: Big Data Knows Your Writing Quirks