Tìm hiểu về dữ liệu phi cấu trúc

DỮ LIỆU PHI CẤU TRÚC (unstructured data)

Dữ liệu phi cấu trúc là gì ?

Dữ liệu phi cấu trúc (hoặc thông tin phi cấu trúc ) là thông tin không có mô hình dữ liệu được xác định trước hoặc không được tổ chức theo cách được xác định trước. Thông tin phi cấu trúc thường là văn bản, nhưng cũng có thể chứa dữ liệu như ngày tháng, số và sự kiện. Điều này dẫn đến sự bất thường và mơ hồ gây khó hiểu khi sử dụng các chương trình truyền thống so với dữ liệu được lưu trữ ở dạng trường trong cơ sở dữ liệu hoặc được chú thích (được gắn thẻ ngữ nghĩa) trong tài liệu.

Năm 1998, Merrill Lynch đã trích dẫn một quy tắc ngón tay cái rằng đâu đó khoảng 80-90% tất cả các thông tin kinh doanh có thể sử dụng có thể bắt nguồn từ hình thức phi cấu trúc. Quy tắc này không dựa trên nghiên cứu định lượng chính hoặc bất kỳ nghiên cứu định lượng nào, nhưng dù sao cũng được một số người chấp nhận. Các nguồn khác đã báo cáo tỷ lệ phần trăm tương tự hoặc cao hơn của dữ liệu phi cấu trúc.

Kể từ năm 2012 , IDC và EMC dự kiến dữ liệu sẽ tăng lên 40 zettabyte vào năm 2020, dẫn đến tăng trưởng gấp 50 lần từ đầu năm 2010. Gần đây, IDC và Seagate dự đoán rằng vùng dữ liệu toàn cầu sẽ tăng lên tới 163 zettabyte đến năm 2025 và phần lớn trong số đó sẽ không có cấu trúc. Tạp chí thế giới máy tính tuyên bố rằng thông tin phi cấu trúc có thể chiếm hơn 70% mật 80% trong tất cả dữ liệu trong các tổ chức.

Lịch sử ra đời dữ liệu phi cấu trúc

Nghiên cứu sớm nhất về trí tuệ kinh doanh tập trung vào dữ liệu văn bản phi cấu trúc, thay vì dữ liệu số. Ngay từ năm 1958, các nhà nghiên cứu khoa học máy tính như HP Luhn đã đặc biệt quan tâm đến việc trích xuất và phân loại văn bản phi cấu trúc. Tuy nhiên, chỉ từ đầu thế kỷ, công nghệ mới bắt kịp sự quan tâm nghiên cứu. Năm 2004, Viện SAS đã phát triển Công cụ khai thác văn bản SAS, sử dụng Phân rã giá trị số đơn (SVD) để giảm không gian văn bản siêu chiều thành các kích thước nhỏ hơn để phân tích máy hiệu quả hơn đáng kể. Những tiến bộ toán học và công nghệ phát sinh từ phân tích văn bản máy đã thúc đẩy một số doanh nghiệp nghiên cứu ứng dụng, dẫn đến sự phát triển của các lĩnh vực như phân tích tình cảm , tiếng nói của khai thác khách hàng và tối ưu hóa trung tâm cuộc gọi. Sự xuất hiện của Dữ liệu lớn vào cuối những năm 2000 đã dẫn đến mối quan tâm cao hơn đối với các ứng dụng phân tích dữ liệu phi cấu trúc trong các lĩnh vực hiện đại như phân tích dự đoán và phân tích nguyên nhân gốc rễ.

Cách xử lý dữ liệu phi cấu trúc

Các kỹ thuật như khai thác dữ liệu , xử lý ngôn ngữ tự nhiên (NLP) và phân tích văn bản cung cấp các phương pháp khác nhau để tìm các mẫu trong hoặc giải thích thông tin này. Các kỹ thuật phổ biến để cấu trúc văn bản thường liên quan đến việc gắn thẻ thủ công với siêu dữ liệu hoặc gắn thẻ một phần của lời nói để cấu trúc dựa trên khai thác văn bản tiếp theo. Các không có cấu trúc thông tin Kiến trúc Quản lý (UIMA) tiêu chuẩn cung cấp một khuôn khổ chung cho xử lý thông tin này để trích xuất ý nghĩa và tạo ra cấu trúc dữ liệu về thông tin.

Phần mềm tạo ra cấu trúc có thể xử lý bằng máy có thể sử dụng cấu trúc ngôn ngữ, thính giác và hình ảnh tồn tại trong tất cả các hình thức giao tiếp của con người. Các thuật toán có thể suy ra cấu trúc vốn có này từ văn bản, ví dụ, bằng cách kiểm tra hình thái từ, cú pháp câu và các mẫu quy mô nhỏ và quy mô lớn khác. Thông tin phi cấu trúc sau đó có thể được làm phong phú và được gắn thẻ để giải quyết sự mơ hồ và các kỹ thuật dựa trên mức độ phù hợp sau đó được sử dụng để tạo điều kiện tìm kiếm và khám phá.

Ví dụ về “dữ liệu phi cấu trúc” có thể bao gồm sách, tạp chí, tài liệu, siêu dữ liệu, hồ sơ sức khỏe, âm thanh, video, dữ liệu tương tự, hình ảnh, tệp và văn bản phi cấu trúc như phần thân của một tin nhắn e-mail, trang web hoặc tài liệu xử lý văn bản. Mặc dù nội dung chính được truyền tải không có cấu trúc xác định, nhưng nó thường được đóng gói trong các đối tượng (ví dụ như trong tệp hoặc tài liệu, bản thân) có cấu trúc và do đó là một hỗn hợp của dữ liệu có cấu trúc và không cấu trúc, nhưng gọi chung là là “dữ liệu phi cấu trúc”. Ví dụ: một trang web HTML được gắn thẻ, nhưng đánh dấu HTML thường chỉ phục vụ cho kết xuất. Nó không nắm bắt được ý nghĩa hoặc chức năng của các yếu tố được gắn thẻ theo cách hỗ trợ xử lý tự động nội dung thông tin của trang. XHTML gắn thẻ không cho phép máy xử lý các yếu tố, mặc dù nó thường không nắm bắt hoặc truyền đạt ý nghĩa ngữ nghĩa của các thuật ngữ được gắn thẻ.

Các công cụ tìm kiếm đã trở thành các công cụ phổ biến để lập chỉ mục và tìm kiếm thông qua các dữ liệu đó, đặc biệt là văn bản.

Phương pháp tiếp cận trong xử lý ngôn ngữ tự nhiên

Quy trình tính toán cụ thể đã được phát triển để áp đặt cấu trúc lên dữ liệu phi cấu trúc có trong tài liệu văn bản. Các quy trình công việc này thường được thiết kế để xử lý các bộ hàng ngàn hoặc thậm chí hàng triệu tài liệu, hoặc nhiều hơn các cách tiếp cận thủ công để chú thích có thể cho phép. Một số cách tiếp cận này dựa trên khái niệm xử lý phân tích trực tuyến, hoặc OLAP, và có thể được hỗ trợ bởi các mô hình dữ liệu như khối văn bản. Một khi siêu dữ liệu tài liệu có sẵn thông qua một mô hình dữ liệu, việc tạo ra các tập hợp con của các tài liệu (nghĩa là các ô trong một khối văn bản) có thể được thực hiện bằng các cách tiếp cận dựa trên cụm từ.

Do dữ liệu phi cấu trúc thường xảy ra trong tài liệu điện tử, việc sử dụng hệ thống quản lý nội dung hoặc tài liệu có thể phân loại toàn bộ tài liệu thường được ưu tiên hơn so với chuyển dữ liệu và thao tác từ bên trong tài liệu. Do đó, quản lý tài liệu cung cấp các phương tiện để truyền tải cấu trúc lên các bộ sưu tập tài liệu.

Phương pháp tiếp cận trong y học và nghiên cứu y sinh

Nghiên cứu y sinh tạo ra một nguồn dữ liệu phi cấu trúc chính vì các nhà nghiên cứu thường công bố phát hiện của họ trên các tạp chí học thuật. Mặc dù ngôn ngữ trong các tài liệu này rất khó để lấy được các yếu tố cấu trúc từ (ví dụ, do vốn từ vựng kỹ thuật phức tạp có trong và kiến thức về miền cần có để hoàn toàn hóa các quan sát), kết quả của các hoạt động này có thể mang lại liên kết giữa các nghiên cứu kỹ thuật và y tế và manh mối liên quan đến các phương pháp điều trị bệnh mới. Những nỗ lực gần đây để thực thi cấu trúc trên các tài liệu y sinh bao gồm các cách tiếp cận bản đồ tự tổ chức để xác định chủ đề giữa các tài liệu, thuật toán không giám sát mục đích chung, và một ứng dụng của quy trình làm việc CaseOLAP để xác định mối liên quan giữa tên protein và các chủ đề bệnh tim mạch trong tài liệu. CaseOLAP định nghĩa các mối quan hệ loại cụm từ một cách chính xác (xác định mối quan hệ), nhất quán (có khả năng tái sản xuất cao) và hiệu quả. Nền tảng này cung cấp khả năng tiếp cận nâng cao và trao quyền cho cộng đồng y sinh với các công cụ khai thác cụm từ cho các ứng dụng nghiên cứu y sinh học rộng rãi./.