Menelusuri Dalam dan Gelap: Membangun Google untuk Bagian Web yang Kurang Terlihat

  • by

Di dunia yang kaya data saat ini, perusahaan, pemerintah. Dan individu ingin menganalisis apa saja dan apa saja yang bisa mereka dapatkan. Dan World Wide Web memiliki banyak informasi. Saat ini, materi yang paling mudah diindeks dari web adalah teks. Tetapi sebanyak 89 hingga 96 persen konten di internet sebenarnya adalah sesuatu yang lain. Gambar, video, audio, dalam ribuan jenis data nontekstual yang berbeda.

Selain itu, sebagian besar konten online tidak tersedia dalam bentuk yang mudah diindeks oleh sistem pengarsipan elektronik seperti milik Google. Sebaliknya, ini mengharuskan pengguna untuk masuk, atau disediakan secara dinamis oleh program yang berjalan saat pengguna mengunjungi halaman. Jika kita akan membuat katalog pengetahuan manusia secara online, kita harus yakin bahwa kita dapat mengakses. Dan mengenali semuanya, dan kita dapat melakukannya secara otomatis.

Bagaimana kami dapat mengajarkan komputer untuk mengenali, mengindeks, dan menelusuri semua jenis materi yang tersedia secara online? Berkat upaya federal dalam perang global melawan perdagangan manusia dan perdagangan senjat. Penelitian saya menjadi dasar bagi alat baru yang dapat membantu upaya ini.

Memahami Apa yang Dalam

“Web dalam” dan “web gelap” sering kali dibahas dalam konteks berita atau film menakutkan seperti “Web Dalam”. Di mana penjahat muda dan cerdas melakukan aktivitas ilegal seperti perdagangan narkoba dan perdagangan manusia – atau bahkan lebih buruk. Tapi apa arti istilah-istilah ini?

“Web dalam” telah ada sejak bisnis dan organisasi, termasuk universitas. Menempatkan database besar secara online dengan cara yang tidak dapat dilihat orang secara langsung. Daripada mengizinkan siapa pun untuk mendapatkan nomor telepon dan alamat email siswa. Misalnya, banyak universitas mengharuskan orang untuk masuk sebagai anggota komunitas kampus sebelum menelusuri direktori online untuk informasi kontak. Layanan online seperti Dropbox dan Gmail dapat diakses publik dan merupakan bagian dari World Wide Web. Tetapi pengindeksan file dan email pengguna di situs ini memerlukan login individu, yang tidak termasuk dalam proyek kami.

“Web permukaan” adalah dunia online yang dapat kita lihat – situs belanja, halaman informasi bisnis, organisasi berita, dan sebagainya. “Web dalam” terkait erat, tetapi kurang terlihat, bagi pengguna manusia dan – dalam beberapa hal yang lebih penting. Dengan mesin telusur yang menjelajahi web untuk membuat katalognya. Saya cenderung mendeskripsikan “web dalam” sebagai bagian dari internet publik yang:

  1. Mewajibkan pengguna untuk mengisi formulir login terlebih dahulu,
  2. Libatkan konten dinamis seperti AJAX atau Javascript, atau
  3. Menampilkan gambar, video, dan informasi lainnya dengan cara yang biasanya tidak diindeks dengan benar oleh layanan penelusuran.

Apa yang Gelap?

Sebaliknya, “web gelap” adalah halaman – beberapa di antaranya mungkin juga memiliki elemen “web dalam”. Yang dihosting oleh server web menggunakan protokol web anonim yang disebut Tor. Awalnya dikembangkan oleh peneliti Departemen Pertahanan AS untuk mengamankan informasi sensitif, Tor dirilis ke domain publik pada tahun 2004.

Seperti banyak sistem aman seperti aplikasi perpesanan WhatsApp, tujuan aslinya adalah untuk kebaikan. Tetapi juga telah digunakan oleh penjahat yang bersembunyi di balik anonimitas sistem. Beberapa orang menjalankan situs Tor yang menangani aktivitas terlarang, seperti perdagangan narkoba. Perdagangan senjata dan manusia, dan bahkan pembunuhan untuk disewa.

Pemerintah AS tertarik untuk mencoba menemukan cara menggunakan teknologi informasi modern dan ilmu komputer untuk memerangi aktivitas kriminal ini. Pada tahun 2014, Badan Proyek Penelitian Lanjutan Pertahanan (lebih dikenal sebagai DARPA), bagian dari Departemen Pertahanan. Meluncurkan program bernama Memex untuk memerangi perdagangan manusia dengan alat-alat ini.

Secara khusus, Memex ingin membuat indeks pencarian yang akan membantu penegak hukum mengidentifikasi operasi perdagangan manusia secara online. Khususnya dengan menambang web dalam dan gelap. Salah satu sistem utama yang digunakan oleh tim pakar proyek, pegawai pemerintah. Dan pakar industri adalah yang saya bantu kembangkan, yang disebut Apache Tika.

‘Ikan Babel Digital’

Tika sering disebut sebagai “ikan Babel digital”. Plesetan dari makhluk yang disebut “ikan Babel” dalam seri buku “Hitchhiker’s Guide to the Galaxy”. Setelah dimasukkan ke telinga seseorang, ikan Babel memungkinkannya memahami bahasa apa pun yang digunakan. Tika memungkinkan pengguna memahami file apa pun dan informasi yang terkandung di dalamnya.

Saat Tika memeriksa sebuah file, secara otomatis Tika mengidentifikasi jenis file itu – seperti foto, video atau audio. Ini dilakukan dengan taksonomi informasi yang dikurasi tentang file: nama mereka, ekstensi mereka, semacam “sidik jari digital. Saat menemukan file yang namanya diakhiri dengan “.MP4”, misalnya, Tika menganggapnya sebagai file video yang disimpan dalam format MPEG-4. Dengan menganalisis data dalam file secara langsung, Tika dapat mengkonfirmasi atau menyangkal asumsi tersebut. Semua video, audio, gambar, dan file lainnya harus dimulai dengan kode tertentu yang menyatakan format penyimpanan datanya.

Setelah jenis file diidentifikasi, Tika menggunakan alat khusus untuk mengekstrak kontennya seperti Apache PDFBox untuk file PDF. Atau Tesseract untuk mengambil teks dari gambar. Selain konten, informasi forensik atau “metadata” lainnya ditangkap termasuk tanggal pembuatan file, siapa yang terakhir mengeditnya, dan bahasa pengarangnya.

Dari sana, Tika menggunakan teknik lanjutan seperti Named Entity Recognition (NER) untuk menganalisis teks lebih jauh. NER mengidentifikasi kata benda dan struktur kalimat yang tepat, dan kemudian menyesuaikan informasi ini dengan database orang. Tempat, dan benda, mengidentifikasi tidak hanya siapa yang dibicarakan teks tersebut, tetapi di mana, dan mengapa mereka melakukannya. Teknik ini membantu Tika untuk secara otomatis mengidentifikasi perusahaan cangkang lepas pantai (hal-hal); dimana mereka berada; dan siapa (orang) yang menyimpan uang mereka di dalamnya sebagai bagian dari skandal Panama Papers. Yang mengungkap korupsi keuangan di antara para pemimpin politik, sosial dan teknis global.

Mengidentifikasi Aktivitas Ilegal

Perbaikan pada Tika selama proyek Memex membuatnya lebih baik dalam menangani multimedia. Dan konten lain yang ditemukan di web dalam dan gelap. Sekarang Tika dapat memproses dan mengidentifikasi gambar dengan tema umum perdagangan manusia. Misalnya, dapat secara otomatis memproses dan menganalisis teks dalam gambar. Alias korban atau indikasi tentang cara menghubunginya – dan jenis properti gambar tertentu – seperti pencahayaan kamera. Dalam beberapa gambar dan video, Tika dapat mengidentifikasi orang, tempat, dan benda yang muncul.

Software tambahan dapat membantu Tika menemukan senjata otomatis dan mengidentifikasi nomor seri senjata. Itu dapat membantu melacak apakah itu dicuri atau tidak.

Mempekerjakan Tika untuk memantau web dalam. Dan gelap secara terus-menerus dapat membantu mengidentifikasi situasi perdagangan manusia. Dan senjata segera setelah foto-foto tersebut diposting online. Itu bisa menghentikan kejahatan terjadi dan menyelamatkan nyawa.

Memex belum cukup kuat untuk menangani semua konten yang ada, atau untuk membantu penegakan hukum secara komprehensif. Berkontribusi pada upaya kemanusiaan untuk menghentikan perdagangan manusia dan bahkan berinteraksi dengan mesin telusur komersial.

Ini akan membutuhkan lebih banyak pekerjaan, tetapi kami membuatnya lebih mudah untuk mencapai tujuan tersebut. Tika dan paket perangkat lunak terkait adalah bagian dari pustaka perangkat lunak. Sumber terbuka yang tersedia di Katalog Terbuka DARPA untuk siapa saja. Dalam penegakan hukum, komunitas intelijen, atau masyarakat luas – yang ingin menyinari yang dalam dan gelap.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *