Media Internet

Menelusuri Dalam dan Gelap: Membangun Google untuk Bagian Web yang Kurang Terlihat

  • by

Di dunia yang kaya data saat ini, perusahaan, pemerintah. Dan individu ingin menganalisis apa saja dan apa saja yang bisa mereka dapatkan. Dan World Wide Web memiliki banyak informasi. Saat ini, materi yang paling mudah diindeks dari web adalah teks. Tetapi sebanyak 89 hingga 96 persen konten di internet sebenarnya adalah sesuatu yang lain. Gambar, video, audio, dalam ribuan jenis data nontekstual yang berbeda.

Selain itu, sebagian besar konten online tidak tersedia dalam bentuk yang mudah diindeks oleh sistem pengarsipan elektronik seperti milik Google. Sebaliknya, ini mengharuskan pengguna untuk masuk, atau disediakan secara dinamis oleh program yang berjalan saat pengguna mengunjungi halaman. Jika kita akan membuat katalog pengetahuan manusia secara online, kita harus yakin bahwa kita dapat mengakses. Dan mengenali semuanya, dan kita dapat melakukannya secara otomatis.

Bagaimana kami dapat mengajarkan komputer untuk mengenali, mengindeks, dan menelusuri semua jenis materi yang tersedia secara online? Berkat upaya federal dalam perang global melawan perdagangan manusia dan perdagangan senjat. Penelitian saya menjadi dasar bagi alat baru yang dapat membantu upaya ini.

Memahami Apa yang Dalam

“Web dalam” dan “web gelap” sering kali dibahas dalam konteks berita atau film menakutkan seperti “Web Dalam”. Di mana penjahat muda dan cerdas melakukan aktivitas ilegal seperti perdagangan narkoba dan perdagangan manusia – atau bahkan lebih buruk. Tapi apa arti istilah-istilah ini?

“Web dalam” telah ada sejak bisnis dan organisasi, termasuk universitas. Menempatkan database besar secara online dengan cara yang tidak dapat dilihat orang secara langsung. Daripada mengizinkan siapa pun untuk mendapatkan nomor telepon dan alamat email siswa. Misalnya, banyak universitas mengharuskan orang untuk masuk sebagai anggota komunitas kampus sebelum menelusuri direktori online untuk informasi kontak. Layanan online seperti Dropbox dan Gmail dapat diakses publik dan merupakan bagian dari World Wide Web. Tetapi pengindeksan file dan email pengguna di situs ini memerlukan login individu, yang tidak termasuk dalam proyek kami.

“Web permukaan” adalah dunia online yang dapat kita lihat – situs belanja, halaman informasi bisnis, organisasi berita, dan sebagainya. “Web dalam” terkait erat, tetapi kurang terlihat, bagi pengguna manusia dan – dalam beberapa hal yang lebih penting. Dengan mesin telusur yang menjelajahi web untuk membuat katalognya. Saya cenderung mendeskripsikan “web dalam” sebagai bagian dari internet publik yang:

  1. Mewajibkan pengguna untuk mengisi formulir login terlebih dahulu,
  2. Libatkan konten dinamis seperti AJAX atau Javascript, atau
  3. Menampilkan gambar, video, dan informasi lainnya dengan cara yang biasanya tidak diindeks dengan benar oleh layanan penelusuran.

Apa yang Gelap?

Sebaliknya, “web gelap” adalah halaman – beberapa di antaranya mungkin juga memiliki elemen “web dalam”. Yang dihosting oleh server web menggunakan protokol web anonim yang disebut Tor. Awalnya dikembangkan oleh peneliti Departemen Pertahanan AS untuk mengamankan informasi sensitif, Tor dirilis ke domain publik pada tahun 2004.

Seperti banyak sistem aman seperti aplikasi perpesanan WhatsApp, tujuan aslinya adalah untuk kebaikan. Tetapi juga telah digunakan oleh penjahat yang bersembunyi di balik anonimitas sistem. Beberapa orang menjalankan situs Tor yang menangani aktivitas terlarang, seperti perdagangan narkoba. Perdagangan senjata dan manusia, dan bahkan pembunuhan untuk disewa.

Pemerintah AS tertarik untuk mencoba menemukan cara menggunakan teknologi informasi modern dan ilmu komputer untuk memerangi aktivitas kriminal ini. Pada tahun 2014, Badan Proyek Penelitian Lanjutan Pertahanan (lebih dikenal sebagai DARPA), bagian dari Departemen Pertahanan. Meluncurkan program bernama Memex untuk memerangi perdagangan manusia dengan alat-alat ini.

Secara khusus, Memex ingin membuat indeks pencarian yang akan membantu penegak hukum mengidentifikasi operasi perdagangan manusia secara online. Khususnya dengan menambang web dalam dan gelap. Salah satu sistem utama yang digunakan oleh tim pakar proyek, pegawai pemerintah. Dan pakar industri adalah yang saya bantu kembangkan, yang disebut Apache Tika.

‘Ikan Babel Digital’

Tika sering disebut sebagai “ikan Babel digital”. Plesetan dari makhluk yang disebut “ikan Babel” dalam seri buku “Hitchhiker’s Guide to the Galaxy”. Setelah dimasukkan ke telinga seseorang, ikan Babel memungkinkannya memahami bahasa apa pun yang digunakan. Tika memungkinkan pengguna memahami file apa pun dan informasi yang terkandung di dalamnya.

Saat Tika memeriksa sebuah file, secara otomatis Tika mengidentifikasi jenis file itu – seperti foto, video atau audio. Ini dilakukan dengan taksonomi informasi yang dikurasi tentang file: nama mereka, ekstensi mereka, semacam “sidik jari digital. Saat menemukan file yang namanya diakhiri dengan “.MP4”, misalnya, Tika menganggapnya sebagai file video yang disimpan dalam format MPEG-4. Dengan menganalisis data dalam file secara langsung, Tika dapat mengkonfirmasi atau menyangkal asumsi tersebut. Semua video, audio, gambar, dan file lainnya harus dimulai dengan kode tertentu yang menyatakan format penyimpanan datanya.

Setelah jenis file diidentifikasi, Tika menggunakan alat khusus untuk mengekstrak kontennya seperti Apache PDFBox untuk file PDF. Atau Tesseract untuk mengambil teks dari gambar. Selain konten, informasi forensik atau “metadata” lainnya ditangkap termasuk tanggal pembuatan file, siapa yang terakhir mengeditnya, dan bahasa pengarangnya.

Dari sana, Tika menggunakan teknik lanjutan seperti Named Entity Recognition (NER) untuk menganalisis teks lebih jauh. NER mengidentifikasi kata benda dan struktur kalimat yang tepat, dan kemudian menyesuaikan informasi ini dengan database orang. Tempat, dan benda, mengidentifikasi tidak hanya siapa yang dibicarakan teks tersebut, tetapi di mana, dan mengapa mereka melakukannya. Teknik ini membantu Tika untuk secara otomatis mengidentifikasi perusahaan cangkang lepas pantai (hal-hal); dimana mereka berada; dan siapa (orang) yang menyimpan uang mereka di dalamnya sebagai bagian dari skandal Panama Papers. Yang mengungkap korupsi keuangan di antara para pemimpin politik, sosial dan teknis global.

Mengidentifikasi Aktivitas Ilegal

Perbaikan pada Tika selama proyek Memex membuatnya lebih baik dalam menangani multimedia. Dan konten lain yang ditemukan di web dalam dan gelap. Sekarang Tika dapat memproses dan mengidentifikasi gambar dengan tema umum perdagangan manusia. Misalnya, dapat secara otomatis memproses dan menganalisis teks dalam gambar. Alias korban atau indikasi tentang cara menghubunginya – dan jenis properti gambar tertentu – seperti pencahayaan kamera. Dalam beberapa gambar dan video, Tika dapat mengidentifikasi orang, tempat, dan benda yang muncul.

Software tambahan dapat membantu Tika menemukan senjata otomatis dan mengidentifikasi nomor seri senjata. Itu dapat membantu melacak apakah itu dicuri atau tidak.

Mempekerjakan Tika untuk memantau web dalam. Dan gelap secara terus-menerus dapat membantu mengidentifikasi situasi perdagangan manusia. Dan senjata segera setelah foto-foto tersebut diposting online. Itu bisa menghentikan kejahatan terjadi dan menyelamatkan nyawa.

Memex belum cukup kuat untuk menangani semua konten yang ada, atau untuk membantu penegakan hukum secara komprehensif. Berkontribusi pada upaya kemanusiaan untuk menghentikan perdagangan manusia dan bahkan berinteraksi dengan mesin telusur komersial.

Ini akan membutuhkan lebih banyak pekerjaan, tetapi kami membuatnya lebih mudah untuk mencapai tujuan tersebut. Tika dan paket perangkat lunak terkait adalah bagian dari pustaka perangkat lunak. Sumber terbuka yang tersedia di Katalog Terbuka DARPA untuk siapa saja. Dalam penegakan hukum, komunitas intelijen, atau masyarakat luas – yang ingin menyinari yang dalam dan gelap.…

Komputer pertama berharga jutaan dolar dan dikunci di dalam ruangan yang dilengkapi sirkuit listrik khusus dan AC. Satu-satunya orang yang dapat menggunakannya telah dilatih untuk menulis program dalam bahasa komputer tertentu. Saat ini, interaksi berbasis gerakan, menggunakan bantalan multisentuh dan layar sentuh. Dan eksplorasi ruang 3D virtual memungkinkan kita berinteraksi dengan perangkat digital. Dengan cara yang sangat mirip dengan cara kita berinteraksi dengan objek fisik.

Dunia baru yang imersif ini tidak hanya terbuka untuk dialami lebih banyak orang; itu juga memungkinkan hampir semua orang untuk melatih kreativitas dan kecenderungan inovatif mereka sendiri. Kemampuan ini tidak lagi bergantung pada ahli matematika atau ahli pengkodean. “A-Frame” dari Mozilla membuat tugas membangun model realitas virtual yang kompleks menjadi jauh lebih mudah bagi pemrogram. Dan perangkat lunak “Kuas Virtual” Google memungkinkan orang untuk membangun dan mengedit dunia 3D tanpa keahlian pemrograman sama sekali.

Penelitian saya sendiri berharap dapat mengembangkan fase berikutnya dari interaksi manusia-komputer. Kami memantau aktivitas otak orang-orang secara real time dan mengenali pemikiran tertentu (tentang “pohon” versus “anjing” atau topping pizza tertentu). Ini akan menjadi satu lagi langkah dalam perkembangan sejarah yang telah membawa teknologi ke massa. Dan akan semakin memperluas penggunaannya di tahun-tahun mendatang.

Mengurangi Keahlian yang Dibutuhkan

Dari komputer awal yang bergantung pada bahasa pemrograman khusus mesin. Peningkatan besar pertama yang memungkinkan lebih banyak orang menggunakan komputer adalah pengembangan bahasa pemrograman Fortran. Ini memperluas jangkauan programmer menjadi ilmuwan. Dan insinyur yang merasa nyaman dengan ekspresi matematika. Ini adalah era kartu berlubang, ketika program ditulis dengan melubangi stok kartu. Dan keluarannya tidak memiliki grafik – hanya karakter keyboard.

Pada akhir 1960-an, pembuat plot mekanis membiarkan pemrogram menggambar gambar sederhana dengan menyuruh komputer menaikkan atau menurunkan pena. Dan memindahkannya ke jarak tertentu secara horizontal atau vertikal di atas selembar kertas. Perintah dan grafiknya sederhana, tetapi bahkan menggambar kurva dasar memerlukan pemahaman trigonometri. Untuk menentukan interval yang sangat kecil dari garis horizontal dan vertikal yang akan terlihat seperti kurva setelah selesai.

Tahun 1980-an memperkenalkan apa yang telah menjadi antarmuka jendela, ikon, dan mouse yang sudah dikenal. Itu memberi para nonprogramer waktu yang jauh lebih mudah untuk membuat gambar – sedemikian rupa sehingga banyak penulis. Dan seniman komik berhenti menggambar dengan tinta dan mulai bekerja dengan tablet komputer. Film animasi menjadi digital, karena programmer mengembangkan alat berpemilik yang canggih untuk digunakan oleh animator.

Alat yang lebih sederhana tersedia secara komersial untuk konsumen. Pada awal 1990-an pustaka OpenGL memungkinkan pemrogram untuk membangun model digital 2D dan 3D. Dan menambahkan warna, pergerakan dan interaksi ke model ini.

Bentuk Baru Tampilan 3D

Dalam beberapa tahun terakhir, tampilan 3D telah menjadi jauh lebih kecil. Dan lebih murah daripada CAVE multi-juta dolar dan sistem imersif serupa di tahun 1990-an. Mereka membutuhkan ruang dengan lebar 30 kaki, panjang 30 kaki. Dan tinggi 20 kaki agar sesuai dengan sistem proyeksi belakang mereka. Sekarang pemegang smartphone dapat memberikan tampilan 3D pribadi dengan harga kurang dari US $100.

Antarmuka pengguna juga menjadi lebih kuat. Bantalan multisentuh dan layar sentuh mengenali gerakan beberapa jari di permukaan, sedangkan perangkat seperti Wii. Dan Kinect mengenali gerakan lengan dan kaki. Sebuah perusahaan bernama Fove telah bekerja untuk mengembangkan headset VR yang akan melacak mata pengguna. Dan yang akan, di antara kemampuan lainnya, memungkinkan orang melakukan kontak mata dengan karakter virtual.

Merencanakan Jangka Panjang

Penelitian saya sendiri membantu mengarahkan kita menuju apa yang disebut “komputasi dengan kecepatan berpikir”. Proyek open-source berbiaya rendah seperti OpenBCI memungkinkan orang menyusun neuroheadset mereka sendiri yang menangkap aktivitas otak secara noninvasif.

Sepuluh hingga 15 tahun dari sekarang, sistem perangkat keras/perangkat lunak. Yang menggunakan neuroheadset semacam itu dapat membantu saya dengan mengenali kata benda yang telah saya pikirkan dalam beberapa menit terakhir. Jika itu memutar ulang topik dari pemikiran saya baru-baru ini. Saya dapat menelusuri kembali langkah-langkah saya dan mengingat pikiran apa yang memicu pikiran terbaru saya.

Dengan lebih banyak kecanggihan, mungkin seorang penulis bisa memakai neuroheadset murah, membayangkan karakter, lingkungan dan interaksi mereka. Komputer dapat menyampaikan draf pertama cerita pendek, baik sebagai file teks. Atau bahkan file video yang menunjukkan adegan dan dialog yang dihasilkan dalam pikiran penulis.

Bekerja Menuju Masa Depan

Begitu pikiran manusia dapat berkomunikasi langsung dengan komputer, dunia baru akan terbuka di hadapan kita. Suatu hari, saya ingin bermain game di dunia virtual yang menggabungkan dinamika sosial seperti di game eksperimental “Prom Week” dan “Façade” dan di game komersial “Blood & Laurels”.

Jenis pengalaman ini tidak akan terbatas pada permainan game. Platform perangkat lunak seperti Versu yang disempurnakan dapat memungkinkan saya untuk menulis jenis game tersebut.  Mengembangkan karakter di lingkungan virtual yang sama yang akan mereka tempati.

Bertahun-tahun yang lalu. Saya membayangkan aplikasi yang dapat dimodifikasi dengan mudah yang memungkinkan saya memiliki tumpukan kertas virtual. Yang melayang di sekitar saya sehingga saya dapat dengan mudah mengambil. Dan menelusuri untuk menemukan referensi yang saya perlukan untuk sebuah proyek. Saya suka itu. Saya juga akan sangat menikmati bermain “Quidditch” dengan orang lain. Sementara kita semua mengalami sensasi terbang melalui monitor yang dipasang di kepala. Dan mengontrol sapu kita dengan memiringkan dan memutar tubuh kita.

Setelah rekaman gerak berbiaya rendah tersedia, saya membayangkan bentuk-bentuk baru penceritaan digital. Bayangkan sekelompok teman memerankan sebuah cerita, lalu mencocokkan tubuh mereka. Dan gerakan mereka yang ditangkap dengan avatar 3D untuk menghidupkan kembali kisah tersebut di dunia sintetis. Mereka dapat menggunakan beberapa kamera virtual untuk “memfilmkan” aksi dari berbagai perspektif, dan kemudian membuat video.

Kreativitas semacam ini dapat menghasilkan proyek yang jauh lebih kompleks, semua disusun dalam benak pembuat konten dan dijadikan pengalaman virtual. Sejarawan amatir tanpa keterampilan pemrograman suatu hari nanti mungkin dapat membangun sistem augmented reality. Di mana mereka dapat menempatkan gambar-gambar pilihan dunia nyata dari foto bersejarah. Atau model digital bangunan yang sudah tidak ada lagi ke pemandangan dunia nyata. Akhirnya mereka dapat menambahkan avatar yang dapat digunakan untuk berkomunikasi dengan pengguna. Seiring kemajuan teknologi dan semakin mudah digunakan, diorama yang dibuat dari karton, tanah liat pemodelan. Dan ranting oleh anak-anak 50 tahun yang lalu suatu hari nanti dapat menjadi ruang virtual seukuran kehidupan yang dapat dieksplorasi.…