Media Internet

Menelusuri Dalam dan Gelap: Membangun Google untuk Bagian Web yang Kurang Terlihat

  • by

Di dunia yang kaya data saat ini, perusahaan, pemerintah. Dan individu ingin menganalisis apa saja dan apa saja yang bisa mereka dapatkan. Dan World Wide Web memiliki banyak informasi. Saat ini, materi yang paling mudah diindeks dari web adalah teks. Tetapi sebanyak 89 hingga 96 persen konten di internet sebenarnya adalah sesuatu yang lain. Gambar, video, audio, dalam ribuan jenis data nontekstual yang berbeda.

Selain itu, sebagian besar konten online tidak tersedia dalam bentuk yang mudah diindeks oleh sistem pengarsipan elektronik seperti milik Google. Sebaliknya, ini mengharuskan pengguna untuk masuk, atau disediakan secara dinamis oleh program yang berjalan saat pengguna mengunjungi halaman. Jika kita akan membuat katalog pengetahuan manusia secara online, kita harus yakin bahwa kita dapat mengakses. Dan mengenali semuanya, dan kita dapat melakukannya secara otomatis.

Bagaimana kami dapat mengajarkan komputer untuk mengenali, mengindeks, dan menelusuri semua jenis materi yang tersedia secara online? Berkat upaya federal dalam perang global melawan perdagangan manusia dan perdagangan senjat. Penelitian saya menjadi dasar bagi alat baru yang dapat membantu upaya ini.

Memahami Apa yang Dalam

“Web dalam” dan “web gelap” sering kali dibahas dalam konteks berita atau film menakutkan seperti “Web Dalam”. Di mana penjahat muda dan cerdas melakukan aktivitas ilegal seperti perdagangan narkoba dan perdagangan manusia – atau bahkan lebih buruk. Tapi apa arti istilah-istilah ini?

“Web dalam” telah ada sejak bisnis dan organisasi, termasuk universitas. Menempatkan database besar secara online dengan cara yang tidak dapat dilihat orang secara langsung. Daripada mengizinkan siapa pun untuk mendapatkan nomor telepon dan alamat email siswa. Misalnya, banyak universitas mengharuskan orang untuk masuk sebagai anggota komunitas kampus sebelum menelusuri direktori online untuk informasi kontak. Layanan online seperti Dropbox dan Gmail dapat diakses publik dan merupakan bagian dari World Wide Web. Tetapi pengindeksan file dan email pengguna di situs ini memerlukan login individu, yang tidak termasuk dalam proyek kami.

“Web permukaan” adalah dunia online yang dapat kita lihat – situs belanja, halaman informasi bisnis, organisasi berita, dan sebagainya. “Web dalam” terkait erat, tetapi kurang terlihat, bagi pengguna manusia dan – dalam beberapa hal yang lebih penting. Dengan mesin telusur yang menjelajahi web untuk membuat katalognya. Saya cenderung mendeskripsikan “web dalam” sebagai bagian dari internet publik yang:

  1. Mewajibkan pengguna untuk mengisi formulir login terlebih dahulu,
  2. Libatkan konten dinamis seperti AJAX atau Javascript, atau
  3. Menampilkan gambar, video, dan informasi lainnya dengan cara yang biasanya tidak diindeks dengan benar oleh layanan penelusuran.

Apa yang Gelap?

Sebaliknya, “web gelap” adalah halaman – beberapa di antaranya mungkin juga memiliki elemen “web dalam”. Yang dihosting oleh server web menggunakan protokol web anonim yang disebut Tor. Awalnya dikembangkan oleh peneliti Departemen Pertahanan AS untuk mengamankan informasi sensitif, Tor dirilis ke domain publik pada tahun 2004.

Seperti banyak sistem aman seperti aplikasi perpesanan WhatsApp, tujuan aslinya adalah untuk kebaikan. Tetapi juga telah digunakan oleh penjahat yang bersembunyi di balik anonimitas sistem. Beberapa orang menjalankan situs Tor yang menangani aktivitas terlarang, seperti perdagangan narkoba. Perdagangan senjata dan manusia, dan bahkan pembunuhan untuk disewa.

Pemerintah AS tertarik untuk mencoba menemukan cara menggunakan teknologi informasi modern dan ilmu komputer untuk memerangi aktivitas kriminal ini. Pada tahun 2014, Badan Proyek Penelitian Lanjutan Pertahanan (lebih dikenal sebagai DARPA), bagian dari Departemen Pertahanan. Meluncurkan program bernama Memex untuk memerangi perdagangan manusia dengan alat-alat ini.

Secara khusus, Memex ingin membuat indeks pencarian yang akan membantu penegak hukum mengidentifikasi operasi perdagangan manusia secara online. Khususnya dengan menambang web dalam dan gelap. Salah satu sistem utama yang digunakan oleh tim pakar proyek, pegawai pemerintah. Dan pakar industri adalah yang saya bantu kembangkan, yang disebut Apache Tika.

‘Ikan Babel Digital’

Tika sering disebut sebagai “ikan Babel digital”. Plesetan dari makhluk yang disebut “ikan Babel” dalam seri buku “Hitchhiker’s Guide to the Galaxy”. Setelah dimasukkan ke telinga seseorang, ikan Babel memungkinkannya memahami bahasa apa pun yang digunakan. Tika memungkinkan pengguna memahami file apa pun dan informasi yang terkandung di dalamnya.

Saat Tika memeriksa sebuah file, secara otomatis Tika mengidentifikasi jenis file itu – seperti foto, video atau audio. Ini dilakukan dengan taksonomi informasi yang dikurasi tentang file: nama mereka, ekstensi mereka, semacam “sidik jari digital. Saat menemukan file yang namanya diakhiri dengan “.MP4”, misalnya, Tika menganggapnya sebagai file video yang disimpan dalam format MPEG-4. Dengan menganalisis data dalam file secara langsung, Tika dapat mengkonfirmasi atau menyangkal asumsi tersebut. Semua video, audio, gambar, dan file lainnya harus dimulai dengan kode tertentu yang menyatakan format penyimpanan datanya.

Setelah jenis file diidentifikasi, Tika menggunakan alat khusus untuk mengekstrak kontennya seperti Apache PDFBox untuk file PDF. Atau Tesseract untuk mengambil teks dari gambar. Selain konten, informasi forensik atau “metadata” lainnya ditangkap termasuk tanggal pembuatan file, siapa yang terakhir mengeditnya, dan bahasa pengarangnya.

Dari sana, Tika menggunakan teknik lanjutan seperti Named Entity Recognition (NER) untuk menganalisis teks lebih jauh. NER mengidentifikasi kata benda dan struktur kalimat yang tepat, dan kemudian menyesuaikan informasi ini dengan database orang. Tempat, dan benda, mengidentifikasi tidak hanya siapa yang dibicarakan teks tersebut, tetapi di mana, dan mengapa mereka melakukannya. Teknik ini membantu Tika untuk secara otomatis mengidentifikasi perusahaan cangkang lepas pantai (hal-hal); dimana mereka berada; dan siapa (orang) yang menyimpan uang mereka di dalamnya sebagai bagian dari skandal Panama Papers. Yang mengungkap korupsi keuangan di antara para pemimpin politik, sosial dan teknis global.

Mengidentifikasi Aktivitas Ilegal

Perbaikan pada Tika selama proyek Memex membuatnya lebih baik dalam menangani multimedia. Dan konten lain yang ditemukan di web dalam dan gelap. Sekarang Tika dapat memproses dan mengidentifikasi gambar dengan tema umum perdagangan manusia. Misalnya, dapat secara otomatis memproses dan menganalisis teks dalam gambar. Alias korban atau indikasi tentang cara menghubunginya – dan jenis properti gambar tertentu – seperti pencahayaan kamera. Dalam beberapa gambar dan video, Tika dapat mengidentifikasi orang, tempat, dan benda yang muncul.

Software tambahan dapat membantu Tika menemukan senjata otomatis dan mengidentifikasi nomor seri senjata. Itu dapat membantu melacak apakah itu dicuri atau tidak.

Mempekerjakan Tika untuk memantau web dalam. Dan gelap secara terus-menerus dapat membantu mengidentifikasi situasi perdagangan manusia. Dan senjata segera setelah foto-foto tersebut diposting online. Itu bisa menghentikan kejahatan terjadi dan menyelamatkan nyawa.

Memex belum cukup kuat untuk menangani semua konten yang ada, atau untuk membantu penegakan hukum secara komprehensif. Berkontribusi pada upaya kemanusiaan untuk menghentikan perdagangan manusia dan bahkan berinteraksi dengan mesin telusur komersial.

Ini akan membutuhkan lebih banyak pekerjaan, tetapi kami membuatnya lebih mudah untuk mencapai tujuan tersebut. Tika dan paket perangkat lunak terkait adalah bagian dari pustaka perangkat lunak. Sumber terbuka yang tersedia di Katalog Terbuka DARPA untuk siapa saja. Dalam penegakan hukum, komunitas intelijen, atau masyarakat luas – yang ingin menyinari yang dalam dan gelap.…

Lebih murah, ditambah chip yang lebih cepat

Microsoft telah meluncurkan versi yang lebih murah dari notebook populer Windows 10 PC. Laptop tersebut diberi nama Surface Laptop Go, bersama dengan tablet Surface Pro X yang lebih cepat.

Diumumkan melalui acara pers, Surface Laptop Go adalah versi Surface Laptop 3 yang lebih kecil, lebih ringan, dan lebih murah. Microsoft berupaya menawarkan pengalaman Windows 10 premium yang sama. Namun dijual dengan harga yang lebih murah, yaitu berharga £ 549,99 di Inggris atau $549,99 di AS.

Laptop Go memiliki layar 12,4 inci yang lebih kecil tetapi terlihat seperti Laptop 3. Ini memiliki keyboard ukuran yang sama dan trackpad presisi yang besar. Laptop Go juga memiliki webcam HD 720p dan sepasang mikrofon berkualitas studio untuk panggilan video yang lebih baik. Menurut klaim Microsoft, penawaran tersebut jarang terjadi pada mesin sekelas ini.

Dibekali prosesor Intel Core i5 generasi ke-10 dengan RAM 4 atau 8GB dan pilihan opsi penyimpanan. Ditenagai baterai yang tahan 13 jam dan pengisian cepat. Memiliki pilihan port yang sama dengan saudara kandungnya yang lebih besar. Port tersebut berupa satu port USB-C, satu port USB-A tradisional, soket headphone, dan soket Surface Connect untuk daya dan konektivitas. Laptop Go juga mendukung standar wifi 6 dan Bluetooth 5 terbaru.

Satu hal yang kurang dari Laptop Go adalah kamera pengenal wajah Windows Hello Laptop 3. Sebagai gantinya, laptop ini memiliki sensor sidik jari yang terpasang di tombol daya pada model tertentu.

Tablet Surface Pro X yang lebih cepat

Bersamaan dengan Laptop Go, Microsoft juga meluncurkan pembaruan untuk tablet Surface Pro X berbasis ARM mulai tahun 2019. PC konvertibel yang diperbarui mendapatkan prosesor Microsoft SQ2 baru yang lebih cepat dan hadir dalam warna platinum baru. Tablet Surface Pro X seharga £ 1.549 di Inggris atau $1499,99 di Amerika.

Perangkat ini memiliki layar sentuh 13 inci dengan aspek rasio 3:2 dan resolusi 2880×1920. Dilansir dari GSMArena,perangkat ini dikemas ke dalam desain baru. Diklaim Microsoft sebagai yang tertipis untuk Surface pro sambil tetap mempertahankan kickstand yang khas.

Surface Pro X menawarkan pilihan memori LPDDR4x 8GB dan 16GB. Di bagian depan penyimpanan, konsumen mendapatkan pilihan 128, 256 dan 512GB SSD M. 2 2230 yang dapat dilepas. Surface Pro X memiliki kamera depan 5MP untuk video 1080p dan juga kamera terpisah untuk otentikasi wajah Windows Hello. Di bagian belakang ada kamera 10MP untuk merekam video hingga 4K. Ada juga mikrofon jarak jauh ganda, serta speaker stereo 2W dengan Dolby Audio.

Terdapat 2x port USB-C, port Surface Connect. Gigabit LTE dengan dukungan nano SIM dan eSIM, A-GPS, Wi Fi 802.11ac dan Bluetooth 5.0 di perangkat ini.

Microsoft juga mengatakan telah memperbaiki salah satu kekurangan dari sistem berbasis ARM yang baru. Basis ARM yang baru mendukung aplikasi Windows tradisional yang jauh lebih luas melalui emulasi x64. Surface Pro X kompatibel dengan keyboard Surface Pro X dari tahun lalu (dijual terpisah $104). Hal yang sama berlaku untuk Surface Slim Pen, yang harganya $145 .

Surface Laptop Go dan Surface Pro X  akan miulai dikirimkan pada 13 Oktober di AS dan 27 Oktober di Inggris.

Harga Surface Pro X

Surface Pro X yang diperbarui ini tersedia untuk praorder hari ini. Mulai dari $1.499, dan akan mulai dikirimkan pada 13 Oktober di AS. Sekarang ada empat model Pro X yang tersedia untuk konsumen:

Surface Pro X – Prosesor SQ1, RAM 8 GB, penyimpanan SSD 128 GB: $999
Surface Pro X – Prosesor SQ1, RAM 8 GB, penyimpanan SSD 256 GB: $1.299
Surface Pro X – Prosesor SQ2, RAM 16 GB, penyimpanan SSD 256 GB: $1.499
Surface Pro X – Prosesor SQ2, RAM 16 GB, penyimpanan SSD 512 GB: $1.799

Microsoft menantang Apple dengan Surface Laptop Go seharga $549

Kemunculan Microsoft mengumumkan Surface Laptop Go baru, laptop 12,4 inci seakan menantang Apple. Laptop Windows 10 yang tepat dengan tampilan yang bagus, prosesor Intel Core i5 yang cepat, dan desain yang elegan. Notebook ini juga memiliki keyboard ukuran penuh dan trackpad presisi yang besar. Berita utamanya adalah Surface Laptop Go dibandrol $549, menjadipilihan bagus untuk siswa atau siapa saja dengan budget terbatas. Bersamaan dengan Surface Laptop Go, Microsoft juga mengumumkan tablet Surface Pro X berbasis ARM yang diperbarui. Premium 2-in-1 hadir dengan prosesor kustom Microsoft SQ2 baru yang lebih cepat. Mulai dari $999, Surface Pro X ditujukan untuk menyaingi Apple iPad Pro.…